python从零写一个采集器:获取网页信息
- 博客鏈接 https://uublog.com/article/20170216/python-extarct-html-info/
前言
獲取內(nèi)容,比較糾結(jié)是用BeautifulSoup還是直接用正則匹配好。BeautifulSoup簡單清晰,但是不夠靈活。
正則則相反。
正文
信息位置的分析
像網(wǎng)盤,我們要提取的信息主要有共享者ID、資源名、網(wǎng)盤URL、資源大小、創(chuàng)建時(shí)間等等。搞清楚這些信息的位置,不是本文的重點(diǎn),所以這里假設(shè)已經(jīng)清楚了信息的位置,然后提取就行了。用共享者ID、資源名、網(wǎng)盤URL做個(gè)示范。
舉個(gè)栗子,比如莽荒紀(jì).zip的資源,URL是:http://www.sobaidupan.com/file-106010793.html從HTML中我們可以獲得如下信息:
- 資源名:莽荒紀(jì).zip
- 共享者ID: http://www.sobaidupan.com/user-2082813876-1.html
- 網(wǎng)盤URL: http://sbdp.baidudaquan.com/down.asp?id=106010793&token=c4e0d8de4bf94fe0d86a6b4f675fe176
而 2082813876是sobaidupan.com的站內(nèi)ID,也是百度云盤的用戶ID。這就好辦了。
但是資源的URL還要進(jìn)一步加載http://sbdp.baidudaquan.com/down.asp?id=16166237&token=301efbbe2c138d150b41b5813a3d4077才能知道。
源碼如下:
源碼里的http://pan.baidu.com/share/link?shareid=3994307345&uk=2755655514&fid=45639734040097正是我們要的資源。
也就是說,要提取莽荒紀(jì)的資源名稱,至少得加載兩次URL,才能將信息提取全。
第一次加載:http://www.sobaidupan.com/user-2082813876-1.html
得到資源名、共享者ID和網(wǎng)盤的站內(nèi)地址http://sbdp.baidudaquan.com/down.asp?id=106010793&token=c4e0d8de4bf94fe0d86a6b4f675fe176第二次加載: http://sbdp.baidudaquan.com/down.asp?id=106010793&token=c4e0d8de4bf94fe0d86a6b4f675fe176提取出網(wǎng)盤的真實(shí)地址。
提取信息
獲取網(wǎng)站源碼
上一篇日志提到如何提取源碼。我把它放到一個(gè)叫yzyPublic.py文件里。所以等下得先導(dǎo)入這個(gè)文件再使用。
import yzyPublicres = yzyPublic.get_web_source('http://www.sobaidupan.com/file-106010793.html') print resres內(nèi)容如下:
<!DOCTYPE html> <html xmlns=http://www.w3.org/1999/xhtml> <head> <meta http-equiv=X-UA-Compatible content="IE=edge,chrome=1"> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <link rel="stylesheet" type="text/css" href="style.css" /><title>莽荒紀(jì).zip_zgh*****1617_百度云盤下載 - 搜百度盤</title> <meta name="keywords" content="莽荒紀(jì).zip" /> <meta name="description" content="小說/修真/莽荒紀(jì).zip" /> <style type="text/css"> <!-- .f_color {color: #FFFFFF;font-weight: bold; } --> </style> </head> <body> <div class="headtop"><div class="headtop_f"><B>搜百度盤(SoBaiduPan.com)</B> 是基于百度云搜索,最大的百度云盤資源搜索中心,千萬級(jí)大數(shù)據(jù)量,讓您一網(wǎng)打盡所有的百度網(wǎng)盤資源.</div> </div> <div class="site_head w c"><div class="sitelogo"><a href="/"><img src="image/logo.gif" border="0" title="SoBaiduPan.com"></a></div><div class="top_allsite" id="top_allsite"><ul><script type="text/javascript" src="top_txtad.asp"></script></ul></div> </div> <div class="menu w c"><ul><li><a href="http://www.sobaidupan.com">首 頁</a></li><li><a href="list-1-1.html">最新資源</a></li><li><a href="zhuan-1-1.html">影視目錄</a></li><li><a href="zhuan-2-1.html">小說目錄</a></li><li><a href="list-28-1.html">影視資源</a></li><li><a href="list-30-1.html">動(dòng)漫資源</a></li><li><a href="list-29-1.html">小說資源</a></li><li><a href="zhuan-3-1.html">綜合資源</a></li><li><a href="http://soft.sobaidupan.com" target="_blank" title="百度云下載器">云下載器</a></li><li><a href="m.asp" title="移動(dòng)端訪問">手機(jī)專版</a></li><li><a href="http://weipan.sobaidupan.com" title="新浪微盤資源搜索" target="_blank">新浪微盤</a></li><li><a href="about.asp?id=2" title="在線發(fā)布共享資源">發(fā)布資源</a></li><li><a href="http://bbs.sobaidupan.com" title="建議留言" target="_blank"><font color="#FFFF00">建議留言</font></a></li></ul> </div><div class="smenu c"><div class="smenu_nav"><a href="list-3-1.html">torrent</a><a href="list-5-1.html">rmvb</a><a href="list-4-1.html">mp4</a><a href="list-7-1.html">mp3</a><a href="list-9-1.html">avi</a><a href="list-8-1.html">epub</a><a href="list-10-1.html">mkv</a><a href="list-11-1.html">flv</a><a href="list-12-1.html">pdf</a><a href="list-13-1.html">pps</a><a href="list-15-1.html">psd</a><a href="list-16-1.html">iso</a><a href="list-17-1.html">ghost</a><a href="list-19-1.html">exe</a><a href="list-20-1.html">txt</a><a href="list-21-1.html">apk</a><a href="list-22-1.html">ipa</a><a href="list-24-1.html">wps</a><a href="list-25-1.html">rtf</a><a href="list-26-1.html">vob</a><a href="list-13-1.html">ppt/pptx</a><a href="list-27-1.html">xls/xlsx</a><a href="list-14-1.html">doc/docx</a><a href="list-18-1.html">rar/zip</a></div> </div><div class="search w c"> <table width="100%" height="90" border="0" align="center" cellpadding="0" cellspacing="1"><tr><td><script type="text/javascript" src="ad/top1_580x90.js"></script></td><td><a href="adgo.asp?id=30" target="_blank"><img src="ad/ad2.jpg"></a></td></tr> </table> <div class="fgx"></div><form id="form1" name="form1" method="get" action="search.asp" ><img src="image/s.png" width="32" height="32" align="absmiddle"> 請(qǐng)您輸入搜索內(nèi)容:<input name="wd" id="wd" placeholder="共108,789,857個(gè)資源,今日已更新2382..." type="text" size="30" value="" autocomplete="off" /><input type="submit" id="Su" tabindex="2" value="網(wǎng)盤搜索" style="cursor:hand;"> <img src="image/soso.gif" width="23" height="21" align="absmiddle"><a href="about.asp?id=1" target="_blank"><font color="red"><b>點(diǎn)擊打賞本站</b></font> <a href="http://koubei.baidu.com/s/www.sobaidupan.com" target="_blank"><b>點(diǎn)擊支持本站</b></a> <img src="image/new.gif" width="22" height="14" align="absmiddle"> <a href="http://soft.sobaidupan.com" target="_blank"><font color="red"><b>百度云搜索器</b></font></a></form> </div> <script type="text/javascript" charset="gbk" src="opensug.js"></script> <script type="text/javascript"> var txtObj = document.getElementById("alertSpan"); function show(str){ window.location.href="search.asp?r=0&wd="+encodeURIComponent(str); } var params = { "XOffset":0, "YOffset":0, "width":204, "fontColor":"#f70", "fontColorHI":"#FFF", "fontSize":"15px", "fontFamily":"宋體", "borderColor":"gray", "bgcolorHI":"#03c", "sugSubmit":false }; BaiduSuggestion.bind("wd",params,show); </script><div class="main w c"><div class="art_bt_box w c"><ul><li><h1>莽荒紀(jì).zip</h1></li></ul></div><div class="art_box"><table border="0"><tr><td width="250" valign="top" ><table width="250" border="0" cellpadding="0" cellspacing="1" bordercolor="#3E92CF" bgcolor="#3E92CF"><tr><td width="250" height="119" bgcolor="#FFFFFF" ><div align="center"><a href="user-2082813876-1.html"><img src="http://himg.bdimg.com/sys/portrait/item/797c6b21.jpg" width="100" height="100" border="0"></a></div></td></tr><tr><td height="40" bgcolor="#FFFFFF" ><div align="center">用戶名:zgh*****1617</div></td></tr><tr><td height="40" bgcolor="#FFFFFF" ><div align="center"><a href="user-2082813876-1.html"><img src="image/jrzy.gif" width="89" height="24" border="0"></a></div></td></tr><tr><td bgcolor="#FFFFFF" ><script src="ad/250x250.js" type="text/javascript"></script></div></td></tr><tr><td height="35" bgcolor="#3E92CF" > <span class="f_color">Ta 分享的其它資源:</span></td></tr><tr><td height="40" bgcolor="#FFFFFF"><ul><li> <a href="file-1266183.html" title=網(wǎng)游——屠龍巫師.zip>網(wǎng)游——屠龍巫師.zip</a></li><li> <a href="file-1266216.html" title=網(wǎng)游-夢(mèng)幻現(xiàn)實(shí).zip>網(wǎng)游-夢(mèng)幻現(xiàn)實(shí).zip</a></li><li> <a href="file-1266234.html" title=神也玩轉(zhuǎn)網(wǎng)游.zip>神也玩轉(zhuǎn)網(wǎng)游.zip</a></li><li> <a href="file-1668670.html" title=魔獸英雄.zip>魔獸英雄.zip</a></li><li> <a href="file-1668832.html" title=阿亞羅克年代記.zip>阿亞羅克年代記.zip</a></li><li> <a href="file-1668883.html" title=重生之福星道士.zip>重生之福星道士.zip</a></li><li> <a href="file-1668930.html" title=重生之極限風(fēng)流.zip>重生之極限風(fēng)流.zip</a></li><li> <a href="file-1669255.html" title=英雄無敵之大航海時(shí)代.zip>英雄無敵之大航海時(shí)代.zip</a></li><li> <a href="file-1674467.html" title=網(wǎng)游之霸世神偷.zip>網(wǎng)游之霸世神偷.zip</a></li><li> <a href="file-2013963.html" title=霸王怒.zip>霸王怒.zip</a></li></ul></td></tr><tr><td bgcolor="#FFFFFF" ><script src="ad/250x250-2.js" type="text/javascript"></script></td></tr><tr><td height="35" bgcolor="#3E92CF" > <span class="f_color">其它網(wǎng)友正在下載的資源:</span></td></tr><tr><td bgcolor="#FFFFFF" ><ul><li> <a href="file-830.html" title=橄欖油 - 副本5.psd>橄欖油 - 副本5.psd</a></li><li> <a href="file-829.html" title=百度云管家 v4.8.0 綠色版 i2i2.cn.rar>百度云管家 v4.8.0 綠色版 i2i2.cn.rar</a></li><li> <a href="file-828.html" title=百度云管家 v4.8.0 單文件版 i2i2.cn.rar>百度云管家 v4.8.0 單文件版 i2i2.cn.rar</a></li><li> <a href="file-827.html" title=第1天上午.5.mp3>第1天上午.5.mp3</a></li><li> <a href="file-826.html" title=第2天下午.8.mp3>第2天下午.8.mp3</a></li><li> <a href="file-825.html" title=第2天上午.7.mp3>第2天上午.7.mp3</a></li><li> <a href="file-824.html" title=第1天下午.5.mp3>第1天下午.5.mp3</a></li><li> <a href="file-823.html" title=第1天上午.4.mp3>第1天上午.4.mp3</a></li><li> <a href="file-822.html" title=第2天下午.6.mp3>第2天下午.6.mp3</a></li><li> <a href="file-821.html" title=第1天下午.7.mp3>第1天下午.7.mp3</a></li></ul></td></tr></table></td><td height="61" align="left" valign="top" ><table width="100%" border="0" align="left" cellpadding="0" cellspacing="0" bordercolor="#3E92CF" bgcolor="#3E92CF"><tr><td bgcolor="#FFFFFF" ><script type='text/javascript' src='http://m1.sobaidupan.com/fr3a1ec292ffc2f63fdb146392acb024e057e3d4002ef230ec51322bda.js'></script></td></tr><tr><td bgcolor="#FFFFFF" ><div class="fgx"></div></td></tr><tr><td style="line-height: 30px" bgcolor="#FFFFFF" ><div align="left"> <B>資源名稱:</B>莽荒紀(jì).zip</div></td></tr><tr><td style="line-height: 30px" bgcolor="#FFFFFF" ><div align="left"> <B>資源類別:</B>小說/修真</div></td></tr><tr><td style="line-height: 30px" bgcolor="#FFFFFF" ><div align="left"> <B>資源大小:</B>3.83 MB <b>資料擴(kuò)展名:</b>.zip <b>訪問/下載次數(shù)</b>:10/9 <b>分享日期:</b>2016/9/5 11:13:00</div></td></tr> <tr><td bgcolor="#FFFFFF" ><div class="fgx"></div></td></tr><tr><td bgcolor="#FFFFFF" ><table width="100%" border="0" align="left"><tr><td width="155"><div align="center"><a href="http://sbdp.baidudaquan.com/down.asp?id=106010793&token=c4e0d8de4bf94fe0d86a6b4f675fe176" title="莽荒紀(jì).zip -百度網(wǎng)盤下載" target="_blank"><img src="image/wpdown.gif" width="137" height="34" border="0"></a></div></td><td width="152" bgcolor="#FFFFFF" ><div align="center"><a href="#" onclick="javascript:alert('違法信息舉報(bào)信箱:sobaidupan@126.com')"><img src="image/zaixjb.gif" width="137" height="34" border="0" title="舉報(bào)資源" style="cursor:pointer" id="police" ></a></div></td><td width="497" bgcolor="#FFFFFF" > <div class="bdsharebuttonbox"><a href="#" class="bds_more" data-cmd="more">分享到:</a><a href="#" class="bds_qzone" data-cmd="qzone" title="分享到QQ空間">QQ空間</a><a href="#" class="bds_tieba" data-cmd="tieba" title="分享到百度貼吧">百度貼吧</a><a href="#" class="bds_weixin" data-cmd="weixin" title="分享到微信">微信</a><a href="#" class="bds_tsina" data-cmd="tsina" title="分享到新浪微博">新浪微博</a><a href="#" class="bds_douban" data-cmd="douban" title="分享到豆瓣網(wǎng)">豆瓣網(wǎng)</a></div></td></tr></table></td></tr><tr><td bgcolor="#FFFFFF" ><div class="fgx"></div><script src="ad/728x90_2.js" type="text/javascript"></script></td></tr><tr><td bgcolor="#FFFFFF" ><div id="hm_t_97521"></div></td></tr><tr><td bgcolor="#FFFFFF" ><div class="fgx"></div><div align="left"><script src="ad/336x280.js" type="text/javascript"></script></div></td></tr><tr><td height="35" bgcolor="#3E92CF" > <span class="f_color">相關(guān)資源:</span></td></tr><tr><td height="40" bgcolor="#FFFFFF" ><ul><li> <a href="file-12334474.html" title=仙符問道.zip>仙符問道.zip</a></li><li> <a href="file-12335167.html" title=隨身副本闖仙界.zip>隨身副本闖仙界.zip</a></li><li> <a href="file-12335453.html" title=齊宇問道.zip>齊宇問道.zip</a></li><li> <a href="file-12335876.html" title=貓行天下.zip>貓行天下.zip</a></li><li> <a href="file-12336124.html" title=極品修真邪少.zip>極品修真邪少.zip</a></li><li> <a href="file-12424570.html" title=極品丹師.zip>極品丹師.zip</a></li><li> <a href="file-12744895.html" title=重生之唯我獨(dú)仙.zip>重生之唯我獨(dú)仙.zip</a></li><li> <a href="file-14281154.html" title=仙緣五行.zip>仙緣五行.zip</a></li><li> <a href="file-15903276.html" title=與狐仙雙修的日子.zip>與狐仙雙修的日子.zip</a></li><li> <a href="file-15903375.html" title=修真之位面交易系統(tǒng).zip>修真之位面交易系統(tǒng).zip</a></li><li> <a href="file-15903925.html" title=拜師八戒.zip>拜師八戒.zip</a></li><li> <a href="file-15904006.html" title=重生在白蛇的世界里.zip>重生在白蛇的世界里.zip</a></li><li> <a href="file-15904154.html" title=巫也是道.zip>巫也是道.zip</a></li><li> <a href="file-15979622.html" title=僵尸問道.zip>僵尸問道.zip</a></li><li> <a href="file-16005591.html" title=大地之皇.zip>大地之皇.zip</a></li><li> <a href="file-16484435.html" title=豬八戒重生記.zip>豬八戒重生記.zip</a></li><li> <a href="file-16484613.html" title=至神傳說.zip>至神傳說.zip</a></li><li> <a href="file-16484713.html" title=星空戰(zhàn)神.zip>星空戰(zhàn)神.zip</a></li><li> <a href="file-16484798.html" title=現(xiàn)代封神榜.zip>現(xiàn)代封神榜.zip</a></li><li> <a href="file-16735997.html" title=仙俠世界之天才掌門.zip>仙俠世界之天才掌門.zip</a></li><li> <a href="file-16888626.html" title=物理高材修仙記.zip>物理高材修仙記.zip</a></li><li> <a href="file-16889125.html" title=靈樞.zip>靈樞.zip</a></li><li> <a href="file-17136845.html" title=極品仙君.zip>極品仙君.zip</a></li><li> <a href="file-17175592.html" title=將修仙進(jìn)行到底.zip>將修仙進(jìn)行到底.zip</a></li><li> <a href="file-17175765.html" title=合成修仙傳.zip>合成修仙傳.zip</a></li><li> <a href="file-17257619.html" title=我做許仙的日子.zip>我做許仙的日子.zip</a></li><li> <a href="file-17349180.html" title=少年武仙在都市.zip>少年武仙在都市.zip</a></li><li> <a href="file-17349336.html" title=超級(jí)修仙之旅.zip>超級(jí)修仙之旅.zip</a></li><li> <a href="file-17349557.html" title=嬌美仙妻愛上我.zip>嬌美仙妻愛上我.zip</a></li><li> <a href="file-18057326.html" title=極品仙商.zip>極品仙商.zip</a></li></ul></td></tr><tr><td bgcolor="#FFFFFF" ><div class="fgx"></div><!-- UJian Button BEGIN --> <div class="ujian-hook"></div> <script type="text/javascript">var ujian_config = {num:16,target:1,picSize:72,textHeight:45,hoverTextColor:'#FA1B02'};</script> <script type="text/javascript" src="http://v1.ujian.cc/code/ujian.js?uid=2087333"></script> <a href="http://www.ujian.cc" style="border:0;"><img src="http://img.ujian.cc/pixel.png" alt="友薦云推薦" style="border:0;padding:0;margin:0;" /></a> <!-- UJian Button END --></td></tr><tr><td bgcolor="#FFFFFF" ><div class="fgx"></div></td></tr><tr><td height="40" bgcolor="#3E92CF" > <span class="f_color">相關(guān)說明:</span></td></tr><tr><td height="40" bgcolor="#FFFFFF" ><div class="art_foot">莽荒紀(jì).zip為搜百度盤收集整理的結(jié)果,下載地址直接跳轉(zhuǎn)到百度網(wǎng)盤進(jìn)行下載,該文件的安全性和完整性需要您自行判斷。感謝您對(duì)本站的支持.</div> </td></tr><tr><td height="80" bgcolor="#FFFFFF" > 上一個(gè):<a href="file-106010792.html" title="netplan.zip">netplan.zip</a><div class="fgx"></div> 下一個(gè):<a href="file-106010794.html" title="斗戰(zhàn)西游.zip">斗戰(zhàn)西游.zip</a> </td></tr></table></td><td width="200" align="left" valign="top" ><script src="ad/200x200.js" type="text/javascript"></script><div class="art_left_bt"><img src="image/hot.gif" width="22" height="11"> 您可能需要的資源:</div><ul><li> <a href="file-23821718.html" title=重生之婚后試愛.txt>重生之婚后試愛.txt</a></li><li> <a href="file-23827473.html" title=時(shí)光,濃淡相宜.txt>時(shí)光,濃淡相宜.txt</a></li><li> <a href="file-25264047.html" title=[書包網(wǎng)]親愛的愛情(重生演藝圈).txt>[書包網(wǎng)]親愛的愛情(重生演藝圈).txt</a></li><li> <a href="file-25650524.html" title=[古裝言情]《二貨娘子》作者:霧矢翊(晉江VIP2014-03-17完結(jié))金牌高積分.txt>[古裝言情]《二貨娘子》作者:霧矢翊(晉江VIP2014-03-17完結(jié))金牌高積分.txt</a></li><li> <a href="file-25651309.html" title=系統(tǒng)之寵妃.txt>系統(tǒng)之寵妃.txt</a></li><li> <a href="file-25651440.html" title=后宮翻身記(重生) .txt>后宮翻身記(重生) .txt</a></li><li> <a href="file-29456136.html" title=重生之湯圓兒.txt>重生之湯圓兒.txt</a></li><li> <a href="file-29456254.html" title=《重生之換我疼你》作者:森中一小妖.txt>《重生之換我疼你》作者:森中一小妖.txt</a></li><li> <a href="file-29717792.html" title=《寵妃》作者:月非嬈.txt>《寵妃》作者:月非嬈.txt</a></li><li> <a href="file-30877984.html" title=[網(wǎng)游]舍我娶誰.txt>[網(wǎng)游]舍我娶誰.txt</a></li></ul><script src="ad/160x600.js" type="text/javascript"></script></td></tr></table></div> </div><script charset='gbk' src='http://p.tanx.com/ex?i=mm_113468001_12740314_57802967'></script> <div class="cl"></div> <div class="fgx"></div> <div class="foot"><p><img src="image/wj.png" width="36" height="43" align="absmiddle"> 搜百度盤(<a href="http://www.sobaidupan.com" title="搜百度盤">www.sobaidupan.com</a>) 2015-2018 All Rights Reserved <a href="zhaoshang.asp" title="廣告合作及投放">廣告合作</a> <a href="about.asp" title="關(guān)于本站">關(guān)于本站</a> QQ群:<a href="http://jq.qq.com/?_wv=1027&k=a2uzxT" target="_blank">385379281</a></p><p>本站僅提供百度網(wǎng)盤資源搜索和百度網(wǎng)盤資源下載的網(wǎng)站,本站只抓取百度網(wǎng)盤的鏈接而不保存任何資源. <script> var _hmt = _hmt || []; (function() {var hm = document.createElement("script");hm.src = "//hm.baidu.com/hm.js?f9d133598d63eabee77f59430aefa2ab";var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> <script type="text/javascript">var cnzz_protocol = (("https:" == document.location.protocol) ? " https://" : " http://");document.write(unescape("%3Cspan id='cnzz_stat_icon_1254604262'%3E%3C/span%3E%3Cscript src='" + cnzz_protocol + "s11.cnzz.com/stat.php%3Fid%3D1254604262' type='text/javascript'%3E%3C/script%3E"));</script> <a href="setxml.asp">sitemap.xml</a> </p><p>本站所有資源均來自互聯(lián)網(wǎng),本站只負(fù)責(zé)技術(shù)收集和整理,均不承擔(dān)任何法律責(zé)任,如有侵權(quán)違規(guī)等其它行為請(qǐng)聯(lián)系我們. <img src="image/e.jpg" width="163" height="20" align="absmiddle"></p> </div> <br /><script>window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdMiniList":["mshare","qzone","tsina","bdysc","weixin","tieba","douban","sqq","qq","hi","baidu","share189","fx","mail","copy"],"bdPic":"","bdStyle":"0","bdSize":"16"},"share":{"bdSize":16}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];</script> </body> </html> <script src="count.asp?id=106010793" type="text/javascript"></script>提取用戶ID、資源名、網(wǎng)盤URL
想了良久,還是決定使用BeautifulSoup和re正則共同完成信息的提取。
其實(shí)我個(gè)人是比較傾向于只使用正則提取,在以往我寫的其它采集器基本都是用這個(gè)完成信息的提取。抱著學(xué)習(xí)的目的,加入了beautifulsoup。
導(dǎo)入相關(guān)的模塊: BeautifulSoup和re
from bs4 import BeautifulSoup import re提取標(biāo)題
標(biāo)題這里都是存在h1標(biāo)簽里面。提取如下:
soup = BeautifulSoup(res,"html.parser") print soup.h1.textres是前面獲取的網(wǎng)頁源碼’html.parser’解析,可以理解為讓BeautifulSoup明白這個(gè)頁面是什么語言寫的。另外還有常用的lxml.
提取UID
uid這里的提取,我用了正則,覺得會(huì)簡單點(diǎn)。BeautifulSoup的話,我還是會(huì)用到正則,后面我把兩種方法都貼出來。
- 方法1 直接正則匹配
- 方法2 BeautifulSoup配合正則找出符合的href屬性
提取網(wǎng)盤URL
這里需要先提取出站內(nèi)下載的地址,加載源碼,再提取出百度網(wǎng)盤地址。文章前面有提到過了。
提取站內(nèi)下載URL
rurl = re.search('href="(http://sbdp\.baidudaquan\.com/down\.asp\?id=.+?)"',res)print rurl.group(1)提取百度網(wǎng)盤地址
dres = yzyPublic.get_web_source(rurl.group(1)) purl = re.search("URL=(http://pan\.baidu\.com/share/link\?shareid=.+?)'",dres) print purl.group(1)封裝成函數(shù)提高代碼復(fù)用
按自己習(xí)慣自己搞。不贅述。
參考資料
- Beautiful Soup 4.2.0 文檔
總結(jié)
以上是生活随笔為你收集整理的python从零写一个采集器:获取网页信息的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《STM32从零开始学习历程》——I2C
- 下一篇: Joomla模板制作教程