[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
生活随笔
收集整理的這篇文章主要介紹了
[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
[python]?view plaincopy
#?-*-?coding:?utf-8?-*-?? #---------------------------------------?? #???程序:百度貼吧爬蟲?? #???版本:0.1?? #???作者:why?? #???日期:2013-05-14?? #???語言:Python?2.7?? #???操作:輸入帶分頁的地址,去掉最后面的數字,設置一下起始頁數和終點頁數。?? #???功能:下載對應頁碼內的所有頁面并存儲為html文件。?? #---------------------------------------?? ??? import?string,?urllib2?? ??? #定義百度函數?? def?baidu_tieba(url,begin_page,end_page):????? ????for?i?in?range(begin_page,?end_page+1):?? ????????sName?=?string.zfill(i,5)?+?'.html'#自動填充成六位的文件名?? ????????print?'正在下載第'?+?str(i)?+?'個網頁,并將其存儲為'?+?sName?+?'......'?? ????????f?=?open(sName,'w+')?? ????????m?=?urllib2.urlopen(url?+?str(i)).read()?? ????????f.write(m)?? ????????f.close()?? ??? ??? #--------?在這里輸入參數?------------------?? ?? #?這個是山東大學的百度貼吧中某一個帖子的地址?? #bdurl?=?'http://tieba.baidu.com/p/2296017831?pn='?? #iPostBegin?=?1?? #iPostEnd?=?10?? ?? bdurl?=?str(raw_input(u'請輸入貼吧的地址,去掉pn=后面的數字:\n'))?? begin_page?=?int(raw_input(u'請輸入開始的頁數:\n'))?? end_page?=?int(raw_input(u'請輸入終點的頁數:\n'))?? #--------?在這里輸入參數?------------------?? ??? ?? #調用?? baidu_tieba(bdurl,begin_page,end_page)??
總結
以上是生活随笔為你收集整理的[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用js脚本实现链接
- 下一篇: HDU 5908 Abelian Per