Python 爬虫框架 - PySpider
Python爬蟲進階四之PySpider的用法:http://cuiqingcai.com/2652.html
網(wǎng)絡爬蟲剖析,以Pyspider為例:http://python.jobbole.com/81109
Python爬蟲利器六之PyQuery的用法:https://cuiqingcai.com/2636.html
爬蟲框架pyspider個人總結(詳細)熟悉:https://www.jianshu.com/p/39c7371dd6c2
?
pyspider 和 scrapy 比較起來有什么優(yōu)缺點嗎?:https://www.zhihu.com/question/37686665
pyspider 的優(yōu)點是簡單,立刻就能上手,腳本編寫規(guī)則。懂了的話,一小時寫甚至可以寫十多個爬蟲。
scrapy 的優(yōu)點是自定義程度高,適合學習研究爬蟲技術,要學習的相關知識也較多,故而完成一個爬蟲的時間較長。
如果不知道使用哪個,可以看這篇文章的比較:
三大主流開源框架,為何Python中Scrapy如此突出:http://3g.163.com/dy/article/DNLM2IP90511HJQ3.html
?
?
PySpider
?
PySpider github地址 ? ?PySpider 官方文檔? ? PySpider 中文文檔
PySpider是binux做的一個爬蟲架構的開源化實現(xiàn)。主要的功能需求是:
- 1. 抓取、更新調度多站點的特定的頁面
- 2. 需要對頁面進行結構化信息提取
- 3. 靈活可擴展,穩(wěn)定可監(jiān)控
而這也是絕大多數(shù) python 爬蟲的需求 —— 定向抓取,結構化化解析。但是面對結構迥異的各種網(wǎng)站,單一的抓取模式并不一定能滿足,靈活的抓取控制是必須的。為了達到這個目的,單純的配置文件往往不夠靈活,于是,通過腳本去控制抓取是最后的選擇。而去重調度,隊列,抓取,異常處理,監(jiān)控等功能作為框架,提供給抓取腳本,并保證靈活性。最后加上web的編輯調試環(huán)境,以及web任務監(jiān)控,即成為了這套框架。
?
PySpider 簡介
?
pyspider的設計基礎是:以python腳本驅動的抓取環(huán)模型爬蟲
- 1. 通過python腳本進行結構化信息的提取,follow鏈接調度抓取控制,實現(xiàn)最大的靈活性
- 2. 通過web化的腳本編寫、調試環(huán)境。web展現(xiàn)調度狀態(tài)
- 3. 抓取環(huán)模型成熟穩(wěn)定,模塊間相互獨立,通過消息隊列連接,從單進程到多機分布式靈活拓展
pyspider架構圖
| webui | web的可視化任務監(jiān)控,web腳本編寫,單步調試,異常捕獲,log捕獲,print捕獲等 |
| scheduler | 任務優(yōu)先級,周期定時任務,流量控制,基于時間周期 或 前鏈標簽(例如更新時間)的重抓取調度 |
| fetcher | dataurl支持,用于假抓取模擬傳遞,method, header, cookie, proxy, etag, last_modified, timeout 等等抓取調度控制,可以通過適配類似 phantomjs 的webkit引擎支持渲染 |
| processor | 內置的pyquery,以jQuery解析頁面,在腳本中完全控制調度抓取的各項參數(shù),,可以向后鏈傳遞信息,異常捕獲 |
?
pyspider的架構主要分為 scheduler(調度器), fetcher(抓取器), processor(腳本執(zhí)行):
- 1. 各個組件間使用消息隊列連接,除了scheduler是單點的,fetcher 和 processor 都是可以多實例分布式部署的。 scheduler 負責整體的調度控制
- 2. 任務由 scheduler 發(fā)起調度,fetcher 抓取網(wǎng)頁內容, processor 執(zhí)行預先編寫的python腳本,輸出結果或產(chǎn)生新的提鏈任務(發(fā)往 scheduler),形成閉環(huán)。
- 3. 每個腳本可以靈活使用各種python庫對頁面進行解析,使用框架API控制下一步抓取動作,通過設置回調控制解析動作。
爬蟲pyspider提供一個異常強大的網(wǎng)頁界面(web ui),它允許你編輯和調試你的腳本,管理整個抓取過程,監(jiān)控正在進行的任務,并最終輸出結果。
項目和任務
在pyspider中,我們有項目和任務的概念。 一個任務指的是一個需要從網(wǎng)站檢索并進行分析的單獨頁面。 一個項目指的是一個更大的實體,它包括爬蟲涉及到的所有頁面,分析網(wǎng)頁所需要的python腳本,以及用于存儲數(shù)據(jù)的數(shù)據(jù)庫等等。 在pyspider中我們可以同時運行多個項目。代碼結構分析
根目錄:在根目錄中可以找到的文件夾有:
?data,空文件夾,它是存放由爬蟲所生成的數(shù)據(jù)的地方。 ?docs,包含該項目文檔,里邊有一些markdown代碼。 ?pyspider,包含項目實際的代碼。 ?test,包含相當多的測試代碼。這里重點介紹一些重要的文件:
?travis.yml, 一個很棒的、連續(xù)性測試的整合。你如何確定你的項目確實有效?畢竟僅在你自己的帶有固定版本的庫的機器上進行測試是不夠的。 ?Dockerfile,同樣很棒的工具!如果我想在我的機器上嘗試一個項目,我只需要運行Docker,我不需要手動安裝任何東西,這是一個使開發(fā)者參與到你的項目中的很好的方式。 ?LICENSE,對于任何開源項目都是必需的,(如果你自己有開源項目的話)不要忘記自己項目中的該文件。 ?requirements.txt,在Python世界中,該文件用于指明為了運行該軟件,需要在你的系統(tǒng)中安裝什么Python包,在任何的Python項目中該文件都是必須的。 ?run.py, 該軟件的主入口點。 ?setup.py,該文件是一個Python腳本,用于在你的系統(tǒng)中安裝pyspider項目。分析完項目的根目錄了,僅根目錄就能說明該項目是以一種非常專業(yè)的方式進行開發(fā)的。如果你正在開發(fā)任何的開源程序,希望你能達到這樣的水準。
文件夾pyspider
讓我們更深入一點兒,一起來分析實際的代碼。 在這個文件夾中還能找到其他的文件夾,整個軟件背后的邏輯已經(jīng)被分割,以便更容易的進行管理和擴展。 這些文件夾是:database、fetcher、libs、processor、result、scheduler、webui。 在這個文件夾中我們也能找到整個項目的主入口點,run.py。文件run.py
這個文件首先完成所有必需的雜事,以保證爬蟲成功地運行。最終它產(chǎn)生所有必需的計算單元。 向下滾動我們可以看到整個項目的入口點,cli()。函數(shù)cli()
這個函數(shù)好像很復雜,但與我相隨,你會發(fā)現(xiàn)它并沒有你想象中復雜。 函數(shù)cli()的主要目的是創(chuàng)建數(shù)據(jù)庫和消息系統(tǒng)的所有連接。 它主要解析命令行參數(shù),并利用所有我們需要的東西創(chuàng)建一個大字典。 最后,我們通過調用函數(shù)all()開始真正的工作。函數(shù)all()
一個網(wǎng)絡爬蟲會進行大量的IO操作,因此一個好的想法是產(chǎn)生不同的線程或子進程來管理所有的這些工作。 通過這種方式,你可以在等待網(wǎng)絡獲取你當前html頁面的同時,提取前一個頁面的有用信息。函數(shù)all()決定是否運行子進程或者線程,然后調用不同的線程或子進程里的所有的必要函數(shù)。這時pyspider將產(chǎn)生包括webui在內的,爬蟲的所有邏輯模塊所需要的,足夠數(shù)量的線程。當我們完成項目并關閉webui時,我們將干凈漂亮地關閉每一個進程。
現(xiàn)在我們的爬蟲就開始運行了,讓我們進行更深入一點兒的探索。
調度程序
調度程序從兩個不同的隊列中獲取任務(newtask_queue和status_queue),并把任務加入到另外一個隊列(out_queue),這個隊列稍后會被抓取程序讀取。
調度程序做的第一件事情是從數(shù)據(jù)庫中加載所需要完成的所有的任務。之后,它開始一個無限循環(huán)。
def run(self):while not self._quit:try:time.sleep(self.LOOP_INTERVAL)self._update_projects()self._check_task_done()self._check_request()while self._check_cronjob():passself._check_select()self._check_delete()self._try_dump_cnt()self._exceptions = 0except KeyboardInterrupt:breakexcept Exception as e:logger.exception(e)self._exceptions += 1if self._exceptions > self.EXCEPTION_LIMIT:breakcontinue在這個循環(huán)中會調用幾個方法:
1._update_projects():嘗試更新的各種設置,例如,我們想在爬蟲工作的時候調整爬取速度。 2._check_task_done():分析已完成的任務并將其保存到數(shù)據(jù)庫,它從status_queue中獲取任務。 3._check_request():如果內容處理程序要求分析更多的頁面,把這些頁面放在隊列newtask_queue中,該函數(shù)會從該隊列中獲得新的任務。 4._check_select():把新的網(wǎng)頁加入到抓取程序的隊列中。 5._check_delete():刪除已被用戶標記的任務和項目。 6._try_dump_cnt():記錄一個文件中已完成任務的數(shù)量。對于防止程序異常所導致的數(shù)據(jù)丟失,這是有必要的。循環(huán)也會檢查運行過程中的異常,或者我們是否要求 python 停止處理。
finally:# exit components run in subprocessfor each in threads:if not each.is_alive():continueif hasattr(each, 'terminate'):each.terminate()each.join()?
抓取程序
抓取程序的目的是檢索網(wǎng)絡資源。
pyspider能夠處理普通HTML文本頁面和基于AJAX的頁面。只有抓取程序能意識到這種差異,了解這一點非常重要。我們將僅專注于普通的html文本抓取,然而大部分的想法可以很容易地移植到Ajax抓取器。
這里的想法在某種形式上類似于調度程序,我們有分別用于輸入和輸出的兩個隊列,以及一個大的循環(huán)。對于輸入隊列中的所有元素,抓取程序生成一個請求,并將結果放入輸出隊列中。
它聽起來簡單但有一個大問題。網(wǎng)絡通常是極其緩慢的,如果因為等待一個網(wǎng)頁而阻止了所有的計算,那么整個過程將會運行的極其緩慢。解決方法非常的簡單,即不要在等待網(wǎng)絡的時候阻塞所有的計算。這個想法即在網(wǎng)絡上發(fā)送大量消息,并且相當一部分消息是同時發(fā)送的,然后異步等待響應的返回。一旦我們收回一個響應,我們將會調用另外的回調函數(shù),回調函數(shù)將會以最適合的方式管理這樣的響應。
爬蟲pyspider中的所有的復雜的異步調度都是由另一個優(yōu)秀的開源項目tornado完成。
現(xiàn)在我們的腦海里已經(jīng)有了極好的想法了,讓我們更深入地探索這是如何實現(xiàn)的。
def run(self):def queue_loop():if not self.outqueue or not self.inqueue:returnwhile not self._quit:try:if self.outqueue.full():breaktask = self.inqueue.get_nowait()task = utils.decode_unicode_obj(task)self.fetch(task)except queue.Empty:breaktornado.ioloop.PeriodicCallback(queue_loop, 100, io_loop=self.ioloop).start()self._running = Trueself.ioloop.start()函數(shù)run()是抓取程序fetcher中的一個大的循環(huán)程序。
函數(shù)run()中定義了另外一個函數(shù)queue_loop(),該函數(shù)接收輸入隊列中的所有任務,并抓取它們。同時該函數(shù)也監(jiān)聽中斷信號。函數(shù)queue_loop()作為參數(shù)傳遞給tornado的類PeriodicCallback,如你所猜,PeriodicCallback會每隔一段具體的時間調用一次queue_loop()函數(shù)。函數(shù)queue_loop()也會調用另一個能使我們更接近于實際檢索Web資源操作的函數(shù):fetch()。
函數(shù)fetch(self, task, callback=None)
網(wǎng)絡上的資源必須使用函數(shù)phantomjs_fetch()或簡單的http_fetch()函數(shù)檢索,函數(shù)fetch()只決定檢索該資源的正確方法是什么。接下來我們看一下函數(shù)http_fetch()。
函數(shù)http_fetch(self, url, task, callback)
def http_fetch(self, url, task, callback):'''HTTP fetcher'''fetch = copy.deepcopy(self.default_options)fetch['url'] = urlfetch['headers']['User-Agent'] = self.user_agentdef handle_response(response):...return task, resulttry:request = tornado.httpclient.HTTPRequest(header_callback=header_callback, **fetch) if self.async:self.http_client.fetch(request, handle_response)else:return handle_response(self.http_client.fetch(request))終于,這里才是完成真正工作的地方。這個函數(shù)的代碼有點長,但有清晰的結構,容易閱讀。
在函數(shù)的開始部分,它設置了抓取請求的header,比如User-Agent、超時timeout等等。然后定義一個處理響應response的函數(shù):handle_response(),后邊我們會分析這個函數(shù)。最后我們得到一個tornado的請求對象request,并發(fā)送這個請求對象。請注意在異步和非異步的情況下,是如何使用相同的函數(shù)來處理響應response的。
讓我們往回看一下,分析一下函數(shù)handle_response()做了什么。
函數(shù)handle_response(response)
def handle_response(response):result = {}result['orig_url'] = urlresult['content'] = response.body or ''callback('http', task, result)return task, result這個函數(shù)以字典的形式保存一個response的所有相關信息,例如url,狀態(tài)碼和實際響應等,然后調用回調函數(shù)。這里的回調函數(shù)是一個小方法:send_result()。
函數(shù)send_result(self, type, task, result)
def send_result(self, type, task, result):if self.outqueue:self.outqueue.put((task, result))這個最后的函數(shù)將結果放入到輸出隊列中,等待內容處理程序processor的讀取。
?
內容處理程序processor
內容處理程序的目的是分析已經(jīng)抓取回來的頁面。它的過程同樣也是一個大循環(huán),但輸出中有三個隊列(status_queue, newtask_queue 以及result_queue)而輸入中只有一個隊列(inqueue)。
讓我們稍微深入地分析一下函數(shù)run()中的循環(huán)過程。
函數(shù)run(self)
def run(self):try:task, response = self.inqueue.get(timeout=1)self.on_task(task, response)self._exceptions = 0except KeyboardInterrupt:breakexcept Exception as e:self._exceptions += 1if self._exceptions > self.EXCEPTION_LIMIT:breakcontinue這個函數(shù)的代碼比較少,易于理解,它簡單地從隊列中得到需要被分析的下一個任務,并利用on_task(task, response)函數(shù)對其進行分析。這個循環(huán)監(jiān)聽中斷信號,只要我們給Python發(fā)送這樣的信號,這個循環(huán)就會終止。最后這個循環(huán)統(tǒng)計它引發(fā)的異常的數(shù)量,異常數(shù)量過多會終止這個循環(huán)。
函數(shù)on_task(self, task, response)
def on_task(self, task, response):response = rebuild_response(response)project = task['project']project_data = self.project_manager.get(project, updatetime)ret = project_data['instance'].run(status_pack = {'taskid': task['taskid'],'project': task['project'],'url': task.get('url'),...}self.status_queue.put(utils.unicode_obj(status_pack))if ret.follows:self.newtask_queue.put([utils.unicode_obj(newtask) for newtask in ret.follows])for project, msg, url in ret.messages:self.inqueue.put(({...},{...}))return True函數(shù)on_task()是真正干活的方法。
它嘗試利用輸入的任務找到任務所屬的項目。然后它運行項目中的定制腳本。最后它分析定制腳本返回的響應response。如果一切順利,將會創(chuàng)建一個包含所有我們從網(wǎng)頁上得到的信息的字典。最后將字典放到隊列status_queue中,稍后它會被調度程序重新使用。
如果在分析的頁面中有一些新的鏈接需要處理,新鏈接會被放入到隊列newtask_queue中,并在稍后被調度程序使用。
現(xiàn)在,如果有需要的話,pyspider會將結果發(fā)送給其他項目。
最后如果發(fā)生了一些錯誤,像頁面返回錯誤,錯誤信息會被添加到日志中。
?
?
Scrapy
?
Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù),提取結構性數(shù)據(jù)而編寫的應用框架。 可以應用在包括數(shù)據(jù)挖掘,信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。
其最初是為了頁面抓取 (更確切來說, 網(wǎng)絡抓取 )所設計的, 也可以應用在獲取API所返回的數(shù)據(jù)(例如 Amazon Associates Web Services ) 或者通用的網(wǎng)絡爬蟲。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試
Scrapy 使用了 Twisted?異步網(wǎng)絡庫來處理網(wǎng)絡通訊。整體架構大致如下
?
Scrapy主要包括了以下組件:
- 1. 引擎(Scrapy): 用來處理整個系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(框架核心)
- 2. 調度器(Scheduler): 用來接受引擎發(fā)過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回. 可以想像成一個URL(抓取網(wǎng)頁的網(wǎng)址或者說是鏈接)的優(yōu)先隊列, 由它來決定下一個要抓取的網(wǎng)址是什么, 同時去除重復的網(wǎng)址
- 3. 下載器(Downloader): 用于下載網(wǎng)頁內容, 并將網(wǎng)頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的異步模型上的)
- 4. 爬蟲(Spiders): 爬蟲是主要干活的, 用于從特定的網(wǎng)頁中提取自己需要的信息, 即所謂的實體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個頁面
- 5. 項目管道(Pipeline): 負責處理爬蟲從網(wǎng)頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。當頁面被爬蟲解析后,將被發(fā)送到項目管道,并經(jīng)過幾個特定的次序處理數(shù)據(jù)。
- 6. 下載器中間件(Downloader Middlewares): 位于Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。
- 7. 爬蟲中間件(Spider Middlewares): 介于Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。
- 8. 調度中間件(Scheduler Middewares): 介于Scrapy引擎和調度之間的中間件,從Scrapy引擎發(fā)送到調度的請求和響應。
Scrapy運行流程大概如下:
- 1. 首先,引擎從調度器中取出一個鏈接(URL)用于接下來的抓取
- 2. 引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,并封裝成應答包(Response)
- 3. 然后,爬蟲解析Response
- 4. 若是解析出實體(Item),則交給實體管道進行進一步的處理。
- 5. 若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取
?
安裝
?
1. pip。首先確保你已經(jīng)安裝了pip,若沒有安裝,請參照 pip安裝
2. phantomjs。PhantomJS 是一個基于 WebKit 的服務器端 JavaScript API。它全面支持web而不需瀏覽器支持,其快速、原生支持各種Web標準:DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用于頁面自動化、網(wǎng)絡監(jiān)測、網(wǎng)頁截屏以及無界面測試等。phantomjs安裝
3. pyspider。直接利用 pip 安裝即可:pip install pyspider。如果你是 Ubuntu 用戶,請?zhí)崆鞍惭b好以下支持類庫
sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml4. 測試。如果安裝過程沒有提示任何錯誤,那就證明一些OK。命令行輸入:pyspider all (這句命令的意思是,運行 pyspider 并 啟動它的所有組件。)。然后瀏覽器訪問 http://localhost:5000 觀察一下效果,如果可以正常出現(xiàn) PySpider 的頁面,那證明一切OK,在此附圖一張,這是我寫了幾個爬蟲之后的界面。
接下來我會進一步介紹這個框架的使用。
?
?
PySpider的用法
?
1. 抓取淘寶MM照片
PySpider 是一個非常方便并且功能強大的爬蟲框架,支持多線程爬取、JS動態(tài)解析,提供了可操作界面、出錯重試、定時爬取等等的功能,使用非常人性化。
爬取目標網(wǎng)站:https://mm.taobao.com/json/request_top_list.htm?page=1,大家打開之后可以看到許多淘寶MM的列表。
列表有多少?
https://mm.taobao.com/json/request_top_list.htm?page=10000,第10000頁都有,看你想要多少。我什么也不知道。
隨機點擊一位 MM 的姓名,可以看到她的基本資料。
可以看到圖中有一個個性域名,我們復制到瀏覽器打開。mm.taobao.com/tyy6160
嗯,往下拖,海量的 MM 圖片都在這里了,怎么辦你懂得,我們要把她們的照片和個人信息都存下來。
P.S. 注意圖中進度條!你猜有多少圖片~
安裝成功之后,跟我一步步地完成一個網(wǎng)站的抓取,你就會明白 PySpider 的基本用法了。
命令行下執(zhí)行:pyspider all。這句命令的意思是,運行 pyspider 并 啟動它的所有組件。
可以發(fā)現(xiàn)程序已經(jīng)正常啟動,并在 5000 這個端口運行。接下來在瀏覽器中輸入 http://localhost:5000,可以看到 PySpider 的主界面,點擊右下角的 Create,命名為 taobaomm,當然名稱你可以隨意取,繼續(xù)點擊 Create。
這樣我們會進入到一個爬取操作的頁面。
?
整個頁面分為兩欄,左邊是爬取頁面預覽區(qū)域,右邊是代碼編寫區(qū)域。下面對區(qū)塊進行說明:
左側綠色區(qū)域:這個請求對應的 JSON 變量,在 PySpider 中,其實每個請求都有與之對應的 JSON 變量,包括回調函數(shù),方法名,請求鏈接,請求數(shù)據(jù)等等。
綠色區(qū)域右上角Run:點擊右上角的 run 按鈕,就會執(zhí)行這個請求,可以在左邊的白色區(qū)域出現(xiàn)請求的結果。
左側 enable css selector helper: 抓取頁面之后,點擊此按鈕,可以方便地獲取頁面中某個元素的 CSS 選擇器。
左側 web: 即抓取的頁面的實時預覽圖。
左側 html: 抓取頁面的 HTML 代碼。
左側 follows: 如果當前抓取方法中又新建了爬取請求,那么接下來的請求就會出現(xiàn)在 follows 里。
左側 messages: 爬取過程中輸出的一些信息。
右側代碼區(qū)域: 你可以在右側區(qū)域書寫代碼,并點擊右上角的 Save 按鈕保存。
右側 WebDAV Mode: 打開調試模式,左側最大化,便于觀察調試。
依然是上面那個網(wǎng)址,https://mm.taobao.com/json/request_top_list.htm?page=1,其中 page 參數(shù)代表頁碼。所以我們暫時抓取前 30 頁。頁碼到最后可以隨意調整。
首先我們定義基地址,然后定義爬取的頁碼和總頁碼。
from pyspider.libs.base_handler import *class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='self.page_num = 1self.total_num = 30@every(minutes=24 * 60)def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)print urlself.crawl(url, callback=self.index_page)self.page_num += 1@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():self.crawl(each.attr.href, callback=self.detail_page)@config(priority=2)def detail_page(self, response):return {"url": response.url,"title": response.doc('title').text(),}點擊 save 保存代碼,然后點擊左邊的 run,運行代碼。
運行后我們會發(fā)現(xiàn) follows 出現(xiàn)了 30 這個數(shù)字,說明我們接下來有 30 個新請求,點擊可查看所有爬取列表。另外控制臺也有輸出,將所有要爬取的 URL 打印了出來。
然后我們點擊左側任意一個綠色箭頭,可以繼續(xù)爬取這個頁面。例如點擊第一個 URL,來爬取這個 URL
點擊之后,再查看下方的 web 頁面,可以預覽實時頁面,這個頁面被我們爬取了下來,并且回調到 index_page 函數(shù)來處理,目前 index_page 函數(shù)我們還沒有處理,所以是繼續(xù)構件了所有的鏈接請求。
好,接下來我們怎么辦?當然是進入到 MM 到個人頁面去爬取了。
爬取到了 MM 的列表,接下來就要進入到 MM 詳情頁了,修改 index_page 方法。
def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page)其中 response 就是剛才爬取的列表頁,response 其實就相當于列表頁的 html 代碼,利用 doc 函數(shù),其實是調用了 PyQuery,用 CSS 選擇器得到每一個MM的鏈接,然后重新發(fā)起新的請求。比如,我們這里拿到的 each.attr.href 可能是 mm.taobao.com/self/model_card.htm?user_id=687471686,在這里繼續(xù)調用了 crawl 方法,代表繼續(xù)抓取這個鏈接的詳情。
self.crawl(each.attr.href, callback=self.detail_page)然后回調函數(shù)就是 detail_page,爬取的結果會作為 response 變量傳過去。detail_page 接到這個變量繼續(xù)下面的分析。
好,我們繼續(xù)點擊 run 按鈕,開始下一個頁面的爬取。得到的結果是這樣的。
哦,有些頁面沒有加載出來,這是為什么?在之前的文章說過,這個頁面比較特殊,右邊的頁面使用 JS 渲染生成的,而普通的抓取是不能得到 JS 渲染后的頁面的,這可麻煩了。然而,幸運的是,PySpider 提供了動態(tài)解析 JS 的機制。
友情提示:可能有的小伙伴不知道 PhantomJS,可以參考:Python爬蟲利器五之Selenium的用法
如果已經(jīng)裝好了 PhantomJS,這時候就輪到它來出場了。在最開始運行 PySpider 的時候,使用了pyspider all命令,這個命令是把 PySpider 所有的組件啟動起來,其中也包括 PhantomJS。
所以我們代碼怎么改呢?很簡單。
def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')只是簡單地加了一個 fetch_type=’js’,點擊綠色的返回箭頭,重新運行一下。可以發(fā)現(xiàn),頁面已經(jīng)被我們成功加載出來了,簡直不能更帥!
看下面的個性域名,所有我們需要的 MM 圖片都在那里面了,所以我們需要繼續(xù)抓取這個頁面。
好,繼續(xù)修改 detail_page 方法,然后增加一個 domain_page 方法,用來處理每個 MM 的個性域名。
def detail_page(self, response):domain = 'https:' + response.doc('.mm-p-domain-info li > span').text()print domainself.crawl(domain, callback=self.domain_page)def domain_page(self, response):pass好,繼續(xù)重新 run,預覽一下頁面,終于,我們看到了 MM 的所有圖片。
照片都有了,那么我們就偷偷地下載下來吧~。完善 domain_page 代碼,實現(xiàn)保存簡介和遍歷保存圖片的方法。
在這里,PySpider 有一個特點,所有的 request 都會保存到一個隊列中,并具有去重和自動重試機制。所以,我們最好的解決方法是,把每張圖片的請求都寫成一個 request,然后成功后用文件寫入即可,這樣會避免圖片加載不全的問題。
曾經(jīng)在之前文章寫過圖片下載和文件夾創(chuàng)建的過程,在這里就不多贅述原理了,直接上寫好的工具類,后面會有完整代碼。
import osclass Deal:def __init__(self):self.path = DIR_PATHif not self.path.endswith('/'):self.path = self.path + '/'if not os.path.exists(self.path):os.makedirs(self.path)def mkDir(self, path):path = path.strip()dir_path = self.path + pathexists = os.path.exists(dir_path)if not exists:os.makedirs(dir_path)return dir_pathelse:return dir_pathdef saveImg(self, content, path):f = open(path, 'wb')f.write(content)f.close()def saveBrief(self, content, dir_path, name):file_name = dir_path + "/" + name + ".txt"f = open(file_name, "w+")f.write(content.encode('utf-8'))def getExtension(self, url):extension = url.split('.')[-1]return extension這里面包含了四個方法。
mkDir:創(chuàng)建文件夾,用來創(chuàng)建 MM 名字對應的文件夾。 saveBrief: 保存簡介,保存 MM 的文字簡介。 saveImg: 傳入圖片二進制流以及保存路徑,存儲圖片。 getExtension: 獲得鏈接的后綴名,通過圖片 URL 獲得。然后在 domain_page 中具體實現(xiàn)如下
def domain_page(self, response):name = response.doc('.mm-p-model-info-left-top dd > a').text()dir_path = self.deal.mkDir(name)brief = response.doc('.mm-aixiu-content').text()if dir_path:imgs = response.doc('.mm-aixiu-content img').items()count = 1self.deal.saveBrief(brief, dir_path, name)for img in imgs:url = img.attr.srcif url:extension = self.deal.getExtension(url)file_name = name + str(count) + '.' + extensioncount += 1self.crawl(img.attr.src, callback=self.save_img,save={'dir_path': dir_path, 'file_name': file_name})def save_img(self, response):content = response.contentdir_path = response.save['dir_path']file_name = response.save['file_name']file_path = dir_path + '/' + file_nameself.deal.saveImg(content, file_path)以上方法首先獲取了頁面的所有文字,然后調用了 saveBrief 方法存儲簡介。
然后遍歷了 MM 所有的圖片,并通過鏈接獲取后綴名,和 MM 的姓名以及自增計數(shù)組合成一個新的文件名,調用 saveImg 方法保存圖片。
基本的東西都寫好了。接下來。繼續(xù)完善一下代碼。第一版本完成。
版本一功能:按照淘寶MM姓名分文件夾,存儲MM的 txt 文本簡介以及所有美圖至本地。
可配置項:
PAGE_START: 列表開始頁碼 PAGE_END: 列表結束頁碼 DIR_PATH: 資源保存路徑代碼:
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-03-25 00:59:45 # Project: taobaommfrom pyspider.libs.base_handler import *PAGE_START = 1 PAGE_END = 30 DIR_PATH = '/var/py/mm'class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='self.page_num = PAGE_STARTself.total_num = PAGE_ENDself.deal = Deal()def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)self.crawl(url, callback=self.index_page)self.page_num += 1def index_page(self, response):for each in response.doc('.lady-name').items():self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')def detail_page(self, response):domain = response.doc('.mm-p-domain-info li > span').text()if domain:page_url = 'https:' + domainself.crawl(page_url, callback=self.domain_page)def domain_page(self, response):name = response.doc('.mm-p-model-info-left-top dd > a').text()dir_path = self.deal.mkDir(name)brief = response.doc('.mm-aixiu-content').text()if dir_path:imgs = response.doc('.mm-aixiu-content img').items()count = 1self.deal.saveBrief(brief, dir_path, name)for img in imgs:url = img.attr.srcif url:extension = self.deal.getExtension(url)file_name = name + str(count) + '.' + extensioncount += 1self.crawl(img.attr.src, callback=self.save_img,save={'dir_path': dir_path, 'file_name': file_name})def save_img(self, response):content = response.contentdir_path = response.save['dir_path']file_name = response.save['file_name']file_path = dir_path + '/' + file_nameself.deal.saveImg(content, file_path)import osclass Deal:def __init__(self):self.path = DIR_PATHif not self.path.endswith('/'):self.path = self.path + '/'if not os.path.exists(self.path):os.makedirs(self.path)def mkDir(self, path):path = path.strip()dir_path = self.path + pathexists = os.path.exists(dir_path)if not exists:os.makedirs(dir_path)return dir_pathelse:return dir_pathdef saveImg(self, content, path):f = open(path, 'wb')f.write(content)f.close()def saveBrief(self, content, dir_path, name):file_name = dir_path + "/" + name + ".txt"f = open(file_name, "w+")f.write(content.encode('utf-8'))def getExtension(self, url):extension = url.split('.')[-1]return extension粘貼到你的 PySpider 中運行吧~。其中有一些知識點,我會在后面作詳細的用法總結。大家可以先體會一下代碼。
保存之后,點擊下方的 run,你會發(fā)現(xiàn),海量的 MM 圖片已經(jīng)涌入你的電腦啦~
項目代碼:
TaobaoMM – GitHub
?
?
?
pyspider 爬蟲教程
?
From:?https://segmentfault.com/a/1190000002477863
?
(一):HTML 和 CSS 選擇器
?
在 教程一 中,我們將要爬取的網(wǎng)站是豆瓣電影:http://movie.douban.com/
你可以在:?http://demo.pyspider.org/debug/tutorial_douban_movie?獲得完整的代碼,和進行測試。
開始之前
由于教程是基于 pyspider 的,你可以安裝一個 pyspider(Quickstart,也可以直接使用 pyspider 的 demo 環(huán)境:?http://demo.pyspider.org/。
你還應該至少對萬維網(wǎng)是什么有一個簡單的認識:
- 萬維網(wǎng)是一個由許多互相鏈接的超文本頁面(以下簡稱網(wǎng)頁)組成的系統(tǒng)。
- 網(wǎng)頁使用網(wǎng)址(URL)定位,并鏈接彼此
- 網(wǎng)頁使用?HTTP?協(xié)議傳輸
- 網(wǎng)頁使用?HTML?描述外觀和語義
所以,爬網(wǎng)頁實際上就是:
?
選取一個開始網(wǎng)址
既然我們要爬所有的電影,首先我們需要抓一個電影列表,一個好的列表應該:
- 包含足夠多的電影的 URL
- 通過翻頁,可以遍歷到所有的電影
- 一個按照更新時間排序的列表,可以更快抓到最新更新的電影
我們在?http://movie.douban.com/?掃了一遍,發(fā)現(xiàn)并沒有一個列表能包含所有電影,只能退而求其次,通過抓取分類下的所有的標簽列表頁,來遍歷所有的電影:?http://movie.douban.com/tag/
?
創(chuàng)建一個項目
在 pyspider 的 dashboard 的右下角,點擊 "Create" 按鈕
替換?on_start?函數(shù)的?self.crawl?的 URL:
@every(minutes=24 * 60) def on_start(self):self.crawl('http://movie.douban.com/tag/', callback=self.index_page)- self.crawl?告訴 pyspider 抓取指定頁面,然后使用?callback?函數(shù)對結果進行解析。
- @every?修飾器,表示?on_start?每天會執(zhí)行一次,這樣就能抓到最新的電影了。
點擊綠色的?run?執(zhí)行,你會看到?follows?上面有一個紅色的 1,切換到?follows?面板,點擊綠色的播放按鈕:
?
Tag 列表頁
在?tag 列表頁?中,我們需要提取出所有的 電影列表頁 的 URL。你可能已經(jīng)發(fā)現(xiàn)了,sample handler 已經(jīng)提取了非常多大的 URL,所有,一種可行的提取列表頁 URL 的方法就是用正則從中過濾出來:
import re ...@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="http"]').items():if re.match("http://movie.douban.com/tag/\w+", each.attr.href, re.U):self.crawl(each.attr.href, callback=self.list_page)- 由于 電影列表頁和 tag列表頁長的并不一樣,在這里新建了一個?callback?為?self.list_page
- @config(age=10 * 24 * 60 * 60)?在這表示我們認為 10 天內頁面有效,不會再次進行更新抓取
由于 pyspider 是純 Python 環(huán)境,你可以使用 Python 強大的內置庫,或者你熟悉的第三方庫對頁面進行解析。不過更推薦使用 CSS選擇器。
?
電影列表頁
再次點擊?run?讓我們進入一個電影列表頁(list_page)。在這個頁面中我們需要提取:
- 電影的鏈接,例如,http://movie.douban.com/subject/1292052/
- 下一頁的鏈接,用來翻頁
CSS選擇器
CSS選擇器,顧名思義,是?CSS?用來定位需要設置樣式的元素 所使用的表達式。既然前端程序員都使用 CSS選擇器 為頁面上的不同元素設置樣式,我們也可以通過它定位需要的元素。你可以在?CSS 選擇器參考手冊?這里學習更多的 CSS選擇器 語法。
在 pyspider 中,內置了?response.doc?的?PyQuery?對象,讓你可以使用類似 jQuery 的語法操作 DOM 元素。你可以在?PyQuery?的頁面上找到完整的文檔。
CSS Selector Helper
在 pyspider 中,還內置了一個?CSS Selector Helper,當你點擊頁面上的元素的時候,可以幫你生成它的 CSS選擇器 表達式。你可以點擊?Enable CSS selector helper?按鈕,然后切換到?web?頁面:
?
?
開啟后,鼠標放在元素上,會被黃色高亮,點擊后,所有擁有相同 CSS選擇器 表達式的元素會被高亮。表達式會被插入到 python 代碼當前光標位置。創(chuàng)建下面的代碼,將光標停留在單引號中間:
def list_page(self, response):for each in response.doc('').items():點擊一個電影的鏈接,CSS選擇器 表達式將會插入到你的代碼中,如此重復,插入翻頁的鏈接:
def list_page(self, response):for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A').items():self.crawl(each.attr.href, callback=self.detail_page)# 翻頁for each in response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A').items():self.crawl(each.attr.href, callback=self.list_page)- 翻頁是一個到自己的?callback?回調
電影詳情頁
再次點擊?run,follow 到詳情頁。使用?css selector helper?分別添加電影標題,打分和導演:
def detail_page(self, response):return {"url": response.url,"title": response.doc('HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN').text(),"rating": response.doc('HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.indent.clearfix>DIV.subjectwrap.clearfix>DIV#interest_sectl>DIV.rating_wrap.clearbox>P.rating_self.clearfix>STRONG.ll.rating_num').text(),"導演": [x.text() for x in response.doc('a[rel="v:directedBy"]').items()],}注意,你會發(fā)現(xiàn)?css selector helper?并不是總是能提取到合適的 CSS選擇器 表達式。你可以在?Chrome Dev Tools?的幫助下,寫一個合適的表達式:
右鍵點擊需要提取的元素,點擊審查元素。你并不需要像自動生成的表達式那樣寫出所有的祖先節(jié)點,只要寫出那些能區(qū)分你不需要的元素的關鍵節(jié)點的屬性就可以了。不過這需要抓取和網(wǎng)頁前端的經(jīng)驗。所以,學習抓取的最好方法就是學會這個頁面/網(wǎng)站是怎么寫的。
你也可以在 Chrome Dev Tools 的 Javascript Console 中,使用?$$(a[rel="v:directedBy"])?測試 CSS Selector。
開始抓取
?
?
?
(二):AJAX 和 HTTP
?
From:?https://segmentfault.com/a/1190000002477870
在上面教程中,用?self.crawl?API 抓取豆瓣電影的 HTML 內容,并使用 CSS 選擇器解析了一些內容。不過,現(xiàn)在的網(wǎng)站通過使用?AJAX?等技術,在你與服務器交互的同時,不用重新加載整個頁面。但是,這些交互手段,讓抓取變得稍微難了一些:你會發(fā)現(xiàn),這些網(wǎng)頁在抓回來后,和瀏覽器中的并不相同。你需要的信息并不在返回 HTML 代碼中。
在這一篇教程中,我們會討論這些技術 和 抓取他們的方法。(英文版:AJAX-and-more-HTTP)
?
AJAX
AJAX?是 Asynchronous JavaScript and XML(異步的 JavaScript 和 XML)的縮寫。AJAX 通過使用原有的 web 標準組件,實現(xiàn)了在不重新加載整個頁面的情況下,與服務器進行數(shù)據(jù)交互。例如在新浪微博中,你可以展開一條微博的評論,而不需要重新加載,或者打開一個新的頁面。但是這些內容并不是一開始就在頁面中的(這樣頁面就太大了),而是在你點擊的時候被加載進來的。這就導致了你抓取這個頁面的時候,并不能獲得這些評論信息(因為你沒有『展開』)。
AJAX?的一種常見用法是使用?AJAX?加載?JSON?數(shù)據(jù),然后在瀏覽器端渲染。如果能直接抓取到?JSON?數(shù)據(jù),會比 HTML 更容易解析。
當一個網(wǎng)站使用了 AJAX 的時候,除了用 pyspider 抓取到的頁面和瀏覽器看到的不同以外。你在瀏覽器中打開這樣的頁面,或者點擊『展開』的時候,常常會看到『加載中』或者類似的圖標/動畫。例如,當你嘗試抓取:http://movie.douban.com/explore
?
你會發(fā)現(xiàn)電影是『載入中...』
?
找到真實的請求
由于 AJAX 實際上也是通過 HTTP 傳輸數(shù)據(jù)的,所以我們可以通過?Chrome Developer Tools?找到真實的請求,直接發(fā)起真實請求的抓取就可以獲得數(shù)據(jù)了。
在頁面加載的過程中,你會在面板中看到所有的資源請求。
AJAX 一般是通過?XMLHttpRequest?對象接口發(fā)送請求的,XMLHttpRequest 一般被縮寫為 XHR。點擊網(wǎng)絡面板上漏斗形的過濾按鈕,過濾出 XHR 請求。挨個查看每個請求,通過訪問路徑和預覽,找到包含信息的請求:http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0
?
在豆瓣這個例子中,XHR 請求并不多,可以挨個查看來確認。但在 XHR 請求較多的時候,可能需要結合觸發(fā)動作的時間,請求的路徑等信息幫助在大量的請求中找到包含信息的關鍵請求。這需要抓取或者前端的相關經(jīng)驗。所以,有一個我一直在提的觀點,學習抓取的最好方法是:學會寫網(wǎng)站。
現(xiàn)在可以在新窗口中打開?http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0,你會看到包含電影數(shù)據(jù)的?JSON?原始數(shù)據(jù)。推薦安裝?JSONView(Firfox版)插件,這樣可以看到更好看的 JSON 格式,展開折疊列等功能。然后,我們根據(jù)?JSON?數(shù)據(jù),編寫一個提取電影名和評分的腳本:
class Handler(BaseHandler):def on_start(self):self.crawl('http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',callback=self.json_parser)def json_parser(self, response):return [{"title": x['title'],"rate": x['rate'],"url": x['url']} for x in response.json['subjects']]- 你可以使用?response.json?將結果轉為一個 python 的?dict?對象
你可以在?http://demo.pyspider.org/debug/tutorial_douban_explore?獲得完整的代碼,并進行調試。腳本中還有一個使用?PhantomJS?渲染的提取版本,將會在下一篇教程中介紹。
?
HTTP
HTTP?是用來傳輸網(wǎng)頁內容的協(xié)議。在前面已經(jīng)通過?self.crawl?接口提交了 URL 進行了抓取。這些抓取就是通過 HTTP 協(xié)議傳輸?shù)摹?/p>
在抓取過程中,你可能會遇到類似?403 Forbidden,或者需要登錄的情況,這時候你就需要正確的 HTTP 參數(shù)進行抓取了。
一個典型的 HTTP 請求包如下,這個請求是發(fā)往?http://example.com/?的:
GET / HTTP/1.1 Host: example.com Connection: keep-alive Cache-Control: max-age=0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36 Referer: http://en.wikipedia.org/wiki/Example.com Accept-Encoding: gzip, deflate, sdch Accept-Language: zh-CN,zh;q=0.8 If-None-Match: "359670651" If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT- 請求的第一行包含?method,?path?和 HTTP 協(xié)議的版本信息
- 余下的行被稱為 header,是以?key: value?的形式呈現(xiàn)的
- 如果是 POST 請求,在請求結尾可能還會有?body?內容
你可以通過前面用過的?Chrome Developer Tools?工具查看到這些信息:
?
?
在大多數(shù)時候,使用正確的?method,?path,?headers?和?body?總是能抓取到你需要的信息的。
HTTP Method
HTTP Method?告訴服務器對 URL 資源期望進行的操作。例如在打開一個 URL 的時候使用的是 GET 方式,而在提交數(shù)據(jù)的時候一般使用 POST。
TODO: need example here
HTTP Headers
HTTP Headers 是請求所帶的一個參數(shù)列表,你可以在?這里?找到完整的常用 Headers 列表。一些常用的需要注意的有:
User-Agent
UA 是標識你使用的瀏覽器,或抓取程序的一段字符串。pyspider 使用的默認 UA 是?pyspider/VERSION (+http://pyspider.org/)。網(wǎng)站常用這個字符串來區(qū)分用戶的操作系統(tǒng)和瀏覽器,以及判斷對方是否是爬蟲。所以在抓取的時候,常常會對 UA 進行偽裝。
在 pyspider 中,你可以通過?self.crawl(URL, headers={'User-Agent': 'pyspider'}),或者是?crawl_config = {'headers': {'User-Agent': 'xxxx'}}?來指定腳本級別的 UA。詳細請查看?API 文檔。
Referer
Referer 用于告訴服務器,你訪問的上一個網(wǎng)頁是什么。常常被用于防盜鏈,在抓取圖片的時候可能會用到。
X-Requested-With
當使用 XHR 發(fā)送 AJAX 請求時會帶上的 Header,常被用于判斷是不是 AJAX 請求。例如在?北郵人論壇?中,你需要:
def on_start(self):self.crawl('http://bbs.byr.cn/board/Python', headers={'X-Requested-With': 'XMLHttpRequest'}, callback=self.index_page)帶有?headers={'X-Requested-With': 'XMLHttpRequest'}?才能抓取到內容。
HTTP Cookie
雖然?Cookie?只是 HTTP Header 中的一個,但是因為非常重要,但是拿出來說一下。Cookie?被 HTTP 請求用來區(qū)分、追蹤用戶的身份,當你在一個網(wǎng)站登錄的時候,就是通過寫入?Cookie?字段來記錄登錄狀態(tài)的。
當遇到需要登錄的網(wǎng)站,你需要通過設置 Cookie 參數(shù),來請求需要登錄的內容。Cookie 可以通過開發(fā)者工具的請求面板,或者是資源面板中獲得。在 pyspider 中,你也可以使用?response.cookies?獲得返回的 cookie,并使用?self.crawl(URL, cookie={'key': 'value'})?來設置請求的 Cookie 參數(shù)。
?
?
(三):使用 PhantomJS 渲染帶 JS 的頁面
?
在上兩篇教程中,我們學習了怎么從 HTML 中提取信息,也學習了怎么處理一些請求復雜的頁面。但是有一些頁面,它實在太復雜了,無論是分析 API 請求的地址,還是渲染時進行了加密,讓直接抓取請求非常麻煩。這時候就是?PhantomJS?大顯身手的時候了。
在使用?PhantomJS?之前,你需要安裝它(安裝文檔)。當你安裝了之后,在運行?all?模式的 pyspider 時就會自動啟用了。當然,你也可以在?demo.pyspider.org?上嘗試。
使用 PhantomJS
當 pyspider 連上 PhantomJS 代理后,你就能通過在?self.crawl?中添加?fetch_type='js'?的參數(shù),開啟使用 PhantomJS 抓取。例如,在教程二中,我們嘗試抓取的?http://movie.douban.com/explore?就可以通過 PhantomJS 直接抓取:
class Handler(BaseHandler):def on_start(self):self.crawl('http://movie.douban.com/explore',fetch_type='js', callback=self.phantomjs_parser)def phantomjs_parser(self, response):return [{"title": "".join(s for s in x('p').contents() if isinstance(s, basestring)).strip(),"rate": x('p strong').text(),"url": x.attr.href,} for x in response.doc('a.item').items()]- 我在這里使用了一些 PyQuery 的 API,你可以在?PyQuery complete API?獲得完整的 API 手冊。
在頁面上執(zhí)行自定義腳本
你會發(fā)現(xiàn),在上面我們使用?PhantomJS?抓取的豆瓣熱門電影只有 20 條。當你點擊『加載更多』時,能獲得更多的熱門電影。為了獲得更多的電影,我們可以使用?self.crawl?的?js_script?參數(shù),在頁面上執(zhí)行一段腳本,點擊加載更多:
def on_start(self):self.crawl('http://movie.douban.com/explore#more',fetch_type='js', js_script="""function() {setTimeout("$('.more').click()", 1000);}""", callback=self.phantomjs_parser)- 這個腳本默認在頁面加載結束后執(zhí)行,你可以通過?js_run_at?參數(shù)?修改這個行為
- 由于是 AJAX 異步加載的,在頁面加載完成時,第一頁的電影可能還沒有加載完,所以我們用?setTimeout?延遲 1 秒執(zhí)行。
- 你可以間隔一定時間,多次點擊,這樣可以加載更多頁。
- 由于相同 URL (實際是相同 taskid) 的任務會被去重,所以這里為 URL 加了一個?#more
上面兩個例子,都可以在?http://demo.pyspider.org/debug/tutorial_douban_explore?中找到。
?
?
漫談Pyspider網(wǎng)絡爬蟲的實踐
轉載地址
為什么是Python
寫網(wǎng)絡爬蟲的語言有很多,編程的語言更多。個人認為Python是一種工具型的語言,上手快,語法簡單(相比于C/C++/JAVA族),各種功能庫豐富而且小巧單一(每個獨立的庫只做一件事情),所以編程就像是在玩樂高積木,照著自己設計好的流程,拼接就行了。當然,這是筆者個人的經(jīng)驗和喜好。如果你有自己擅長并喜歡的,大可用自己的去實現(xiàn)一個網(wǎng)絡爬蟲系統(tǒng),這個不在本文的討論范圍之類了。
有關幾種編程語言編寫網(wǎng)絡爬蟲的比較,可以參考知乎上的文章?PHP, Python, Node.js 哪個比較適合寫爬蟲?
?
為什么是Pyspider
Python有很多成熟的網(wǎng)絡爬蟲框架, 知乎上很多大牛總結了一些實踐經(jīng)驗,具體可以參考如何入門 Python 爬蟲?
很多推薦用requests做請求,query/soup做頁面數(shù)據(jù)(Html/Xml)解析,看起來很靈活,然而,一個比較完善的網(wǎng)絡爬蟲系統(tǒng),所需要提供的功能可能遠遠不止這些。也有推薦Scrapy的,雖然看起來功能非常強大,但是這個框架上手需要一些時間,有一定的學習成本,相對于新手來說,很難快速專注爬蟲業(yè)務的開發(fā)。
Pyspider是Roy Binux開發(fā)的一款開源的網(wǎng)絡爬蟲系統(tǒng),它不止是一個爬蟲框架,而是一套完備的爬蟲系統(tǒng),使用這套系統(tǒng)你只需要關注兩件事情
- 目標網(wǎng)站上的內容元素的解析,而且只需要關注解析什么,解析框架也有提供,并且提供了可視化工具輔助從目標頁面摳取需要解析的元素CSS屬性
- 解析出來的內容元素如何保存,你只需要關注數(shù)據(jù)庫表字段的設計,然后把解析出來的頁面元素內容保存到數(shù)據(jù)庫表中
- 那么,剩下的幾乎所有事情,就交給Pyspider吧
是不是聽上去感覺很簡單,那么,開始動手吧,跟著這篇官方文檔,最快幾分鐘的功夫,你就可以學會從2048(草榴)找到真愛了。
簡單的爬取看官方文檔就可以了,不過,實踐過程中總會遇到各種問題,那么,看看這些如何解決的吧。
如何模擬登陸
有些網(wǎng)站內容的展示需要用戶登錄,那么如果需要爬取這樣的頁面內容,我們的爬蟲就需要模擬用戶登陸。網(wǎng)站一般在頁面跳轉或者刷新的時候,也需要獲取登錄信息以確定這個頁面的訪問用戶是登陸過的。如果每次都需要用戶重新登錄,那么這種體驗就太爛了,需要一種機制把之前用戶登陸的信息保存起來,而且一定是保存在瀏覽器可以訪問的本地存儲上,這樣,用戶在頁面跳轉或者頁面刷新的時候,登錄信息被網(wǎng)站自動讀取,就不需要用戶頻繁登錄了。而這個保存的地方,叫做Cookie。
爬蟲需要做的事情,一是模擬登陸,拿到Cookie數(shù)據(jù),然后保存下來,二是每次去訪問網(wǎng)頁的時候,將Cookie信息傳遞給請求,這樣就可以正常爬到需要用戶登錄的數(shù)據(jù)了。
我們先設計一個登錄類,用來管理登錄的請求和數(shù)據(jù)
import urllib import urllib2 import lxml.html as HTMLclass Login(object):def __init__(self, username, password, login_url, post_url_prefix):self.username = usernameself.password = passwordself.login_url = login_urlself.post_url_prefix = post_url_prefixdef login(self):post_url, post_data = self.getPostData()post_url = self.post_url_prefix + post_urlreq = urllib2.Request(url = post_url, data = post_data)resp = urllib2.urlopen(req)return Truedef getPostData(self):url = self.login_url.strip()if not re.match(r'^http://', url):return None, Nonereq = urllib2.Request(url)resp = urllib2.urlopen(req)login_page = resp.read()doc = HTML.fromstring (login_page)post_url = doc.xpath("//form[@method='post' and @id='lsform']/@action")[0]cookietime = doc.xpath("//input[@name='cookietime' and @id='ls_cookietime']/@value")[0]username = self.usernamepassword = self.passwordpost_data = urllib.urlencode({'fastloginfield' : 'username','username' : username,'password' : password,'quickforward' : 'no','handlekey' : 'ls','cookietime' : cookietime,})return post_url, post_data代碼解釋
- 用戶名username, 密碼password, 目標網(wǎng)站的登錄頁面地址login_url, 目標網(wǎng)站的主域名post_url_prefix,這些參數(shù)從外部傳入,目標網(wǎng)站的登錄頁面地址也有可能就是網(wǎng)站的主頁地址。
- getPostData首先向目標網(wǎng)站的登錄頁面地址發(fā)起一個請求,然后解析這個頁面的數(shù)據(jù),解析出登錄請求的目標地址和post請求的數(shù)據(jù)(登錄請求一般為post請求),然后返回這兩個參數(shù)
設計一個方法,這個方法用來獲取爬取網(wǎng)頁請求需要的Cookie數(shù)據(jù)。
import os import hashlib import cookielibLOGIN_URL = 'http://登錄頁面地址' USER_NAME = '用戶名' PASSWORD = '密碼'HOST = '目標網(wǎng)頁主域名' REFERER = 'http://目標網(wǎng)頁主域名/' POST_URL_PREFIX = 'http://目標網(wǎng)頁主域名/'# !!! Notice !!! # Tasks that share the same account MUST share the same cookies file COOKIES_FILE = '/tmp/pyspider.%s.%s.cookies' % (HOST, hashlib.md5(USER_NAME).hexdigest()) COOKIES_DOMAIN = HOSTUSER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36' HTTP_HEADERS = {'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding' : 'gzip, deflate, sdch','Accept-Language' : 'zh-CN,zh;q=0.8,en;q=0.6','Connection' : 'keep-alive','DNT' : '1','Host' : HOST,'Referer' : REFERER,'User-Agent' : USER_AGENT, }def getCookies():cookiesJar = cookielib.MozillaCookieJar(COOKIES_FILE)if not os.path.isfile(COOKIES_FILE):cookiesJar.save()cookiesJar.load (COOKIES_FILE)cookieProcessor = urllib2.HTTPCookieProcessor(cookiesJar)cookieOpener = urllib2.build_opener(cookieProcessor, urllib2.HTTPHandler)for item in HTTP_HEADERS:cookieOpener.addheaders.append ((item ,HTTP_HEADERS[item]))urllib2.install_opener(cookieOpener)if len(cookiesJar) == 0:login = Login(USER_NAME, PASSWORD, LOGIN_URL, POST_URL_PREFIX)if login.login():cookiesJar.save()else:return NonecookiesDict = {}for cookie in cookiesJar:if COOKIES_DOMAIN in cookie.domain:cookiesDict[cookie.name] = cookie.valuereturn cookiesDict代碼解釋
- USER_NAME PASSWORD LOGIN_URL POST_URL_PREFIX 分別定義了用戶名/密碼/登錄頁面地址/目標網(wǎng)頁前綴
- 如果從COOKIES_FILE讀取出的Cookie信息為空,那么就調用Login做登錄流程,并且把獲取到的結果保存,如果Cookie不為空,就返回Cookie信息到字典cookiesDict中
Pyspider每次爬取請求都帶上Cookie字典,這樣,向目標地址發(fā)請求就可以獲取到需要登錄才能訪問到的數(shù)據(jù)了。
cookies = getCookies() self.crawl(url, cookies = cookies, callback=self.index_page)如何解析爬取下來的內容
爬取的內容通過回調的參數(shù)response返回,response有多種解析方式
- 如果返回的數(shù)據(jù)是json,則可以通過response.json訪問
- response.doc返回的是PyQuery對象
- response.etree返回的是lxml對象
- response.text返回的是unicode文本
- response.content返回的是字節(jié)碼
所以返回數(shù)據(jù)可以是5種形式,unicode和字節(jié)碼不是結構化的數(shù)據(jù),很難解析,這里就不贅述了,json需要特定的條件,而且解析相對簡單,也不必說。
常用的就是PyQuery和lxml的方式,關于lxml,可以采用XPath的語法來解析,比如前面模擬登錄中就采用了xpath的語法解析網(wǎng)頁,具體可參考lxml和XPath的相關文檔。
XPath選擇器參考
| nodename | bookstore | 選擇所有名稱叫做”bookstore”的節(jié)點 |
| / | bookstore/book | 選擇”bookstore”的節(jié)點的所有”book”子節(jié)點 |
| // | //book | 選擇文檔中所有名稱叫做”book”的節(jié)點,不管它們的父節(jié)點叫做什么 |
| . | ? | 選擇當前的節(jié)點 |
| .. | ? | 選擇當前節(jié)點的父節(jié)點 |
| @ | //@lang | 選擇所有名稱叫做”lang”的屬性 |
| ? | bookstore//book | 選擇節(jié)點”bookstore”所有叫做”book”的子孫節(jié)點,bookstore不一定是book的父節(jié)點 |
| ? | /bookstore/book[1] | 選擇節(jié)點”bookstore”的第一個叫做”book”的子節(jié)點 |
| ? | /bookstore/book[last()] | 選擇節(jié)點”bookstore”的最后一個叫做”book”的子節(jié)點 |
| ? | //title[@lang] | 選擇所有有一個屬性名叫做”lang”的title節(jié)點 |
| ? | //title[@lang=’en’] | 選擇所有有一個屬性”lang”的值為”en”的title節(jié)點 |
| * | /bookstore/* | 選擇”bookstore”節(jié)點的所有子節(jié)點 |
| ? | //* | 選擇文檔中所有的節(jié)點 |
| @* | //title[@*] | 選擇所有的”title”節(jié)點至少含有一個屬性,屬性名稱不限 |
PyQuery可以采用CSS選擇器作為參數(shù)對網(wǎng)頁進行解析。
類似這樣
或者這樣
response.doc('.pti > .pdbt > .authi > em > span').attr('title')關于PyQuery更多玩法,可以參考PyQuery complete API
CSS選擇器
| .class | .intro | Selects all elements with class=”intro” |
| #id | #firstname | Selects the element with id=”firstname” |
| element | p | Selects all <p> elements |
| element,element | div, p | Selects all <div> elements and all <p> elements |
| element element | div p | Selects all <p> elements inside <div> elements |
| element>element | div > p | Selects all <p> elements where the parent is a <div> element |
| [attribute] | [target] | Selects all elements with a target attribute |
| [attribute=value] | [target=_blank] | Selects all elements with target=”_blank” |
| [attribute^=value] | a[href^=”https”] | Selects every <a> element whose href attribute value begins with “https” |
| [attribute$=value] | a[href$=”.pdf”] | Selects every <a> element whose href attribute value ends with “.pdf” |
| [attribute*=value] | a[href*=”w3schools”] | Selects every <a> element whose href attribute value contains the substring “w3schools” |
| :checked | input:checked | Selects every checked <input> element |
更多詳情請參考CSS Selector Reference
如何將數(shù)據(jù)保存到MySQL中
將MySQL的數(shù)據(jù)庫訪問封裝成一個類
import hashlib import unicodedata import mysql.connector from mysql.connector import errorcodeclass MySQLDB:username = '數(shù)據(jù)庫用戶名'password = '數(shù)據(jù)庫密碼'database = '數(shù)據(jù)庫名'host = 'localhost' #數(shù)據(jù)庫主機地址connection = ''isconnect = Trueplaceholder = '%s'def __init__(self):if self.isconnect:MySQLDB.connect(self)MySQLDB.initdb(self)def escape(self,string):return '`%s`' % stringdef connect(self):config = {'user':self.username,'password':self.password,'host':self.host}if self.database != None:config['database'] = self.databasetry:cnx = mysql.connector.connect(**config)self.connection = cnxreturn Trueexcept mysql.connector.Error as err:if (err.errno == errorcode.ER_ACCESS_DENIED_ERROR):print "The credentials you provided are not correct."elif (err.errno == errorcode.ER_BAD_DB_ERROR):print "The database you provided does not exist."else:print "Something went wrong: " , errreturn Falsedef initdb(self):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()# 創(chuàng)建表的定義sql = 'CREATE TABLE IF NOT EXISTS \table_name ( \id VARCHAR(64) PRIMARY KEY, \url TEXT, \title TEXT, \type TEXT, \thumb TEXT, \count INTEGER, \images TEXT, \tags TEXT, \post_time DATETIME \) ENGINE=INNODB DEFAULT CHARSET=UTF8'try:cursor.execute(sql)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef cleardb (self):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()sql = 'DROP TABLE IF EXISTS table_name'try:cursor.execute(sql)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef insert (self,**values):if self.connection == '':print "Please connect first"return Falsecursor = self.connection.cursor()# 插入數(shù)據(jù)sql = "insert into table_name (id, url, title, type, thumb, count, temperature, images, tags, post_time) values (%s,%s,%s,%s,%s,%s,%s,%s,%s) on duplicate key update id=VALUES(id), url=VALUES(url), title=VALUES(title), type=VALUES(type), thumb=VALUES(thumb), count=VALUES(count), images=VALUES(images), tags=VALUES(tags), post_time=VALUES(post_time)"title = unicodedata.normalize('NFKD', values['title']).encode('ascii','ignore')images = ", ".join('%s' % k for k in values['images'])params = (hashlib.md5(title + images).hexdigest(), values['url'], values['title'], values['type'], values['thumb'], values['count'], images, '', values['date'])try:cursor.execute(sql,params)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return Falsedef replace(self,tablename=None,**values):if self.connection == '':print "Please connect first"return Falsetablename = self.escape(tablename)if values:_keys = ", ".join(self.escape(k) for k in values)_values = ", ".join([self.placeholder, ] * len(values))sql_query = "REPLACE INTO %s (%s) VALUES (%s)" % (tablename, _keys, _values)else:sql_query = "REPLACE INTO %s DEFAULT VALUES" % tablenamecur = self.connection.cursor()try:if values:cur.execute(sql_query, list(itervalues(values)))else:cur.execute(sql_query)self.connection.commit()return Trueexcept mysql.connector.Error as err:print ("An error occured: {}".format(err))return False在處理爬取結果的回調中保存到數(shù)據(jù)庫
def on_result(self, result):db = MySQLDB()db.insert(**result)如何在爬蟲腳本更新后重新運行之前執(zhí)行過的任務
比如這種場景,爬取了一些數(shù)據(jù),發(fā)現(xiàn)沒有寫保存到數(shù)據(jù)庫的邏輯,然后加上了這段邏輯,卻發(fā)現(xiàn)之前跑過的任務不會在執(zhí)行了。那么如何做到在爬蟲腳本改動后,之前的任務重新自動再跑一遍呢。
在crawl_config中使用itag來標示爬蟲腳本的版本號,如果這個值發(fā)生改變,那么所有的任務都會重新再跑一遍。示例代碼如下
itag也可以用來控制特定的任務是否需要重新執(zhí)行,詳見官方文檔。
如何解析JavaScript代碼
具體如何使用的可以看官方文檔,這里列舉出一些可供參考的JavaScript解析器
基于Webkit的PhantomJS?基于Gecko的SlimerJS
基于PhantomJS和SlimerJS的CasperJS
Nightmare
Selenium
spynner
ghost.py
更多工具/框架請參考Headless Browser and scraping - solutions
參考資料
binux/pyspider
Pyspider官方文檔
pyspider架構設計
pyspider中文腳本編寫指南
Pyspider爬蟲教程
把 pyspider的結果存入自定義的mysql數(shù)據(jù)庫中
pyspider的mysql數(shù)據(jù)存儲接口
PyQuery complete API
CSS Selector Reference
?
收集的一些其它網(wǎng)絡爬蟲的資料
Java
雪球股票信息超級爬蟲
一個簡單易用的爬蟲框架,內置代理管理模塊,靈活設置多線程爬取
A scalable web crawler framework for Java
強力 Java 爬蟲,列表分頁、詳細頁分頁、ajax、微內核高擴展、配置靈活
Python
Scrapy
a smart stream-like crawler & etl python library
爬視頻音頻神器You-Get
另一款視頻下載神器youtube-dl
youtube-dl圖形界面版
自動抓取Tumblr指定用戶視頻分享
crawley
烏云公開漏洞、知識庫爬蟲和搜索
下載指定的 Tumblr 博客中的圖片,視頻
下載指定的 Tumblr 博客中的圖片,視頻,玄魂修改版
DHT網(wǎng)絡爬蟲
豆瓣電影、書籍、小組、相冊、東西等爬蟲集 writen in Python
如何不用客戶端下載 YouKu 視頻-YouKu 實現(xiàn)下載 Python3 實現(xiàn)
一個可配置的、分布式的爬蟲框架
cloud-based web crawling platform
百度云爬蟲-爬取百度云/百度網(wǎng)盤所有的分享文件
愛絲APP圖片爬蟲,以及免支付破解VIP看圖
微信公眾號爬蟲
拉勾網(wǎng)爬蟲
百度網(wǎng)盤爬蟲(如何爬取百度網(wǎng)盤)
PHP
PHP Crawler
PHPCrawl
Phpfetcher
php spider framework
我用爬蟲一天時間“偷了”知乎一百萬用戶,只為證明PHP是世界上最好的語言
爬蟲組件
PHP Simple HTML DOM Parser
QueryList
Goutte, a simple PHP Web Scraper
Nodejs
Nodejs 編寫的爬蟲工具
批量抓取AV磁鏈或封面的苦勞力
Easily download all the photos from a Tumblr blog.
DHT Spider + BitTorrent Client = P2P Spider
P2P Spider修改版,添加了babel,eslint,gulp等工具來支持es6代碼
一個Node.js福利圖網(wǎng)站爬蟲程序
一個簡單的dht爬蟲,用于搜集infohash
百度云分享爬蟲項目
Ruby
A simple DHT crawler, written in Ruby
C sharp
visualized crawler & ETL IDE written with C#/WPF
Erlang
使用erlang實現(xiàn)P2P磁力搜索
C++
給不了你夢中情人,至少還有硬盤女神:hardseed
Golang
a distributed, high concurrency and powerful web crawler software
網(wǎng)絡爬蟲專題
open-open 網(wǎng)絡爬蟲專題
你想要的爬蟲,都在這里
?
?
?
總結
以上是生活随笔為你收集整理的Python 爬虫框架 - PySpider的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python操作MSSQL
- 下一篇: 菜鸟教程 之 JavaScript 教程