这样的爬虫思路要怎么设计??
生活随笔
收集整理的這篇文章主要介紹了
这样的爬虫思路要怎么设计??
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
首先,不用兩只爬蟲,一只爬蟲爬去內(nèi)容的時候,就可以分辨出是優(yōu)質(zhì)還是劣質(zhì)內(nèi)容,是的話,就直接發(fā)布 "good_content" 事件,你的爬蟲系統(tǒng)就這么簡單。
訂閱了 "good_content" 的系統(tǒng)收到該事件,就會自動更新內(nèi)容。具體是用什么來實現(xiàn)發(fā)布訂閱模式,方法有很多。如果是在一個項目中,自己寫代碼實現(xiàn)一個就行了;如果不是一個項目,就用消息隊列,或者Redis也有提供發(fā)布訂閱的功能(據(jù)說不太好用,哈哈~)。
發(fā)布訂閱模式,有優(yōu)質(zhì)內(nèi)容就發(fā)布一個 "good_content" 事件,然后其他的網(wǎng)站訂閱這個事件,這樣不管你有多少網(wǎng)站,整個系統(tǒng)都是松耦合的。
有問題可以繼續(xù)討論。
高估了自己的數(shù)據(jù)量,低估了python性能。不用設(shè)計,花半天看scrapy文檔,官方例子流程就符合你了。
訂閱了 "good_content" 的系統(tǒng)收到該事件,就會自動更新內(nèi)容。具體是用什么來實現(xiàn)發(fā)布訂閱模式,方法有很多。如果是在一個項目中,自己寫代碼實現(xiàn)一個就行了;如果不是一個項目,就用消息隊列,或者Redis也有提供發(fā)布訂閱的功能(據(jù)說不太好用,哈哈~)。
發(fā)布訂閱模式,有優(yōu)質(zhì)內(nèi)容就發(fā)布一個 "good_content" 事件,然后其他的網(wǎng)站訂閱這個事件,這樣不管你有多少網(wǎng)站,整個系統(tǒng)都是松耦合的。
有問題可以繼續(xù)討論。
高估了自己的數(shù)據(jù)量,低估了python性能。不用設(shè)計,花半天看scrapy文檔,官方例子流程就符合你了。
總結(jié)
以上是生活随笔為你收集整理的这样的爬虫思路要怎么设计??的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。