轻量级爬虫框架
輕量級爬蟲框架
2018-02-12
?
1【轉】設計和實現一款輕量級的爬蟲框架?【代碼】
?
- 調度器(Scheduler):是隊列,保存請求隊列和響應隊列
- 下載器(Downloader):通過請求隊列中的請求拉數據,把結果保存到響應隊列
- 爬蟲(Spiders):對響應隊列中響應通過css(根據不同網站配置)來獲取需要的內容和url,需要的內容放到管道,url放到請求隊列。
- 管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的信息。
- 引擎(ElvesEngine):流程控制
?
總結
- 上一篇: (十二)springmvc+mybati
- 下一篇: Cocoapods安装过程【转载】