crawler_爬虫开发的曲线图
生活随笔
收集整理的這篇文章主要介紹了
crawler_爬虫开发的曲线图
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
個人總結(jié)爬蟲的學習曲線,可分為三個階段,?
一、?
? ? 主要在填充基礎(chǔ)知識,要熟悉http協(xié)議,學習正則表達式,首先基于jdk的基礎(chǔ)包的網(wǎng)絡(luò)功能,.net包下的 ?httpurlconnction?
從細節(jié)上簡單訪問網(wǎng)絡(luò)數(shù)據(jù),進一步可以減去一些繁瑣的封裝功能(請求參數(shù)),使用httpClient (4.2.1)版本,處理的登錄
頁面解析可以借助regex ,jsoup ,htmlparser ,建議使用正則(要求較高),數(shù)據(jù)的鎖向性準確,性能高。
二、
? ? 融入架構(gòu)的思想,考慮爬取性能,爬取道德,站點處理能力,設(shè)計實現(xiàn)分布式爬蟲,異步下載,負載均衡。
個人正在處在第二階段
三 、
? ? 經(jīng)過階段二,一般商用爬蟲都能應對,若打算進一步提高,java的垃圾回收,內(nèi)存釋放,注定性能比不上c,
可根據(jù)個人興趣,用c重寫。
不盡之處,歡迎溝通與交流 ,共同進步。
爬蟲技術(shù)交流_crawler ?QQ群 :167047843
轉(zhuǎn)載于:https://www.cnblogs.com/cphmvp/p/3304535.html
總結(jié)
以上是生活随笔為你收集整理的crawler_爬虫开发的曲线图的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《数字图像处理》冈萨雷斯学习笔记3:频域
- 下一篇: PHP二维数组排序函数