爬虫流量被限制
爬蟲抓取數據時,被抓取的網站可能會限制流量??梢杂么?#xff0c;不停的變換ip。但現在有個問題,要抓取的網站需要翻墻,這些代理不能翻墻。但我本地通過hosts文件可以訪問到要抓取的網站。
抓取網站是通過https協議,http第一步是dns解析,如果不通過dns服務器解析,直接用我給定的ip,就可以訪問了。
有幾個問題要確認:
1、http能不能用指定ip,不用dns解析;如果能,可解。
2、如果不能,能不能通過tcp連接,獲取到要訪問的網頁;
3、如果能,能不能通過代理發送和接收tcp連接;
4、如果能,可解;如果不能,就算了。
還有一個問題,一個頁面,怎么那么多次請求?
遇到同樣問題的博主們:
http://zyan.cc/post/389/
http://bbs.csdn.net/topics/360250572
回答上面的問題:
1、不能
2、可以
3、可以,但我買的是HTTP代理,不是socks代理,所以還是不能。
總結
- 上一篇: MySQL英语不好能学吗_英语不好,我能
- 下一篇: 轻量纯css框架,27款经典的CSS框架