python爬虫做灰产_python爬虫
爬蟲
以下內(nèi)容純自己理解的
爬網(wǎng)站時要是內(nèi)容能被ctrl f 找到那就是靜態(tài)網(wǎng)頁就可以直接進行爬取,
要是沒有就是動態(tài)網(wǎng)頁,要分析json等響應最后轉(zhuǎn)換成python能懂得語言,解析數(shù)據(jù) 字典
scrapy框架步驟
scrapy startproject 項目名稱
scrapy genspider 爬蟲名字 域名 爬蟲名字不能是數(shù)字開頭的最好是英文的
編寫爬蟲(敲代碼)
運行爬蟲 scrapy crawl 爬蟲名字
例子
創(chuàng)建項目框架scrapy startproject jobspider
創(chuàng)建爬蟲scrapy genspider job 51job.com
編寫爬蟲
運行爬蟲 scrapy crawl job
循環(huán)的代碼提取內(nèi)容
book = []
for name,author in zip(name,author):
book.append({'name': name,'author':author})
return book
scrapy crawl 項目名稱(qd)-o book.csv/xml/json能拿到這些格式
setting 里面要開啟好多東西 包括pipelines
PIPELINES的介紹。。。
yield的使用,數(shù)據(jù)的操作
xpath('內(nèi)容提取信息的規(guī)則').extract()是獲取數(shù)據(jù) 前面的是返回來的響應
另一個爬蟲框架 crawlscrapy
scrapy genspider -t crawl 爬蟲名字 域名
和scrapy的區(qū)別是多了一個rules規(guī)則 這里是獲取響應并且回傳到parse_item 就相當于parse那個函數(shù),同時可以進行多次的rules,響應返回來再做處理
圖片的便捷取出方法
image
middlewares 動態(tài)的ua
動態(tài)代理
總結(jié)
以上是生活随笔為你收集整理的python爬虫做灰产_python爬虫的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: emctl start dbconsol
- 下一篇: 【转】C#中Invoke的用法