爬虫技术python代码_Python 你见过三行代码的爬虫吗
Python實用寶典每次講爬蟲的時候都會從“發(fā)送請求” 開始講,講到解析頁面的時候可能大部分讀者都會卡住,因為這部分確實需要一點(diǎn)XPATH或者CSS選擇器的前置知識。那么有沒有不需要這么復(fù)雜的操作就能把頁面信息讀取出來的方法呢?
答案是:有。
Lassie是一個超簡單的頁面信息檢索工具,它能夠通過幾行代碼就獲取到頁面上的靜態(tài)信息,比如:頁面描述、視頻鏈接、頁面標(biāo)題,頁面關(guān)鍵詞、圖像鏈接等等。
為什么超簡單?感受一下:
importlassie
data=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')
print(data['images'])
你只要fetch一下頁面,就能得到以下的運(yùn)行結(jié)果(輸出為字典):
1.安裝
如果你還沒有安裝Python,推薦閱讀這篇文章:Python安裝。
安裝完成后,請打開你的CMD/Terminal(終端)輸入以下命令:
pip install lassie
即可成功安裝lassie.
2.使用
讓我們舉個栗子,用這個工具爬取Python實用寶典上篇文章的圖片鏈接:
importlassie
data=lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/')
print(data['images'])
結(jié)果:
[{'src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'secure_src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'og:image'}, {'src':'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'twitter:image'},{'src': 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg', 'type': 'favicon'}]
當(dāng)然,我們可以用列表解析式,把所有鏈接放到一個數(shù)組里:
print([i['src']foriindata['images']])
結(jié)果:
['https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg']
怎么樣,是不是這個庫拿來爬靜態(tài)頁面實在太方便了!唯一的缺點(diǎn)就是它無法爬取頁面中詳細(xì)的文本內(nèi)容,僅僅能用來提取圖片、視頻和頁面相關(guān)的信息,如果你的爬蟲只需要爬取靜態(tài)頁面上的圖片和視頻,這個庫簡直是神器啊。
如果你喜歡今天的Python 教程,請持續(xù)關(guān)注Python實用寶典,如果對你有幫助,麻煩在下面點(diǎn)一個贊/在看
,有任何問題都可以在下方留言,我們會耐心解答的!
點(diǎn)擊下方閱讀原文可以獲取所有代碼和鏈接哦!
Python實用寶典 (pythondict.com)
不只是一個寶典
歡迎關(guān)注公眾號:Python實用寶典
總結(jié)
以上是生活随笔為你收集整理的爬虫技术python代码_Python 你见过三行代码的爬虫吗的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android 自定义view实现拖动放
- 下一篇: arcgis导出shp文件_地理工具学习