hbuilderx简单网页代码_Python爬取网页数据
都說python爬網頁數據方便,我們今天就來試試,python爬取數據到底有多方便
簡介
爬取數據,基本都是通過網頁的URL得到這個網頁的源代碼,根據源代碼篩選出需要的信息
準備
IDE:PyCharm
庫:requests、lxml
注:
requests:獲取網頁源代碼
lxml:得到網頁源代碼中的指定數據
搭建環境
這里的搭建環境,可不是搭建python的開發環境,這里的搭建環境是指,我們使用pycharm新建一個python項目,然后弄好requests和lxml
新建一個項目:
依賴庫導入
由于我們使用的是pycharm,所以我們導入這兩個庫就會顯的格外簡單
import?requests這個時候,requests會報紅線,這時候,我們將光標對準requests,按快捷鍵:alt + enter,pycharm會給出解決之道,這時候,選擇install package requests,pycharm就會自動為我們安裝了,我們只需要稍等片刻,這個庫就安裝好了。lxml的安裝方式同理.
獲取網頁源代碼
之前我就說過,requests可以很方便的讓我們得到網頁的源代碼
網頁就拿我的博客地址舉例好了:https://coder-lida.github.io/
獲取源碼:
#?獲取源碼html?=?requests.get("https://coder-lida.github.io/")
#?打印源碼
print?html.text
代碼就是這么簡單,這個html.text便是這個URL的源碼
完整代碼:
import??requestsimport?lxml
html?=?requests.get("https://coder-lida.github.io/")
print?(html.text)
打印:
獲取指定數據
現在我們已經得到網頁源碼了,這時就需要用到lxml來來篩選出我們所需要的信息
這里我就以得到我博客列表為例,可以找到原網頁通過F12查看XPath,如圖
通過XPath的語法獲得網頁的內容。
查看第一篇文章標題
//*[@id="layout-cart"]/div[1]/a/@title// 定位根節點
/ 往下層尋找
提取文本內容:/text()
提取屬性內容:/@xxxx
from?lxml?import?etree
html?=?requests.get("https://coder-lida.github.io/")
#print?(html.text)
etree_html?=?etree.HTML(html.text)
content?=?etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)
查看所有文章標題
//*[@id="layout-cart"]/div/a/@title代碼:
import??requestsfrom?lxml?import?etree
html?=?requests.get("https://coder-lida.github.io/")
#print?(html.text)
etree_html?=?etree.HTML(html.text)
content?=?etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')
print(content)
輸出:
['?springboot逆向工程?',?'?自己實現一個簡單版的HashMap?',?'?開發中常用的?25?個JavaScript?單行代碼?',?'?shiro?加密登錄?密碼加鹽處理?',?'?Spring?Boot構建RESTful?API與單元測試??',?'?記一次jsoup的使用?']總結
以上是生活随笔為你收集整理的hbuilderx简单网页代码_Python爬取网页数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: git add remote_收藏向 |
- 下一篇: administrator没有管理员权限