當前位置：首頁 > 编程语言 > python >内容正文

python

hbuilderx简单网页代码_Python爬取网页数据

發布時間：2025/3/20 python 22 豆豆

生活随笔收集整理的這篇文章主要介紹了 hbuilderx简单网页代码_Python爬取网页数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

都說python爬網頁數據方便，我們今天就來試試，python爬取數據到底有多方便

簡介

爬取數據，基本都是通過網頁的URL得到這個網頁的源代碼，根據源代碼篩選出需要的信息

準備

IDE：PyCharm
庫：requests、lxml

注：
requests：獲取網頁源代碼
lxml：得到網頁源代碼中的指定數據

搭建環境

這里的搭建環境，可不是搭建python的開發環境，這里的搭建環境是指，我們使用pycharm新建一個python項目，然后弄好requests和lxml
新建一個項目：

依賴庫導入

由于我們使用的是pycharm，所以我們導入這兩個庫就會顯的格外簡單

import?requests

這個時候，requests會報紅線，這時候，我們將光標對準requests，按快捷鍵：alt + enter，pycharm會給出解決之道，這時候，選擇install package requests，pycharm就會自動為我們安裝了，我們只需要稍等片刻，這個庫就安裝好了。lxml的安裝方式同理.

獲取網頁源代碼

之前我就說過，requests可以很方便的讓我們得到網頁的源代碼
網頁就拿我的博客地址舉例好了：https://coder-lida.github.io/

獲取源碼：

#?獲取源碼
html?=?requests.get("https://coder-lida.github.io/")
#?打印源碼
print?html.text

代碼就是這么簡單，這個html.text便是這個URL的源碼

完整代碼：

import??requests
import?lxml

html?=?requests.get("https://coder-lida.github.io/")
print?(html.text)

打印：

獲取指定數據

現在我們已經得到網頁源碼了，這時就需要用到lxml來來篩選出我們所需要的信息
這里我就以得到我博客列表為例,可以找到原網頁通過F12查看XPath,如圖

通過XPath的語法獲得網頁的內容。

查看第一篇文章標題

//*[@id="layout-cart"]/div[1]/a/@title

// 定位根節點
/ 往下層尋找
提取文本內容：/text()
提取屬性內容：/@xxxx

import??requests
from?lxml?import?etree

html?=?requests.get("https://coder-lida.github.io/")
#print?(html.text)
etree_html?=?etree.HTML(html.text)
content?=?etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)

查看所有文章標題

//*[@id="layout-cart"]/div/a/@title

代碼：

輸出：

['?springboot逆向工程?',?'?自己實現一個簡單版的HashMap?',?'?開發中常用的?25?個JavaScript?單行代碼?',?'?shiro?加密登錄?密碼加鹽處理?',?'?Spring?Boot構建RESTful?API與單元測試??',?'?記一次jsoup的使用?']

總結

以上是生活随笔為你收集整理的hbuilderx简单网页代码_Python爬取网页数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： git add remote_收藏向 |
下一篇： administrator没有管理员权限