當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python网络爬虫的论文模板_Python简单网络爬虫实战—下载论文名称，作者信息（上）...

發(fā)布時間：2025/3/15 python 7 豆豆

生活随笔收集整理的這篇文章主要介紹了 python网络爬虫的论文模板_Python简单网络爬虫实战—下载论文名称，作者信息（上）... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

上學(xué)期小師妹的小導(dǎo)師要她收集2009年到現(xiàn)在所有年份的某個方向的全部論文的名稱、作者

小師妹看著dblp上茫茫多的論文，心生絕望，弄了一下午+一個晚上才弄好了09和10兩年的

于是我自告奮勇，用python給她寫個腳本，雖然之前沒有經(jīng)驗，但是也算是一種新的嘗試

首先，最方便查找論文的地方當(dāng)然是dblp，該網(wǎng)頁長這樣：

作者名稱和論文名稱都有，就很方便。

1.python請求網(wǎng)頁

那么接下來首先要用python get到整個網(wǎng)頁。

這個小工具需要用到兩個模塊：

importrequestsfrom bs4 import BeautifulSoup

一個是requests，用于發(fā)起網(wǎng)頁請求。

向網(wǎng)址為address(address必須完整,https://www.baidu.com)的html發(fā)起請求，返回的html賦給res，res編碼格式為‘utf-8’：

res = requests.get(address)

res.encoding = 'utf-8'

另一個是BeautifilSoup模塊

這個模塊用來存儲讀取的網(wǎng)頁(這里還要安裝lxml模塊)：

soup = BeautifulSoup(res.text, 'lxml')

這樣，soup中就存儲了整個網(wǎng)頁的全部信息，接下來所要提取的信息都從soup中來。

那么怎么從soup中提取所需信息呢？這就需要查看源網(wǎng)頁的結(jié)構(gòu)了

2.谷歌瀏覽器查看網(wǎng)頁結(jié)構(gòu)

在Elements中顯示了該html的所有結(jié)構(gòu)

基本上一個網(wǎng)頁結(jié)構(gòu)如下：

...

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。