python网络爬虫的论文模板_Python简单网络爬虫实战—下载论文名称,作者信息(上)...
上學(xué)期小師妹的小導(dǎo)師要她收集2009年到現(xiàn)在所有年份的某個方向的全部論文的名稱、作者
小師妹看著dblp上茫茫多的論文,心生絕望,弄了一下午+一個晚上才弄好了09和10兩年的
于是我自告奮勇,用python給她寫個腳本,雖然之前沒有經(jīng)驗,但是也算是一種新的嘗試
首先,最方便查找論文的地方當(dāng)然是dblp,該網(wǎng)頁長這樣:
作者名稱和論文名稱都有,就很方便。
1.python請求網(wǎng)頁
那么接下來首先要用python get到整個網(wǎng)頁。
這個小工具需要用到兩個模塊:
importrequestsfrom bs4 import BeautifulSoup
一個是requests,用于發(fā)起網(wǎng)頁請求。
向網(wǎng)址為address(address必須完整,https://www.baidu.com)的html發(fā)起請求,返回的html賦給res,res編碼格式為‘utf-8’:
res = requests.get(address)
res.encoding = 'utf-8'
另一個是BeautifilSoup模塊
這個模塊用來存儲讀取的網(wǎng)頁(這里還要安裝lxml模塊):
soup = BeautifulSoup(res.text, 'lxml')
這樣,soup中就存儲了整個網(wǎng)頁的全部信息,接下來所要提取的信息都從soup中來。
那么怎么從soup中提取所需信息呢?這就需要查看源網(wǎng)頁的結(jié)構(gòu)了
2.谷歌瀏覽器查看網(wǎng)頁結(jié)構(gòu)
在Elements中顯示了該html的所有結(jié)構(gòu)
基本上一個網(wǎng)頁結(jié)構(gòu)如下:
...
總結(jié)
以上是生活随笔為你收集整理的python网络爬虫的论文模板_Python简单网络爬虫实战—下载论文名称,作者信息(上)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 对象创建过程_5种创建Java
- 下一篇: jprofiler分析dump文件_内存