利用python网络爬虫获取软科中国最好大学排名2019数据
生活随笔
收集整理的這篇文章主要介紹了
利用python网络爬虫获取软科中国最好大学排名2019数据
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?本例程來源于中國大學慕課中北京理工大學嵩天老師所開設的《Python網絡爬蟲與信息提取》 (https://www.icourse163.org/course/BIT-1001870001),例程的主要任務是,利用Requests庫和Beautiful Soup庫從軟科中國最好大學排名網站(http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html)中爬取數據并打印,原網頁截圖如下。
現在要爬取并打印前圖中表格的前三列信息,由于Requests庫和Beautiful Soup庫只能對html頁面中的靜態文本進行爬取,因此要檢查該頁面的源代碼如下,確認表格中的信息為靜態文本,另外還需要檢查一下該網站是否有robots.txt文件,經檢查確認沒有。
?例程的代碼如下:
#程序的結構設計 #步驟1:從網絡上獲取大學排名網頁內容 # getHTMLText() #步驟2:提取網頁內容中信息到合適的數據結構 # fillUnivList() #步驟3:利用數據結構展示并輸出結果 # printUnivList()import requests from bs4 import BeautifulSoup import bs4#從目標url中提取文本信息的函數 def getHTMLText(url):try:r=requests.get(url,timeout=30)#設置連接成功提醒r.raise_for_status()#改變編碼方式r.encoding=r.apparent_encodingreturn r.textexcept:return ""#在所有文本中提取表格前三列的信息 def fillUnivList(ulist,html):#html.parser解釋器可以將提取出的文本按標簽進行分行,保證可讀性soup=BeautifulSoup(html,"html.parser")#從源代碼可以觀察到,表格信息都是嵌套在tbody中,而每一行的信息由是嵌套在每一個tr標簽中,每一行的每一格信息嵌套在td中,這也是html語言的特點。#因此要遍歷tbody中的每一個tr標簽,即遍歷每一行。for tr in soup.find('tbody').children:#為了防止文本字符中含有“tr"字段的信息被誤認為html標簽,因此需要進行標簽確認if isinstance(tr,bs4.element.Tag):tds=tr('td')#提取出每一行表格前3列的信息ulist.append([tds[0].string,tds[1].string,tds[2].string])#打印提取出的表格信息 def printUnivList(ulist,num):#對輸出結果進行format格式化輸出,其中"{1:{3}^10}"中的{3}表示的是空余位置用format函數的第四個參數填充#因為如果是按照默認的話,format中空余位置會用英文字符進行填充,這就造成了長短不一,輸出不美觀的影響#而chr(12288)是中文空格對應的Unicode編碼,這樣就可以用中文空格填充空余位置了。tplt="{0:^10}\t{1:{3}^10}\t{2:^10}"print(tplt.format("排名","學校","分數",chr(12288)))for i in range(num):u=ulist[i]print(tplt.format(u[0],u[1],u[2],chr(12288)))def main():uinfo = []url="http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html"html=getHTMLText(url)fillUnivList(uinfo,html)#20代表爬取前20個學校printUnivList(uinfo,60)main()?
總結
以上是生活随笔為你收集整理的利用python网络爬虫获取软科中国最好大学排名2019数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于CarSim和Simulink的车辆
- 下一篇: SELinux is preventin