當前位置：首頁 > 编程语言 > python >内容正文

python

Python爬虫实例：爬取“最好大学网”大学排名

發布時間：2023/12/29 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python爬虫实例：爬取“最好大学网”大学排名小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

實例2 爬取大學排名

上海交通大學設計了一個“最好大學網”，上面列出了當前的大學排名。我們要設計爬蟲程序，爬取大學排名信息。

爬蟲功能要求：

輸入：大學排名URL鏈接
輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）
工具：python3、requests、beautifulsoup

程序設計思路：

研究大學排名網站網頁URL

設計fetchUrl函數，嘗試獲取頁面；

設計parseHtml函數，解析內容；

設計output函數，組織列表形式輸出；

使用main函數調用程序。

import re import requests import bs4def fetchUrl(url):'''功能：根據參數 url ，發起 http request，嘗試獲取指定網頁并返回結果參數：url：某個 webpage 的url返回：類文件對象型 http Response 對象'''headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}try:r = requests.get(url, headers=headers)r.raise_for_status()r.encoding = r.apparent_encodingprint('success!')return r.textexcept requests.RequestError as e:print(e)except:return "Error!"def parserHtml(html,urating):'''功能：根據參數 html 給定的內存型 HTML 文件，嘗試解析其結構，獲取所需內容參數：html：類似文件的內存 HTML 文本對象urating：一個二維列表，存放著大學排名信息返回：一個二維列表，存放著大學排名信息'''bsobj = bs4.BeautifulSoup(html,'html.parser')# 獲取表頭信息tr = bsobj.find('thead').find('tr')hlist = []if isinstance(tr, bs4.element.Tag):for th in tr('th'):hlist.append(th.string)hlist.pop()for option in tr('option'):hlist.append(option.string)urating.append(hlist)# 獲取表體信息for tr in bsobj.find('tbody').children:blist = []if isinstance(tr, bs4.element.Tag):for td in tr('td'):blist.append(td.string)urating.append(blist)return uratingdef output(urating, filename):'''功能：格式化輸出結果參數：urating：存放著排名結果的二維列表filename：保存的文件名返回：無'''import pandas as pddataframe = pd.DataFrame(urating)dataframe.to_csv(filename, index=False, sep=',', header=False)print("Success!")def main():url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'print("Begin to crawl the http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html and get the rating of universities in china ...")print('---'*20)print("Try to fetch url ...")html = fetchUrl(url)print("Try to parser html ...")urating = []ur = parserHtml(html,urating)print("Try to save the results in file ...")output(ur, '大學排名2018.csv')print("The work of crawling is done.")if __name__ == '__main__':main() Begin to crawl the http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html and get the rating of universities in china ... ------------------------------------------------------------ Try to fetch url ... success! Try to parser html ... Try to save the results in file ... Success! The work of crawling is done.

在程序實現的時候，其實也是遇到了一些小坑，需要花一些小心思的。
就是分析網頁的時候，發現表格最后一欄（得分指標）居然是一個下拉框，里面有很多指標選項，而且選擇不同的指標，表格中顯示的數據也不同。我需要根據它的實現原理來制定響應的爬取策略。

首先排除 url（因為整個過程中 url 是一直沒有變過），其次查看是否是 Ajax 異步加載，打開開發者工具監測網頁，發現在切換指標選項時，并沒有發出新的請求，說明數據是一開始就已經獲取好了的。隨后查看 Element ，定位到指標得分的這一列，然后發現...
果然各個指標的數據都是有的，只是在頁面中隱藏了而已，所以，找好位置，可以放心的直接爬了（有一個小插曲，就是我擔心這些數據排列的順序跟表頭里指標的順序不一致而造成錯誤，但是后來對應著表格里的數據，驗證了幾行，發現這個擔心是多余的）。

我覺得做爬蟲最關鍵的并不是做好某一個特定的爬蟲程序，最重要的是思路，雖然這里的擔心是多余的，但是有這個警覺性是很有必要的。

總結

以上是生活随笔為你收集整理的Python爬虫实例：爬取“最好大学网”大学排名的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：财务系统开发-知识储备
下一篇：二分入门——poj 2456 aggre