爬取中大官网(一)
打開中大官網(wǎng)網(wǎng)頁(yè),開始進(jìn)行爬蟲。
想要爬取新聞的鏈接。
但是用下面的代碼的時(shí)候出現(xiàn)了問(wèn)題了。
我去查,是不是動(dòng)態(tài)網(wǎng)頁(yè),但是卻發(fā)現(xiàn),在鏈接之后,學(xué)校網(wǎng)頁(yè)跟我本地的主機(jī)就再也沒(méi)有了交互的過(guò)程。
- 可以看出,這其實(shí)不是一個(gè)動(dòng)態(tài)網(wǎng)頁(yè)。
那究竟是為什么呢?
有點(diǎn)奇怪,但是我發(fā)現(xiàn)了下面這個(gè)地方
我發(fā)現(xiàn)這有意思了,雖然我對(duì)前端的知識(shí)了解有限。這個(gè)開頭有點(diǎn)像那個(gè)html的開頭的地方。
我就接著去查開始的時(shí)候這個(gè)網(wǎng)站跟我發(fā)過(guò)了什么包?
發(fā)現(xiàn)下面這個(gè)包,覺(jué)得有意思。
我想,可能就是在訪問(wèn)學(xué)校官網(wǎng)的服務(wù)器的同時(shí),會(huì)向?qū)W校的這個(gè)服務(wù)器去發(fā)送請(qǐng)求,讓這個(gè)服務(wù)器給本地發(fā)當(dāng)前最新的新聞信息。
想想也覺(jué)得這個(gè)結(jié)構(gòu)還是很靠譜的。畢竟,這樣,就單獨(dú)把這個(gè)服務(wù)器交給管新聞的有關(guān)部分去訪問(wèn)就好了。這樣,對(duì)于整體的分工會(huì)更加明確。然后對(duì)于這個(gè)新聞的更新也會(huì)比較及時(shí)..吧?
所以,在檢查了那個(gè)包之后【檢查包的方法,我在一個(gè)介紹怎么用Chrome的博文中介紹了。建議爬蟲先學(xué)下怎么用這個(gè), 點(diǎn)擊可以訪問(wèn)】
然后改成下面的代碼:
from urllib.request import urlopen from bs4 import BeautifulSoupif __name__ == '__main__':url = 'http://news2.sysu.edu.cn/news03/mainsysunews2.htm?new=22808'htmlObj = urlopen(url)soup = BeautifulSoup(htmlObj.read(), 'lxml')lis = soup.find_all('li')for li in lis:print(li.span.get_text())print(li.a['title'])print(li.a.text)就可以了,輸出的結(jié)果是:
03-16 【中國(guó)社會(huì)科學(xué)網(wǎng)】“時(shí)代楷模——中山大學(xué)援疆援藏事跡報(bào)告會(huì)”在廣州舉行【中國(guó)社會(huì)科學(xué)網(wǎng)】“時(shí)代楷模——中山大... 03-16 【中國(guó)科學(xué)報(bào) 科學(xué)網(wǎng)】中山大學(xué)舉行援疆援藏事跡報(bào)告會(huì)【中國(guó)科學(xué)報(bào) 科學(xué)網(wǎng)】中山大學(xué)舉行援疆... 03-14 【新快報(bào)】全國(guó)政協(xié)委員、中山大學(xué)黨委書記陳春聲建議: 盡快解決外籍人員 參加事業(yè)單位養(yǎng)老保險(xiǎn)問(wèn)題 【新快報(bào)】全國(guó)政協(xié)委員、中山大學(xué)黨委書... 03-12 【羊城晚報(bào)】全國(guó)政協(xié)委員、中山大學(xué)黨委書記陳春聲:中大力爭(zhēng)讓80%本科畢業(yè)生繼續(xù)深造【羊城晚報(bào)】全國(guó)政協(xié)委員、中山大學(xué)黨委... 03-12 【羊城晚報(bào)】全國(guó)人大代表、中山大學(xué)校長(zhǎng)羅俊:創(chuàng)新發(fā)展打造高教人才蓄水池引鳳留鳳【羊城晚報(bào)】全國(guó)人大代表、中山大學(xué)校長(zhǎng)... 03-12 【南方都市報(bào)】中大到2021年穩(wěn)居國(guó)內(nèi)高校第一方陣,準(zhǔn)備這樣干【南方都市報(bào)】中大到2021年穩(wěn)居國(guó)內(nèi)...總結(jié)
- 上一篇: IDEA运行最简单的Java程序Hell
- 下一篇: Python爬虫,通过特定的函数来筛选标