當前位置：首頁 > 编程语言 > python >内容正文

python

Python 简单的爬虫爬取网页框架(爬取网页框架+实例)

發布時間：2023/12/20 python 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 简单的爬虫爬取网页框架(爬取网页框架+实例) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python 這是一個基礎的爬蟲網頁框架

Python爬取網頁內容，其實大部分爬取都是在其源代碼中尋找代碼規律。
舉個例子吧:
如：小說名的章節節數，第1~100章，我們找的話就是找第[ ]章中的[ ]內容，然后根據章節網頁鏈接尋找規律進行跳轉，把有規律的數字部分進行研究。

當然，我這次舉的例子是爬取的豆瓣的top 500，網頁電影名，評分，評論。

爬取效果部分

下面是代碼部分:

不懂的地方，可以自己進行測試來加深自己的映像，感覺到了就抓住這個點去死磕它，通過解決問題，這樣你就可以學會自己去掌握它。

本次爬蟲涉及幾個知識點.

正則表達式
文件的寫入
異常拋出處理

# 爬取豆瓣top 500 # 電影名，評分，評論 # 難易:?? # 一.導入 # import re 導入re包 # import requests 導入正則表達式 # # def aa(): # rest = requests.get('https://movie.douban.com/top250') 二.訪問鏈接# s = rest.content.decode() 三.獲取該網頁源代碼# 四.編寫正則表達式,取到所需內容# ss = re.findall(r'(.*)',s) 爬取片名 # ss1 =re.findall(r'(.*)',s) 爬取評分 # ss2=re.findall(r'(\d*)人評價',s) 爬取評論# 五.去除無關信息 # b = [] # for i in range(len(ss)): # aa = re.findall(r'&nbsp.*', ss[i]) # if aa == []: # b.append(ss[i]) 得到所需信息 b=ss#六.寫入文件 # for i in range(len(b)): # print(b[i], ss1[i], ss2[i]) # with open(r"C:\Users\\陳嘉玉\Desktop\ex.txt",'a+') as ff: # ff.writelines(b[i]+' '+ss1[i]+' '+ss2[i]+'\n')#七.拋出異常 # try: # aa() # print("已爬取") # # except Exception as c:## # # print("爬取失敗，錯誤提示:"+c)## # else: # print("爬取失敗，錯誤提示:"+c)

總結

以上是生活随笔為你收集整理的Python 简单的爬虫爬取网页框架(爬取网页框架+实例)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：对渗透测试工程师来说，学历重要嘛？
下一篇：如何在ZBrush 4R7中设置背面遮罩