當前位置：首頁 > 编程语言 > python >内容正文

python

Python 爬虫篇-爬取web页面所有可用的链接实战演示，展示网页里所有可跳转的链接地址

發(fā)布時間：2025/4/16 python 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 爬虫篇-爬取web页面所有可用的链接实战演示，展示网页里所有可跳转的链接地址小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原理也很簡單，html 鏈接都是在 a 元素里的，我們就是匹配出所有的 a 元素，當然 a 可以是空的鏈接，空的鏈接是 None，也可能是無效的鏈接。

我們通過 urllib 庫的 request 來測試鏈接的有效性。
當鏈接無效的話會拋出異常，我們把異常捕獲出來，并提示出來，沒有異常就是有效的，我們直接顯示出來就好了。

需要用到的技術：
python+selenium
python+selenium 基本環(huán)境搭建

urllib.request
這是 python 自帶的，直接就可以使用。

# -*- coding: GBK -*- from selenium import webdriver import urllib.request from urllib.request import URLError# 調(diào)用chrome瀏覽器并后臺運行 option=webdriver.ChromeOptions() option.add_argument('headless') driver = webdriver.Chrome(chrome_options=option)driver.get("http://www.tencent.com/") # 要測試的頁面 urls = driver.find_elements_by_xpath("//a") # 匹配出所有a元素里的鏈接print("當前頁面的可用鏈接如下：")for url in urls:u=url.get_attribute('href')if u == 'None': # 很多的a元素沒有鏈接，所有是Nonecontinuetry:response=urllib.request.urlopen(url.get_attribute("href")) # 可以通過urllib測試url地址是否能打開except:print('Error url: ' + url.get_attribute('href')) # 把測試不通過的url顯示出來else: print(url.get_attribute("href")) # 測試通過的url展示出來driver.close()

運行成功效果圖：

喜歡的點個贊?吧！

總結(jié)

以上是生活随笔為你收集整理的Python 爬虫篇-爬取web页面所有可用的链接实战演示，展示网页里所有可跳转的链接地址的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Chrome 技术篇-常用web调试技巧
下一篇： Windows 技术篇-设置dns提升网