當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python HTMLParser

發(fā)布時間：2023/12/8 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python HTMLParser 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對搜索引擎、文件索引、文檔轉(zhuǎn)換、數(shù)據(jù)檢索、站點(diǎn)備份或遷移等應(yīng)用程序來說，經(jīng)常用到對網(wǎng)頁(即HTML文件)的解析處理。事實(shí)上，通過Python語言提供的各種模塊，我們無需借助Web服務(wù)器或者Web瀏覽器就能夠解析和處理HTML文檔。本文上篇中，我們介紹了一個可以幫助簡化打開位于本地和Web上的HTML文檔的Python模塊。在本文中，我們將論述如何使用Python模塊來迅速解析在HTML文件中的數(shù)據(jù)，從而處理特定的內(nèi)容，如鏈接、圖像和Cookie等。同時還會介紹如何規(guī)范HTML文件的格式標(biāo)簽。

　　一、從HTML文檔中提取鏈接

　　Python語言還有一個非常有用的模塊HTMLParser，該模塊使我們能夠根據(jù)HTML文檔中的標(biāo)簽來簡潔、高效地解析HTML文檔。所以，在處理HTML文檔的時候，HTMLParser是最常用的模塊之一。

#!/usr/bin/python import urllib, HTMLParserclass parseLinks(HTMLParser.HTMLParser):def handle_starttag(self,tag,attrs):if tag=='a':for name,value in attrs:if name=='href':print value,"\n", self.get_starttag_text()lParser = parseLinks() lPurl = urllib.urlopen("http://www.winddesktop.com").read() f = open('./hyplink.text','a') f.write(lPurl) f.close() lParser.feed(lPurl) lParser.close() #f.write(lParser(lPurl)) #f.close()

處理HTML文檔的時候，我們常常需要從其中提取出所有的鏈接。使用HTMLParser模塊后，這項任務(wù)將變得易如反掌。首先，我們需要定義一個新的HTMLParser類，以覆蓋handle_starttag()方法，我們將使用這個方法來顯示所有標(biāo)簽的HRef屬性值。

　　定義好新的HTMLParser類之后，需要創(chuàng)建一個實(shí)例來返回HTMLParser對象。然后，就可以使用urllib.urlopen(url)打開HTML文檔并讀取該HTML文件的內(nèi)容了。

　　為了解析HTML文件的內(nèi)容并顯示包含其中的鏈接，可以使用read()函數(shù)將數(shù)據(jù)傳遞給HTMLParser對象。HTMLParser對象的feed函數(shù)將接收數(shù)據(jù)，并通過定義的HTMLParser對象對數(shù)據(jù)進(jìn)行相應(yīng)的解析。需要注意，如果傳給HTMLParser的feed()函數(shù)的數(shù)據(jù)不完整的話，那么不完整的標(biāo)簽會保存下來，并在下一次調(diào)用feed()函數(shù)時進(jìn)行解析。當(dāng)HTML文件很大，需要分段發(fā)送給解析器的時候，這個功能就會有用武之地了。

二、從HTML文檔中提取圖像

　　處理HTML文檔的時候，我們常常需要從其中提取出所有的圖像。使用HTMLParser模塊后，這項任務(wù)將變得易如反掌。首先，我們需要定義一個新的HTMLParser類，以覆蓋handle_starttag()方法，該方法的作用是查找img標(biāo)簽，并保存src屬性值所指的文件。

#!/usr/bin/python/ #-*-coding:utf-8-*- import HTMLParser import urllib import sys,urllib2,htmllib,formatter#urlString = "http://www.winddesktop.com" urlString = "http://image.baidu.com" def getimage(addr):u = urllib.urlopen(addr)data = u.read()splitPath = addr.split('/')fName = splitPath.pop()print "Saving %s" %fNamef = open("./image/"+fName,'wb')f.write(data)f.close()class parseImages(HTMLParser.HTMLParser):def handle_starttag(self,tag,attrs):if tag == 'img':for name,value in attrs:if name == 'src':getimage(urlString+"/"+value)lParser = parseImages() u = urllib.urlopen(urlString) print "Opening URL \n------" print u.info() lParser.feed(u.read()) lParser.close()

　三、從HTML文檔中提取文本

　　處理HTML文檔的時候，我們常常需要從其中提取出所有的文本。使用HTMLParser模塊后，這項任務(wù)將變得非常簡單了。首先，我們需要定義一個新的HTMLParser類，以覆蓋handle_data()方法，該方法是用來解析并文本數(shù)據(jù)的。

.....

http://blog.csdn.net/eting1987/article/details/6290428

總結(jié)

以上是生活随笔為你收集整理的python HTMLParser的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： win2003能装mysql_win20
下一篇： Sklearn中predict_prob