當前位置：首頁 > 编程语言 > python >内容正文

python

python读取html文件正则替换_Python正则获取和过滤或者替换HTML标签的方法说明

發布時間：2024/7/5 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python读取html文件正则替换_Python正则获取和过滤或者替换HTML标签的方法说明小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這篇文章主要介紹了Python通過正則表達式獲取、過濾或者替換HTML標簽的方法，感興趣的小伙伴們可以參考一下

本文實例介紹了Python通過正則表達式獲取,去除(過濾)或者替換HTML標簽的幾種方法，具體內容如下

python正則表達式轉義符:

. 匹配除換行符以外的任意字符

\w 匹配字母或數字或下劃線或漢字

\s 匹配任意的空白符

\d 匹配數字

\b 匹配單詞的開始或結束

^ 匹配字符串的開始

$ 匹配字符串的結束

\W 匹配任意不是字母，數字，下劃線，漢字的字符

\S 匹配任意不是空白符的字符

\D 匹配任意非數字的字符

\B 匹配不是單詞開頭或結束的位置

[^x] 匹配除了x以外的任意字符

[^aeiou] 匹配除了aeiou這幾個字母以外的任意字符

常用的python正則表達式限定符代碼/語法說明:

*重復零次或更多次

+重復一次或更多次

?重復零次或一次

{n}重復n次

{n,}重復n次或更多次

{n,m}重復n到m次

關于python正則表達式命名組:

命名組:(?P.....)

這篇文章里面還提到了界定( 問號開頭,前向則有個'

前向界定 (?<=…)

后向界定 (?=…)

前向非界定 (?

后向非界定 (?!.....)

Python通過正則表達式獲取,去除(過濾)或者替換HTML標簽代碼舉例

1、Python通過正則表達式取html中天氣信息代碼示例:

#!/usr/bin/env python

#-*- coding: utf8 -*-

import re

html = """

多云

"""

if name == 'main':

p = re.compile(']+>')

print p.sub("", html)

Python通過正則表達式取html中溫度信息代碼示例:

#!/usr/bin/env python

#-*- coding: utf8 -*-

import re

html = """

14℃

"""

if name == 'main':

p = re.compile(']+>')

print p.sub("", html)

2、Python通過正則表達式去除(過濾)HTML標簽示例代碼:

# -*- coding: utf-8-*-

import re

##過濾HTML中的標簽

#將HTML中標簽等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先過濾CDATA

re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA

re_script=re.compile(']*>[^',re.I)#Script

re_style=re.compile(']*>[^',re.I)#style

re_br=re.compile('
')#處理換行

re_h=re.compile('?\w+[^>]*>')#HTML標簽

re_comment=re.compile('')#HTML注釋

s=re_cdata.sub('',htmlstr)#去掉CDATA

s=re_script.sub('',s) #去掉SCRIPT

s=re_style.sub('',s)#去掉style

s=re_br.sub('\n',s)#將br轉換為換行

s=re_h.sub('',s) #去掉HTML 標簽

s=re_comment.sub('',s)#去掉HTML注釋

#去掉多余的空行

blank_line=re.compile('\n+')

s=blank_line.sub('\n',s)

s=replaceCharEntity(s)#替換實體

return s

##替換常用HTML字符實體.

#使用正常的字符替換HTML中特殊的字符實體.

#你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

re_charEntity=re.compile(r'?(?P\w+);')

sz=re_charEntity.search(htmlstr)

while sz:

entity=sz.group()#entity全稱，如>

key=sz.group('name')#去除&;后entity,如>為gt

try:

htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

htmlstr=re_charEntity.sub('',htmlstr,1)

sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if name=='main':

s=file('169it.com_index.htm').read()

news=filter_tags(s)

print news

以上就是本文的全部內容，希望對大家的學習有所幫助。

總結

以上是生活随笔為你收集整理的python读取html文件正则替换_Python正则获取和过滤或者替换HTML标签的方法说明的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器人动力学与控制_力控制与位置控制的区
下一篇： python canopen_Pytho