第十节 lxml.etree解析HTML文件
生活随笔
收集整理的這篇文章主要介紹了
第十节 lxml.etree解析HTML文件
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1 from lxml import etree
2
3 r = '''
4 <div class="tabsConItem syllabus">
5 <ul id="syList">
6 <li class="item lesson" >
7 <div class="main"><a title="第一個python程序與數(shù)據(jù)存儲-1" target="_blank">第一個python程序與數(shù)據(jù)存儲-1</a></div>
8 </li>
9 <li class="item lesson" >
10 <div class="main"><a title="第一個python程序與數(shù)據(jù)存儲-2" target="_blank">第一個python程序與數(shù)據(jù)存儲-2</a></div>
11 </li>
12 <li class="item lesson" >
13 <div class="main"><a title="第一個python程序與數(shù)據(jù)存儲-3" target="_blank">第一個python程序與數(shù)據(jù)存儲-3</a></div>
14 </li>
15 <li class="item lesson" >
16 <div class="main"><a title="第一個python程序與數(shù)據(jù)存儲-4" target="_blank">第一個python程序與數(shù)據(jù)存儲-4</a></div>
17 </li>
18 <li class="item lesson" >
19 <div class="main"><a title="第一個python程序與數(shù)據(jù)存儲-5" target="_blank">第一個python程序與數(shù)據(jù)存儲-5</a></div>
20 </ul>
21 <div id="syList_loading" class="loading">加載中</div>
22 <div id="syList_Empty" class="Empty"></div>
23 </div>'''
24 '''
25
26 '''
27 def parse_text():
28 html = etree.HTML(r) # 這個底層已經(jīng)設定好html解析器,不需要重新設置
29 # 使用etree將爬蟲爬取保存成字符串格式的文件重新轉(zhuǎn)換成HTML格式的文件以便用xpath語法提取信息
30 print(etree.tostring(html, encoding='utf-8').decode('utf-8'))
31 def parse_lagou_file():
32 #拉鉤網(wǎng)的語法不想騰訊的那么規(guī)范,因此需要調(diào)用etree.HTMLParser生成一個專門用來解析html的解析器正常解析
33 parse = etree.HTMLParser(encoding="UTF-8")
34 html2 = etree.parse('lagou.html',parser=parse) #讀取文件方式解析
35 #etree.parse('lagou.html',parser=parse)默認是使用XML解析器的
36 print(etree.tostring(html2,encoding='utf-8').decode('utf-8'))
37 if __name__ == '__main__':
38 parse_lagou_file()
總結(jié)
以上是生活随笔為你收集整理的第十节 lxml.etree解析HTML文件的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 设置clion执行前的cmake命令,和
- 下一篇: 操作系统概述 记录操作系统相关知识