Python爬虫beautifulsoup4常用的解析方法总结
摘要
如何用beautifulsoup4解析各種情況的網頁
beautifulsoup4的使用
關于beautifulsoup4,官網已經講的很詳細了,我這里就把一些常用的解析方法做個總結,方便查閱。
裝載html文檔
使用beautifulsoup的第一步是把html文檔裝載到beautifulsoup中,使其形成一個beautifulsoup對象。
初始化BeautifulSoup類時,需要加入兩個參數,第一個參數即是我們爬到html源碼,第二個參數是html解析器,常用的有三個解析器,分別是”html.parser”,”lxml”,”html5lib”,官網推薦用lxml,因為效率高,當然需要pip install lxml一下。
當然這三種解析方式在某些情況解析得到的對象內容是不同的,比如對于標簽不完整這一情況(p標簽只有一半):
使用
在使用中,我盡量按照我使用的頻率介紹,畢竟為了查閱~
按照標簽名稱、id、class等信息獲取某個標簽
按照標簽名稱、id、class等信息獲取多個標簽
按照標簽的其他屬性獲取某個標簽
找前頭和后頭的標簽
找父標簽
soup.find_parents("div")
soup.find_parent("div")
css選擇器
注意幾個可能出現的錯誤,可以用try捕獲來防止爬蟲進程
UnicodeEncodeError: ‘charmap' codec can't encode character u'\xfoo' in position bar (或其它類型的 UnicodeEncodeError
需要轉碼
AttributeError: ‘NoneType' object has no attribute ‘foo'
沒這個屬性
就介紹這么多,應該可以覆蓋大部分網頁結構了吧~!
轉載于:https://www.cnblogs.com/Pythonmiss/p/10784120.html
總結
以上是生活随笔為你收集整理的Python爬虫beautifulsoup4常用的解析方法总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spring cloud zuul跨域(
- 下一篇: 20175221 MyCP(课下作业,必