Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略
Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的簡介、安裝、使用方法詳細攻略
?
?
目錄
Beautiful Soup 4.2.0的簡介
Beautiful Soup 4.2.0的安裝
Beautiful Soup 4.2.0的使用方法
Beautiful Soup庫對比lxml庫
?
?
?
Beautiful Soup 4.2.0的簡介
? ? Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。
?
?
Beautiful Soup 4.2.0的安裝
如果你用的是新版的Debain或ubuntu,那么可以通過系統的軟件包管理來安裝:
$ apt-get install Python-bs4
Beautiful Soup 4 通過PyPi發布,所以如果你無法使用系統包管理安裝,那么也可以通過 easy_install 或 pip 來安裝.包的名字是 beautifulsoup4 ,這個包兼容Python2和Python3.
$ easy_install beautifulsoup4
$ pip install beautifulsoup4
?
?
Beautiful Soup 4.2.0的使用方法
1、將一段文檔傳入BeautifulSoup 的構造方法,就能得到一個文檔的對象, 可以傳入一段字符串或一個文件句柄.
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")
首先,文檔被轉換成Unicode,并且HTML的實例都被轉換成Unicode編碼
BeautifulSoup("Sacré bleu!")
<html><head></head><body>Sacré bleu!</body></html>
然后,Beautiful Soup選擇最合適的解析器來解析這段文檔,如果手動指定解析器那么Beautiful Soup會選擇指定的解析器來解析文檔.(參考 解析成XML ).
2、BeautifulSoup包 功能比正則表達式很多,且要簡潔明白一些。
Beautiful Soup將復雜HTML文檔轉換成一個復雜的樹形結構,每個節點都是Python對象,所有對象可 ?以歸納為4種: Tag、NavigableString、BeautifulSoup、Comment ?。 ?
Tag: ?即我們在寫網頁時所使用的標簽(如<a>超鏈接標簽) ?
NavigableString:簡單的說就是一種可以遍歷的字符串
?
Beautiful Soup庫對比lxml庫
? ? ?這兩個庫主要是解析html/xml文檔,BeautifulSoup 用來解析 HTML 比較簡單,API非常人性化,支持CSS選擇器、 ?Python標準庫中的HTML解析器,也支持 lxml 的 XML解析器。
? ? ? Beautiful Sou和Lxml是兩個非常流行的python模塊,他們常被用來對抓取到的網頁進行解析,以便進一步抓取的進行。
?
?
參考文獻:Beautiful Soup 4.2.0 文檔
beautifulsoup4 4.3.2
Beautiful Soup 4.4.0 文檔
總結
以上是生活随笔為你收集整理的Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DL之YoloV3:Yolo V3算法的
- 下一篇: Excel:解决Excel表格每一行所有