[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)
歡迎大家來到“Python從零到壹”,在這里我將分享約200篇Python系列文章,帶大家一起去學(xué)習(xí)和玩耍,看看Python這個有趣的世界。所有文章都將結(jié)合案例、代碼和作者的經(jīng)驗(yàn)講解,真心想把自己近十年的編程經(jīng)驗(yàn)分享給大家,希望對您有所幫助,文章中不足之處也請海涵。Python系列整體框架包括基礎(chǔ)語法10篇、網(wǎng)絡(luò)爬蟲30篇、可視化分析10篇、機(jī)器學(xué)習(xí)20篇、大數(shù)據(jù)分析20篇、圖像識別30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的關(guān)注、點(diǎn)贊和轉(zhuǎn)發(fā)就是對秀璋最大的支持,知識無價人有情,希望我們都能在人生路上開心快樂、共同成長。
前一篇文章講述了數(shù)據(jù)庫操作知識,包括MySQL安裝、SQL語句和Python操作數(shù)據(jù)庫知識,這將為后續(xù)網(wǎng)絡(luò)爬蟲存儲至數(shù)據(jù)庫奠定基礎(chǔ)。本文詳細(xì)介紹Selenium基礎(chǔ)技術(shù),涉及基礎(chǔ)入門、元素定位、常用方法和屬性、鼠標(biāo)操作、鍵盤操作和導(dǎo)航控制。基礎(chǔ)性文章,希望對您有所幫助。
文章目錄
- 一.初識Selenium
- 1.安裝Selenium
- 2.安裝瀏覽器驅(qū)動
- 3.Phantomjs
- 二.快速開始Selenium解析
- 三.定位元素
- 1.通過ID定位元素
- 2.通過Name定位元素
- 3.通過XPath定位元素
- 4.通過連接文本定位超鏈接
- 5.通過標(biāo)簽名定位元素
- 6.通過類名定位元素
- 7.通過CSS選擇器定位元素
- 四.常用方法和屬性
- 1.操作元素方法
- 2.WebElement常用屬性
- 五.鍵盤和鼠標(biāo)自動化操作
- 1.鍵盤操作
- 2.鼠標(biāo)操作
- 六.導(dǎo)航控制
- 1.下拉菜單交互操作
- 2.Window和Frame間對話框移動
- 七.總結(jié)
下載地址:
- https://github.com/eastmountyxz/Python-zero2one
前文賞析:
第一部分 基礎(chǔ)語法
- [Python從零到壹] 一.為什么我們要學(xué)Python及基礎(chǔ)語法詳解
- [Python從零到壹] 二.語法基礎(chǔ)之條件語句、循環(huán)語句和函數(shù)
- [Python從零到壹] 三.語法基礎(chǔ)之文件操作、CSV文件讀寫及面向?qū)ο?/li>
第二部分 網(wǎng)絡(luò)爬蟲
- [Python從零到壹] 四.網(wǎng)絡(luò)爬蟲之入門基礎(chǔ)及正則表達(dá)式抓取博客案例
- [Python從零到壹] 五.網(wǎng)絡(luò)爬蟲之BeautifulSoup基礎(chǔ)語法萬字詳解
- [Python從零到壹] 六.網(wǎng)絡(luò)爬蟲之BeautifulSoup爬取豆瓣TOP250電影詳解
- [Python從零到壹] 七.網(wǎng)絡(luò)爬蟲之Requests爬取豆瓣電影TOP250及CSV存儲
- [Python從零到壹] 八.數(shù)據(jù)庫之MySQL基礎(chǔ)知識及操作萬字詳解
- [Python從零到壹] 九.網(wǎng)絡(luò)爬蟲之Selenium基礎(chǔ)技術(shù)萬字詳解(定位元素、常用方法、鍵盤鼠標(biāo)操作)
作者新開的“娜璋AI安全之家”將專注于Python和安全技術(shù),主要分享Web滲透、系統(tǒng)安全、人工智能、大數(shù)據(jù)分析、圖像識別、惡意代碼檢測、CVE復(fù)現(xiàn)、威脅情報分析等文章。雖然作者是一名技術(shù)小白,但會保證每一篇文章都會很用心地撰寫,希望這些基礎(chǔ)性文章對你有所幫助,在Python和安全路上與大家一起進(jìn)步。
Selenium是一款用于測試Web應(yīng)用程序的經(jīng)典工具,它直接運(yùn)行在瀏覽器中,仿佛真正的用戶在操作瀏覽器一樣,主要用于網(wǎng)站自動化測試、網(wǎng)站模擬登陸、自動操作鍵盤和鼠標(biāo)、測試瀏覽器兼容性、測試網(wǎng)站功能等,同時也可以用來制作簡易的網(wǎng)絡(luò)爬蟲。
本文主要介紹Selenium Python API技術(shù),它以一種非常直觀的方式來訪問Selenium WebDriver的所有功能,包括定位元素、自動操作鍵盤鼠標(biāo)、提交頁面表單、抓取所需信息等。
一.初識Selenium
Selenium是ThoughtWorks公司專門為Web應(yīng)用程序編寫的一個驗(yàn)收測試工具,它提供的API支持多種語言,包括Python、Java、C#等,本書主要介紹Python環(huán)境下的Selenium技術(shù)。Python語言提供了Selenium擴(kuò)展包,它是使用Selenium WebDriver(網(wǎng)頁驅(qū)動)來編寫功能、驗(yàn)證測試的一個API接口。
通過Selenium Python API,讀者能夠以一種直觀的方式來訪問Selenium WebDriver的所有功能。Selenium Python支持多種瀏覽器,諸如Chrome、火狐、IE、360等瀏覽器,也支持PhantomJS特殊的無界面瀏覽器引擎。
Selenium WebDriver API接口提供了一種定位網(wǎng)頁中元素(Locate Elements)的策略,本書將使用Selenium Python講解網(wǎng)絡(luò)數(shù)據(jù)爬取知識,本章主要介紹Selenium技術(shù)的基礎(chǔ)知識,后面的章節(jié)結(jié)合實(shí)例講解如何利用Selenium定位網(wǎng)頁元素、自動爬取、設(shè)計(jì)爬蟲等。
類似于BeautifulSoup技術(shù),Selenium制作的爬蟲也是先分析網(wǎng)頁的HTML源碼和DOM樹結(jié)構(gòu),再通過其所提供的方法定位到所需信息的結(jié)點(diǎn)位置,并獲取其文本內(nèi)容。
同時,推薦讀者閱讀官網(wǎng)提供的《Selenium with Python Bindings》開源技術(shù)文檔,本文也汲取了它很多精彩的知識,再結(jié)合自己的理解和實(shí)際爬蟲實(shí)例進(jìn)行介紹的。下面從Selenium安裝、驅(qū)動安裝、PhantomJS三部分知識進(jìn)行介紹,讓我們開始吧!
1.安裝Selenium
讀者可以訪問PyPI網(wǎng)站來下載Selenium擴(kuò)展包,例如圖2所提供的selenium 3.4.3,對應(yīng)的網(wǎng)址為:
- https://pypi.python.org/pypi/selenium
我們點(diǎn)擊“Downloads”按鈕下載該Selenium擴(kuò)展包,解壓下載的文件后,在解壓目錄下執(zhí)行下面的命令進(jìn)行安裝Selenium包。
C:\selenium\selenium3.4.3> python3 setup.py installPyPI全稱是Python Package Index,是Python官方的第三方庫的倉庫,所有人都可以下載第三方庫或上傳自己開發(fā)的庫到PyPI。
同時,作者更推薦大家使用pip工具來安裝Selenium庫,PyPI官方也推薦使用pip管理器來下載第三方庫。Python3.6標(biāo)準(zhǔn)庫中自帶pip,Python2.x需要自己單獨(dú)安裝。前文介紹了pip工具的安裝過程及基礎(chǔ)用法。安裝好pip工具后,直接調(diào)用命令即可安裝Selenium:
- pip install selenium
調(diào)用命令“pip install selenium”安裝Selenium包如圖3所示。
安裝過程中的會顯示安裝配置相關(guān)包的百分比,直到出現(xiàn)“Successfully installed selenium-2.47.1”提示,表示安裝成功,如圖4所示。
此時的Selenium包已經(jīng)安裝成功,接下來需要調(diào)用瀏覽器來進(jìn)行定位或爬取信息,而使用瀏覽器的過程中需要安裝瀏覽器驅(qū)動。作者推薦使用Firefox瀏覽器、Chrome瀏覽器或PhantomJS瀏覽器,下面將結(jié)合實(shí)例講解三種瀏覽器驅(qū)動的配置過程。
2.安裝瀏覽器驅(qū)動
Selenium需要安裝瀏覽器驅(qū)動,才能調(diào)用瀏覽器進(jìn)行自動爬取或自動化測試,常見的包括Chrome、Firefox、IE、PhantomJS等瀏覽器。表1是部分瀏覽器驅(qū)動下載頁面。
表1 瀏覽器驅(qū)動下載頁面注意:驅(qū)動下載解壓后,將chromedriver.exe、geckodriver.exe、Iedriver.exe置于Python的安裝目錄下,例如Python的安裝目錄為“C:\python”,則將驅(qū)動文件放置于該文件夾下;然后將Python的安裝目錄添加到系統(tǒng)環(huán)境變量路徑(Path)中,打開Python IDLE輸入不同的代碼來啟動不同的瀏覽器。
- Firefox瀏覽器
加載火狐瀏覽器的核心代碼如下:
輸出結(jié)果如下圖所示:
- chrome瀏覽器
加載谷歌覽器的核心代碼如下,其中驅(qū)動置于chrome瀏覽器目錄下,如代碼所示。
- IE瀏覽器
加載微軟IE覽器的核心代碼如下:
3.Phantomjs
PhantomJS是一個服務(wù)器端的 JavaScript API 的開源的瀏覽器引擎(WebKit)。它支持各種Web標(biāo)準(zhǔn),包括DOM樹分析、CSS選擇器、JSON和SVG等。PhantomJS常用于頁面自動化、網(wǎng)絡(luò)監(jiān)測、網(wǎng)頁截屏以及無界面測試等。在官網(wǎng)http://phantomjs.org/下載PhantomJS解壓后如圖5所示。
調(diào)用時如果報錯“Unable to start phantomjs with ghostdriver”,則需要設(shè)置PhantomJS的路徑,或者配置到Scripts目錄環(huán)境下。當(dāng)Selenium安裝成功并且PhantomJS下載配置好后,下面這代代碼是調(diào)用方法。其中executable_path參數(shù)設(shè)置PhantomJS的路徑。
from selenium import webdriver driver = webdriver.PhantomJS(executable_path="F:\phantomjs-1.9.1-windows\phantomjs.exe") driver.get("http://www.baidu.com") data = driver.title print(data)代碼含義為:
- 首先導(dǎo)入Selenium.webdriver擴(kuò)展包,它提供了webdriver實(shí)現(xiàn)方法。
- 然后創(chuàng)建driver實(shí)例,調(diào)用webdriver.PhantomJS方法配置路徑。
- 通過driver.get(“http://www.baidu.com”) 代碼打開百度網(wǎng)頁,webdriver會等待網(wǎng)頁元素加載完成之后才把控制權(quán)交回腳本。
- 最后獲取文章標(biāo)題(title)并賦值給data變量輸出,其值為“百度一下,你就知道”。
運(yùn)行結(jié)果如圖6所示,Python3效果一樣。
注意,webdriver中提供的save_sceenshot()函數(shù)可以對網(wǎng)頁進(jìn)行截圖,代碼如下:
from selenium import webdriver driver = webdriver.Firefox() driver.get("http://www.baidu.com") data = driver.title driver.save_screenshot('baidu.png')二.快速開始Selenium解析
網(wǎng)頁通常采用文檔對象模型樹結(jié)構(gòu)進(jìn)行存儲,并且這些節(jié)點(diǎn)都是成對出現(xiàn)的,如“< html >”對應(yīng)“</ html >”、“< table >”對應(yīng)“</ table >”、“< div >”對應(yīng)“</ div >”等。Selenium技術(shù)通過定位節(jié)點(diǎn)的特定屬性,如class、id、name等,可以確定當(dāng)前節(jié)點(diǎn)的位置,再獲取相關(guān)網(wǎng)頁的信息。
下面代碼是定位百度搜索框并進(jìn)行自動搜索,它作為我們的快速入門代碼。
#-*- coding:utf-8 -*- #By:Eastmount 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys#啟動驅(qū)動 driver = webdriver.Firefox() driver.get("http://www.baidu.com") assert "百度" in driver.title print(driver.title)#查找元素并輸入內(nèi)容 elem = driver.find_element_by_name("wd") elem.send_keys("數(shù)據(jù)分析") elem.send_keys(Keys.RETURN)#截圖并退出 time.sleep(10) driver.save_screenshot('baidu.png') driver.close() driver.quit()運(yùn)行結(jié)果如下圖所示,調(diào)用Firefox瀏覽器并搜索“數(shù)據(jù)分析”關(guān)鍵詞,最后對瀏覽的網(wǎng)頁進(jìn)行截圖操作。所以,Selenium常用于自動化測試領(lǐng)域。
下面對這部分代碼進(jìn)行詳細(xì)講解。
- from selenium import webdriver
導(dǎo)入Selenium.webdriver模板,它提供了webdriver的實(shí)現(xiàn)方法,目前支持這些方法的瀏覽器有Firefox、Chrome、IE和Remote等。 - from selenium.webdriver.common.keys import Keys
導(dǎo)入Keys類,它提供了操作鍵盤的快捷鍵,如回車鍵、空格鍵、ctrl鍵等操作。 - driver = webdriver.Firefox()
創(chuàng)建Firefox webdriver實(shí)例,定義火狐瀏覽器(Firefox)驅(qū)動,其他瀏覽器如Chrome可能還需要設(shè)置驅(qū)動參數(shù)和配置路徑。 - driver.get(“http://www.baidu.com”)
接下來通過driver.get()函數(shù)打開百度url網(wǎng)頁,webdriver會等待網(wǎng)頁元素加載完成之后才把控制權(quán)交回腳本。 - assert “百度” in driver.title
接下來使用斷言(assert)判斷文章的標(biāo)題title是否包含了“百度”字段。對應(yīng)爬取的標(biāo)題是“百度一下,你就知道”,所以包含了“百度”,否則會出現(xiàn)斷言報錯。斷言主要用于判斷結(jié)果是否成功返回,從而更好地執(zhí)行下一步定位操作。 - elem = driver.find_element_by_name(“wd”)
webdriver提供了很多形如“find_element_by_*”的方法來匹配要查找的元素。如利用name屬性來查找的方法是find_element_by_name,這里通過該方法來定位百度輸入框,即審查元素name為“wd”的節(jié)點(diǎn)。
圖8是百度首頁審查元素的反饋結(jié)果,其中輸入框input元素對應(yīng)屬性name為“kw”,所以定位其節(jié)點(diǎn)代碼為:
- driver.find_element_by_id(“kw”)
- elem.send_keys(“數(shù)據(jù)分析”)
send_keys()方法可以用來模擬鍵盤操作,相當(dāng)于是在搜索框中輸入“數(shù)據(jù)分析”字段。 - elem.send_keys(Keys.RETURN)
調(diào)用send_keys()函數(shù)輸入回車鍵操作,其中Keys類提供了常見的鍵盤按鍵,如Keys.RETURN表示回車鍵。但在引用Keys類及其方法之前,需要注意先導(dǎo)入Keys類,即使用“from selenium.webdriver.common.keys import Keys”代碼導(dǎo)入。 - driver.save_screenshot(‘baidu.png’)
調(diào)用save_screenshot()函數(shù)進(jìn)行截圖,并將截圖保存至本地,名稱為為“baidu.png”。 - driver.close()
調(diào)用close()方法關(guān)閉驅(qū)動。 - driver.quit()
調(diào)用quit()方法退出驅(qū)動。它與close()方法的區(qū)別在于:quit()方法會退出瀏覽器,而close()方法只是關(guān)閉頁面,但如果只有一個頁面被打開,close()方法同樣會退出瀏覽器。
三.定位元素
Selenium Python提供了一種用于定位元素(Locate Elements)的策略,你可以根據(jù)所爬取網(wǎng)頁的HTML結(jié)構(gòu)選擇最適合的方案,表8.2是Selenium提供的各種方法。定位多個元素時,只需將方法“element”后加s,這些元素將會以一個列表的形式返回。
表2 Selenium元素定位的方法本節(jié)將結(jié)合下面這段關(guān)于李白簡介的HTML代碼(blog09.html)進(jìn)行講解。
<html><head><title>李白簡介</title></head><body><p class="title"><b>靜夜思</b></p><p class="content">窗前明月光,<br />疑似地上霜。 <br />舉頭望明月,<br />低頭思故鄉(xiāng)。 <br /></p><div class="other" align="left" name="d1" id="nr">李白(701年-762年),字太白,號青蓮居士,又號“謫仙人”,唐代偉大的浪漫主義詩人,被后人譽(yù)為“詩仙”,與<a href="http://test.com/dufu" class="poet" id="link" name="dufu"> 杜甫</a>并稱為“李杜”,為了與另兩位詩人<a href="http://test.com/lsy" class="poet" id="link" name="lsy"> 李商隱</a>、<a href="http://test.com/dumu" class="poet" id="link" name="dumu"> 杜牧</a> 即“小李杜”區(qū)別,杜甫與李白又合稱“大李杜”。其人爽朗大方,愛飲酒...</div><p class="story">...</p> </body> </html>該網(wǎng)頁打開運(yùn)行如下圖9所示。
下面結(jié)合這個實(shí)例分別介紹各種元素定位方法,并以定位單個元素為主。
1.通過ID定位元素
該方法是通過網(wǎng)頁標(biāo)簽的id屬性定位元素,它將返回第一個用id屬性值匹配定位的元素。如果沒有元素匹配id值,將會返回一個NoSuchElementException異常。
假設(shè)需要通過id屬性定位頁面中的杜甫、李商隱、杜牧三個超鏈接,HTML核心代碼如下:
如果需要獲取div布局,則使用如下代碼:
- test_div = driver.find_element_by_id(‘nr’)
- print(test_div.text)
如果寫成如下代碼,則返回第一個詩人的信息。
- test_poet = driver.find_element_by_id(‘link’)
- print(test_poet.text)
- 杜甫
其中test_poet是獲取的值,通常為“<selenium.webdriver…>”形式,而text是獲取其文本內(nèi)容,即“杜甫”。如果想通過id元素獲取多個鏈接,比如杜甫、李商隱、杜牧三位詩人對應(yīng)的超鏈接,則需要使用:
- find_elements_by_id()
注意“elements”表示獲取多個值。三個超鏈接都使用同一個id名稱“l(fā)ink”,通過find_elements_by_id()函數(shù)定位獲取之后,再調(diào)用for循環(huán)輸出結(jié)果,如下所示:
#-*- coding:utf-8 -*- #By:Eastmount 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys#啟動驅(qū)動 driver = webdriver.Firefox() driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09.html") print(driver.title)#查找元素并輸入內(nèi)容 test_div = driver.find_elements_by_id('link') for t in test_div:print(t.text)輸出結(jié)果如下圖所示:
2.通過Name定位元素
該方法是通過網(wǎng)頁標(biāo)簽的name屬性定位元素,它將返回第一個用name屬性值匹配定位的元素。如果沒有元素匹配name值,將會返回一個NoSuchElementException異常。
下面介紹通過name屬性定位頁面中的杜甫、李商隱、杜牧三個超鏈接的方法,HTML源碼如下:
<div class="other" align="left" name="d1" id="nr"> <a href="http://test.com/dufu" class="poet" id="link" name="dufu">杜甫</a><a href="http://test.com/lsy" class="poet" id="link" name="lsy">李商隱</a><a href="http://test.com/dumu" class="poet" id="link" name=”dumu”>杜牧</a> </div>如果需要分別獲取杜甫、李商隱、杜牧三個超鏈接,則使用代碼如下:
test_poet1 = driver.find_element_by_name('dufu') test_poet2 = driver.find_element_by_name('lsy') test_poet3 = driver.find_element_by_name('dumu')此時不能調(diào)用find_elements_by_name()函數(shù)獲取多個元素,因?yàn)槿辉娙藢?yīng)超鏈接的name屬性都是不同的,即“dufu”、“l(fā)sy”、“dumu”,如果name屬性相同,則該方法可以獲取同一name屬性的多個元素。
3.通過XPath定位元素
XPath是用于定位XML文檔中節(jié)點(diǎn)的技術(shù),HTML\XML都采用網(wǎng)頁DOM樹狀標(biāo)簽的結(jié)構(gòu)進(jìn)行編寫的,所以可以通過XPath方法分析其節(jié)點(diǎn)信息。Selenium Python也提供了類似的方法來跟蹤網(wǎng)頁中的元素。
XPath定位元素方法不同于按照ID或Name屬性的定位方法,前者更加的靈活、方便。 比如想通過ID屬性定位第三個詩人“杜牧”的超鏈接信息,但是三位詩人的ID屬性值都是相同的,即“l(fā)ink”,如果沒有其他屬性,那我們怎么實(shí)現(xiàn)呢?此時可以借助XPath方法進(jìn)行定位元素。這也體現(xiàn)了XPath方法的一個優(yōu)點(diǎn):
- 當(dāng)沒有一個合適的ID或Name屬性來定位所要查找的元素時,你可以使用XPath去定位這個絕對元素(但作者不建議定位絕對元素),或者定位一個有ID或Name屬性的相對元素位置。
XPath方法也可以通過除了ID和Name屬性以外的其他屬性進(jìn)行定位元素,其完整函數(shù)為:
- find_element_by_xpath()
- find_elements_by_xpath()
下面開始通過實(shí)例進(jìn)行講解,HTML代碼如下:
<html><head><title>李白簡介</title></head><body><div class="other" align="left" name="d1" id="nr">李白(701年-762年),字太白,號青蓮居士,又號“謫仙人”,唐代偉大的浪漫主義詩人,被后人譽(yù)為“詩仙”,與<a href="http://test.com/dufu" class="poet" id="link1" namd="dufu"> 杜甫</a>并稱為“李杜”,為了與另兩位詩人<a href="http://test.com/lsy" class="poet" id="link2" namd="lsy"> 李商隱</a>、<a href="http://test.com/dumu" class="poet" id="link3" name=”dumu”> 杜牧</a> 即“小李杜”區(qū)別,杜甫與李白又合稱“大李杜”。其人爽朗大方,愛飲酒...</div> </body> </html>這個div布局可能通過如下三種XPath方法定位:
test_div = driver.find_element_by_xpath("/html/body/div[1]") test_div = driver.find_element_by_xpath("//div[1]") test_div = driver.find_element_by_xpath("//div[@id='nr']")- 第一句是使用絕對路徑定位,從HTML代碼的根節(jié)點(diǎn)開始定位元素,但如果HTML代碼有稍微的改動,其結(jié)果就會被被破壞,此時可以通過后面兩種方法進(jìn)行定位。
- 第二句是獲取HTML代碼中的第一個div布局元素。但是如果所要爬取的div節(jié)點(diǎn)位置太深,難道我們從第一個div節(jié)點(diǎn)數(shù)下去嗎?顯然不是的。此時我們可以通過尋找附近一個元素的ID或Name屬性進(jìn)行定位,從而追蹤到所需要的元素。
- 第三句是調(diào)用find_element_by_xpath()方法,定位ID屬性值為“nr”的div布局元素,此時可以定位介紹三位著名詩人的簡介信息。
三個語句輸出test_div.text內(nèi)容,都如下所示:
- 李白(701年-762年),字太白,號青蓮居士,又號“謫仙人”, 唐代偉大的浪漫主義詩人,被后人譽(yù)為“詩仙”,與 杜甫 并稱為“李杜”,為了與另兩位詩人 李商隱、 杜牧 即“小李杜”區(qū)別,杜甫與李白又合稱“大李杜”。 其人爽朗大方,愛飲酒…
如需定位第三位詩人“杜牧”超鏈接的內(nèi)容,則使用如下所示的三種方法。
username = driver.find_element_by_xpath("//div[a/@name='dumu']") username = driver.find_element_by_xpath("//div[@id='nr']/a[3]") username = driver.find_element_by_xpath("//a[@name='dumu']")- 第一句是定位div節(jié)點(diǎn)下的一個超鏈接a元素,且a元素的name屬性為“dumu”。
- 第二句是定位“id=nr”的div元素,再找到它的第三個超鏈接a子元素。
- 第三句是定位name屬性為“dumu”的第一個超鏈接a元素。
同時,如果是按鈕控件且name屬性相同,假設(shè)HTML代碼如下:
<form id="loginForm"><input name="continue" type="submit" value="Login" /><input name="continue" type="button" value="Clear" /> </form>則定位value值為“Clear”按鈕元素的方法如下:
clearb = driver.find_element_by_xpath("//input[@name='continue'][@type='button']") clearb = driver.find_element_by_xpath("//form[@id='loginForm']/input[2]")- 第一句是定位屬性name為“continue”且屬性type為“button”的input控件。
- 第二句是定位屬性“id=loginForm”的form節(jié)點(diǎn)下的第二個input子元素。
XPath定位方法作為最常用的定位元素方法之一,后面章節(jié)的實(shí)例中將會被反復(fù)利用,而本小節(jié)只是介紹了些基礎(chǔ)知識,更多知識請讀者在W3Schools XPath Tutorial、W3C XPath Recommendation或Selenium官方文檔中學(xué)習(xí)。
4.通過連接文本定位超鏈接
當(dāng)你需要定位一個錨點(diǎn)標(biāo)簽內(nèi)的鏈接文本(Link Text)時就可以使用該方法。該方法將返回第一個匹配這個鏈接文本值的元素。如果沒有元素匹配這個鏈接文本,將拋出一個NoSuchElementException異常。下面介紹調(diào)用該方法定位頁面中的杜甫、李商隱、杜牧三個超鏈接,假設(shè)HTML源碼如下:
- blog09_02.html
如果需要分別獲取杜甫、李商隱、杜牧三個超鏈接,則使用如下代碼。
#-*- coding:utf-8 -*- #By:Eastmount 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys#啟動驅(qū)動 driver = webdriver.Firefox() driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09_02.html") print(driver.title)#分別定位三個超鏈接 test_poet1 = driver.find_element_by_link_text('Dufu') print(test_poet1.text) test_poet2 = driver.find_element_by_link_text('LiShangYing') print(test_poet2.text) test_poet3 = driver.find_element_by_link_text('DuMu') print(test_poet3.text)#定位超鏈接部分元素 test_poet4 = driver.find_element_by_partial_link_text('Du') print(test_poet4.text)#定位超鏈接部分元素且定位多個元素 test_poet5 = driver.find_elements_by_partial_link_text('Du') for t in test_poet5:print(t.text)其中,find_element_by_link_text()函數(shù)是使用錨點(diǎn)標(biāo)簽的鏈接文本進(jìn)行定位的,partial表示部分匹配,獲取多個元素的方法則使用:
- find_elements_by_partial_link_text()
代碼運(yùn)行截圖如圖10所示,其中地址也可以為放在本地Apache服務(wù)器中的blog09_02.html文件,內(nèi)容為上面的HTML源碼。
- http://localhost:8080/blog09_02.html
5.通過標(biāo)簽名定位元素
該方法是通過標(biāo)簽名(Tag Name)定位元素,它將返回第一個用Tag Name匹配定位的元素。如果沒有元素匹配,將會返回一個NoSuchElementException異常。假設(shè)HTML源碼如下:
- blog09_03.html
定位元素h1和段落p的方法如下:
- test1 = driver.find_element_by_tag_name(‘h1’)
- test2 = driver.find_element_by_tag_name(‘p’)
6.通過類名定位元素
該方法是通過類屬性名(Class Attribute Name)定位元素,它將返回第一個用類屬性名匹配定位的元素。如果沒有元素匹配,將會返回一個NoSuchElementException異常。
blog09_03.html代碼中通過class屬性值定位段落p元素的方法如下:
- test1 = driver.find_element_by_class_name(‘content’)
7.通過CSS選擇器定位元素
該方法是通過CSS選擇器(CSS Selectors)定位元素,它將返回第一個與CSS選擇器匹配的元素。如果沒有元素匹配,將會返回一個NoSuchElementException異常。blog09_03.html代碼中通過CSS選擇器定位段落p元素的方法如下:
- test1 = driver.find_element_by_css_selector(‘p.content’)
如果存在多個相同class值得content標(biāo)簽,則可以使用下面方法進(jìn)行定位獲取:
- test1 = driver.find_element_by_css_selector(*.content)
- test2 = driver.find_element_by_css_selector(.content)
CSS選擇器定位方法是比較難的一個方法,推薦讀者下來自行研究,同時作者更推薦大家使用ID、Name、XPath等常用定位方法。
四.常用方法和屬性
1.操作元素方法
講述完定位元素(Locate Elements)之后,我們需要對已經(jīng)定位好的對象進(jìn)行操作,這些操作的交互行為通常需要通過WebElement接口來實(shí)現(xiàn),常見操作元素方法如表3所示。
表3 常用操作元素方法下面作者舉一個自動登錄百度首頁的示例講解常用的操作元素方法,包括clear()、send_keys()、click()、submit()等方法。
首先我們通過火狐瀏覽器打開百度首頁,找到“登錄”按鈕,并右鍵鼠標(biāo)點(diǎn)擊“審查元素”,可以看到百度首頁“登錄”按鈕對應(yīng)的HTML源代碼如圖11所示。
“登錄”按鈕節(jié)點(diǎn)其實(shí)是一個name值為“tj_login”的超鏈接,我們可以通過下面的代碼定位到該節(jié)點(diǎn),再調(diào)用click()函數(shù)自動點(diǎn)擊它,并跳轉(zhuǎn)到登錄頁面。
- login = driver.find_element_by_name(“tj_login”)
- login.click()
新版百度又增加了“用戶名登錄”的選擇,我們需要進(jìn)一步捕獲該位置并點(diǎn)擊。
點(diǎn)擊按鈕后彈出界面如圖13所示,接下來需要分析用戶名和密碼的HTML源碼,并找到其節(jié)點(diǎn)位置后實(shí)現(xiàn)自動登錄操作。
接著再審查登錄頁面,獲取“用戶名”和“密碼”元素,對應(yīng)HTML核心代碼如下:
<input id="TANGRAM__PSP_10__userName" type="text" value="" autocomplete="off" class="pass-text-input pass-text-input-userName"name="userName" placeholder="手機(jī)/郵箱/用戶名"></input> <input id="TANGRAM__PSP_10__password" type="password" value="" class="pass-text-input pass-text-input-password" name="password" placeholder="密碼"></input>通過find_element_by_name()定位元素,調(diào)用函數(shù)clear()清除輸入框默認(rèn)內(nèi)容,如“請輸入密碼”等提示,并調(diào)用send_keys()函數(shù)輸入正確的用戶名和密碼后點(diǎn)擊登錄。核心代碼如下:
name = driver.find_element_by_name("userName") name.send_keys("admin") pwd = driver.find_element_by_name("password") pwd.send_keys("123456") pwd.send_keys(Keys.RETURN)錯誤提示
在自動登錄百度首頁時,可能會提示錯誤“selenium.common exceptions ElementNotInteractable Exception: could not be scrolled into view”,這是因?yàn)槟承┣闆r下,元素的visibility為hidden或者display屬性為none,我們在頁面上看不到但是實(shí)際是存在頁面的一些隱藏元素,這時候用 is_displayed() 來判斷并設(shè)置時間等待。
完整代碼如下:
#-*- coding:utf-8 -*- #By:Eastmount CSDN 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.action_chains import ActionChains#打開瀏覽器 driver = webdriver.Firefox() driver.get("https://www.baidu.com/") time.sleep(1)#點(diǎn)擊登錄鏈接 logins = driver.find_elements_by_name("tj_login") for login in logins:print(login.text)print(login.get_attribute('href'))if login.is_displayed():login.click() time.sleep(1)#通過二次定位尋找用戶名登錄按鈕 uesrlogins = driver.find_elements_by_xpath("//div[@class='tang-pass-footerBar']/p") for uesrlogin in uesrlogins:print(uesrlogin.text)if uesrlogin.is_displayed():uesrlogin.click()#輸入密碼并登陸 name = driver.find_element_by_name("userName") name.clear name.send_keys("Eastmount") pwd = driver.find_element_by_name("password") pwd.clear pwd.send_keys("12345678")#暫停輸入驗(yàn)證碼 按回車鍵登錄 time.sleep(5) pwd.send_keys(Keys.RETURN) driver.close()注意:如果登錄過程中需要輸入驗(yàn)證碼,則使用time.sleep(5)暫停函數(shù),手動輸入驗(yàn)證碼“報表”后,程序會執(zhí)行send_keys(Keys.RETURN)函數(shù),輸入回車鍵實(shí)現(xiàn)百度網(wǎng)自動登錄。
最終,該部分代碼會自動輸入指定的用戶名和密碼,然后輸入回車鍵實(shí)現(xiàn)登錄操作。但需要注意,由于部分頁面是動態(tài)加載的,而實(shí)際操作時可能無法捕獲其節(jié)點(diǎn),同時百度網(wǎng)頁的HTML源碼也會不定期變化,但是其原理知識更為重要,希望讀者掌握類似的分析方法,在后面爬取微博、知乎、B站等案例時,也會再結(jié)合實(shí)例詳細(xì)講解自動登錄爬蟲。
2.WebElement常用屬性
通過WebElement接口可以獲取常用的值,其中常見屬性值如下表所示。
表4 常用屬性該部分代碼如下:
#-*- coding:utf-8 -*- #By:Eastmount CSDN 2021-05-29 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get("https://www.baidu.com/")print(driver.title) print(driver.current_url) # 百度一下,你就知道 # https://www.baidu.com/news = driver.find_element_by_xpath("//div[@id='u1']/a[1]") print(news.text) print(news.get_attribute('href')) print(news.location) # 新聞 # http://news.baidu.com/ # {'y': 19.0, 'x': 456.0}輸出結(jié)果如下圖所示:
- driver.title是輸出網(wǎng)頁的標(biāo)題“百度一下,你就知道”,driver.current_url輸出當(dāng)前頁面的超鏈接;
- 再通過find_element_by_xpath("//div[@id=‘u1’]/a[1]")函數(shù)定位百度首頁右上角“新聞”鏈接;
- 然后調(diào)用news.text代碼輸出其內(nèi)容;
- 最后get_attribute(‘href’)函數(shù)是獲取超鏈接,news.location是輸出其網(wǎng)頁坐標(biāo)位置。
五.鍵盤和鼠標(biāo)自動化操作
Selenium技術(shù)另一個特點(diǎn)就是可以自動化操作鼠標(biāo)和鍵盤,所以它更多的應(yīng)用是自動化測試領(lǐng)域,通過自動操作網(wǎng)頁,反饋響應(yīng)的結(jié)果從而檢測網(wǎng)站的健壯性和安全性。
1.鍵盤操作
在Selenium提供的Webdriver庫中,其子類Keys提供了所有鍵盤按鍵操作,比如回車鍵、Tab鍵、空格鍵,同時也包括一些常見的組合按鍵操作,如Ctrl+A(全選)、Ctrl+C(復(fù)制)、Ctrl+V(粘貼)等。常用鍵盤操作如下:
- send_keys(Keys.ENTER):按下回車鍵,最常用按鍵操作
- send_keys(Keys.TAB):按下Tab制表鍵
- send_keys(Keys.SPACE):按下空格鍵Space
- send_keys(Kyes.ESCAPE):按下回退鍵Esc
- send_keys(Keys.BACK_SPACE):按下刪除鍵BackSpace
- send_keys(Keys.SHIFT):按下Shift鍵
- send_keys(Keys.CONTROL):按下Ctrl鍵
- send_keys(Keys.CONTROL,‘a(chǎn)’):按下組合鍵全選Ctrl+A
- send_keys(Keys.CONTROL,‘c’):按下組合鍵復(fù)制Ctrl+C
- send_keys(Keys.CONTROL,‘x’):按下組合鍵剪切Ctrl+X
- send_keys(Keys.CONTROL,‘v’):按下組合鍵粘貼Ctrl+V
下面舉一個百度自動搜索“Python”關(guān)鍵字的簡單示例,代碼如下:
#-*- coding:utf-8 -*- #By:Eastmount CSDN 2021-05-29 from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Firefox() driver.get("https://www.baidu.com/") elem = driver.find_element_by_id("kw") elem.send_keys("Python") elem.send_keys(Keys.RETURN)首先需要定位百度搜索框的HTML源代碼,分析結(jié)果如圖14所示,百度搜索框?qū)?yīng)的HTML標(biāo)簽為input且其ID屬性為“kw”,故定位代碼為:
- driver.find_element_by_id(“kw”)
然后調(diào)用elem.send_keys(“Python”)輸入關(guān)鍵字“Pyhon”,elem.send_keys(Keys.RETURN)代碼表示輸入回車鍵,相當(dāng)于點(diǎn)擊“百度一下”按鈕,反饋結(jié)果如圖15所示。
同樣可以自動搜索作者“Eastmount”的信息,哈哈~
2.鼠標(biāo)操作
Selenium操作鼠標(biāo)技術(shù)也常用于自動化測試中,它位于ActionChains類中,最常用的是click()函數(shù),該函數(shù)表示單擊鼠標(biāo)左鍵操作。常見的鼠標(biāo)操作如下:
- click():點(diǎn)擊鼠標(biāo)左鍵一次
- context_click(elem):右擊鼠標(biāo)點(diǎn)擊元素elem,比如在彈出的快捷鍵菜單中選擇“另存為”等命令
- double_click(elem):擊鼠標(biāo)點(diǎn)擊元素elem
- drag_and_drop(source,target):鼠標(biāo)拖動操作。在源元素source位置下按下鼠標(biāo)左鍵,并移動至目標(biāo)元素target釋放鼠標(biāo)
- send_keys(Keys.BACK_SPACE):按下刪除鍵BackSpace
- move_to_element(elem):將鼠標(biāo)光標(biāo)移動到元素elem上
- click_and_hold(elem):按下鼠標(biāo)左鍵并懸停在元素elem上
- perform():執(zhí)行ActionChains類中的存儲操作,彈出對話框
下面的示例代碼是定位百度的logo圖片,再執(zhí)行鼠標(biāo)右鍵另存為圖片操作。
彈出對話框如下圖所示,新版本嘗試輸入k鍵也能另存為網(wǎng)頁。
六.導(dǎo)航控制
前一小節(jié)講述了Python操作鍵盤和鼠標(biāo),建議讀者一定要自己去實(shí)現(xiàn)該部分代碼,從而更好地應(yīng)用到實(shí)際項(xiàng)目中去。本小節(jié)主要介紹Selenium的導(dǎo)航控制操作,包括頁面交互、表單操作和對話框間移動。
1.下拉菜單交互操作
前面講述的百度搜索案例就是一個頁面交互的過程,包括:
- 調(diào)用driver.find_element_by_xpath()函數(shù)定位元素。
- 調(diào)用send_keys(key)輸入關(guān)鍵詞或鍵盤按鍵,如輸入Keys.RETURN回車鍵。
- 調(diào)用click()函數(shù)點(diǎn)擊左鍵,右鍵點(diǎn)擊“另存為圖片”等。
這里我們將補(bǔ)充頁面交互的切換下拉菜單的實(shí)例。定位“name”下拉菜單標(biāo)簽之后,我們調(diào)用SELECT類選中選項(xiàng),同時select_by_visible_text()用于顯示選中菜單,也可以提交Form表單。
from selenium.webdriver.support.ui import Select name = driver.find_element_by_name('name') select = Select(name) select.select_by_index(index) select.select_by_visible_text("text") select.select_by_value(value)如果讀者想取消已經(jīng)選中的選項(xiàng),則使用如下代碼:
from selenium.webdriver.support.ui import Select name = driver.find_element_by_name('name') select = Select(name) all_selected_options = select.all_selected_options獲取所有的可用選項(xiàng)則調(diào)用select.options即可,當(dāng)讀者填寫完表單后,可以通過submit()函數(shù)提交,或者找到提交按鈕后調(diào)用下面函數(shù)提交表單。
- driver.find_element_by_id(“submit”).click()
2.Window和Frame間對話框移動
網(wǎng)站通常都是由多個窗口組成的,稱為多幀Web應(yīng)用,WebDriver提供了方法switch_to_window來支持命名窗口間的移動切換。比如:
- driver.switch_to_window(“windowName”)
現(xiàn)在driver的所有操作將會針對特定的窗口。但是怎么才能知道窗口的名字呢?可以通過定位其HTML源碼中的超鏈接,或者給switch_to_window()方法傳遞一個“窗口句柄”,常用的方法是循環(huán)遍歷所有的窗口,再獲取指定的句柄進(jìn)行定位操作,核心代碼如下:
for handle in driver.window_handles:driver.switch_to_window(handle)在幀與幀(Iframe)之間切換使用driver.switch_to_frame(“frameName”)函數(shù)。對于彈出式對話框,Selenium WebDriver提供了內(nèi)建支持,通過switch_to_alert()函數(shù)將返回當(dāng)前打開的alert對象,通過該對象您可以進(jìn)行確認(rèn)同意或反對操作,也可以讀取它的內(nèi)容。
- alert = driver.switch_to_alert()
更多知識推薦讀者閱讀官方文檔,下面是捕獲彈出式對話框內(nèi)容的核心代碼。
#獲取當(dāng)前窗口句柄 now_handle = driver.current_window_handle print(now_handle)#獲取所有窗口句柄 all_handles = driver.window_handles for handle in all_handles:if handle!=now_handle:#輸出待選擇的窗口句柄print(handle)driver.switch_to_window(handle)time.sleep(1)#具體操作elem_bt = driver.find_element_by_xpath("...")driver.close() #關(guān)閉當(dāng)前窗口#輸出主窗口句柄 print(now_handle) driver.switch_to_window(now_handle) #返回主窗口后續(xù)實(shí)例也會介紹一種窗口句柄轉(zhuǎn)義的方法。
七.總結(jié)
Selenium庫分析和定位節(jié)點(diǎn)的方法和BeautifulSoup庫類似,它們都能夠利用類似于XPath技術(shù)來定位標(biāo)簽,都擁有豐富的操作函數(shù)來爬取數(shù)據(jù)。但不同之處在于:
- Selenium能方便的操控鍵盤、鼠標(biāo)以及切換對話框、提交表單等,當(dāng)我們的目標(biāo)網(wǎng)頁需要驗(yàn)證登錄之后才能爬取、所爬取的數(shù)據(jù)位于彈出來的對話框中或者所爬取的數(shù)據(jù)通過超鏈接跳轉(zhuǎn)到了新的窗體時,Selenium技術(shù)的優(yōu)勢就體現(xiàn)出來了,它通過控制鼠標(biāo)模擬登錄或提交表單從而爬取數(shù)據(jù),但其缺點(diǎn)是爬取效率較低,BeautifulSoup速度更快些。
Selenium用得更廣泛的領(lǐng)域是自動化測試,它直接運(yùn)行在瀏覽器中(如Firefox、Chrome、IE等),就像真實(shí)用戶操作一樣,對開發(fā)的網(wǎng)頁進(jìn)行各式各樣的測試,它更是自動化測試方向的必備工具。希望讀者能掌握這種技術(shù)的爬取方法,尤其是目標(biāo)網(wǎng)頁需要驗(yàn)證登錄等情形。
該系列所有代碼下載地址:
- https://github.com/eastmountyxz/Python-zero2one
感謝在求學(xué)路上的同行者,不負(fù)遇見,勿忘初心。這周的留言感慨~
(By:娜璋之家 Eastmount 2021-05-29 夜于武漢 https://blog.csdn.net/Eastmount )
參考文獻(xiàn)
- [1] [譯]Selenium Python文檔:目錄 - Tacey Wong - 博客園
- [2] Baiju Muthukadan Selenium with Python Selenium Python Bindings 2 documentation
- [3] https://github.com/baijum/selenium-python
- [4] http://blog.csdn.net/Eastmount/article/details/47785123
- [5] Selenium實(shí)現(xiàn)自動登錄163郵箱和Locating Elements介紹 - Eastmount
- [6] Selenium常見元素定位方法和操作的學(xué)習(xí)介紹 - Eastmount
- [7]《Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(爬取篇)》Eastmount
總結(jié)
以上是生活随笔為你收集整理的[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [网络安全提高篇] 一〇九.津门杯CTF
- 下一篇: [Python图像处理] 四十一.Pyt