python3 爬虫 requests安装_爬虫开发环境部署
欲善其事必先利其器
提起爬蟲我們首先就會想到python,雖然其他的語言也可以做出爬蟲,但是都沒有python方便,python有許多第三方庫可以為我們所用,所以我們會以python的角度學習爬蟲。
這里介紹的是Windows下的安裝過程
目錄1、Python3的安裝 2、請求庫的安裝
3、解析庫的安裝 4、OCR 識別庫
Python3的安裝
既然要用python開發那么第一步肯定要安裝好python環境。
官方網站:http://python.org
下載地址:http://www.python.org/downloads
官方文檔:http://docs.python.org/3
直接在官方網站下載python3的安裝包,當前最新的版本是3.8.1,小編用的是3.7.3,這里就以3.7.3為例(其他版本的也一樣)
點擊下載就好了
pip選項記得點上,這個是幫助我們下載第三方庫的工具
Add Python to environment variables選項選上,它可以自主的將python加入環境變量中,省去了我們手動操作
安裝完成后,按Win+R運行cmd命令在命令行輸入python
如果出現了這些就說明你的python安裝完成了。
2、請求庫的安裝
2.1、requests的安裝 2.2、selenium的安裝
2.3、ChromeDriver的安裝
常用的請求庫有requests、selenium
- 2.1、 requests的安裝
requests屬于第三方庫,python不會自帶這個庫,就需要我們手動安裝。
相關連接:
PyPI:https://pypi.python.org/pypi/requests
官方文檔:http://www.python-requests.org
中文文檔:http://docs.python-requests.org/zh_CN/latest
1、pip安裝
在安裝的時候我們還安裝了一個pip的第三方庫的下載工具還記得嗎
在命令界面輸入:pip install requests
即可完成requests庫的安裝(因為pip鏈接的是國外的源所以會比較的慢,建議加個國內的源就會快很多,安裝python庫都可以加這個源)
這里用的是豆瓣源:
pip install -i https://pypi.douban.com/simple/ requests這是最簡單是安裝方式
2、wheel安裝
Wheel是python的一種安裝包,其后綴為.whl,在無法用pip直接下載的時候可以選擇下載wheel文件再安裝,再用pip命令加文件銘安裝即可。
在這之前要安裝wheel庫
pip install wheel然后到pypi下載對應wheel文件
在wheel文件下進入命令行(只需要文件路徑的命令行輸入cmd’即可)
pip install requests-2.22.0-py2.py3-none-any.whl這樣也可以完成安裝
- 2.2、Selenium的安裝
Selenium 是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。對于一些JavaScript渲染的界面來說,這種抓取非常有效,可以避過很多反爬機制。
相關連接:
官方網站:http://www.seleniumhq.org
Pypi:https://pypi.python.org/pypi/selenium
官方文檔:http://selenium-python.readthedocs.io
中文文檔:http://selenium-python-zh.readthedocs.io
推薦直接用pip安裝即可:
pip install selenium- 2.3、ChromeDriver的安裝
前面我們安裝好了Selenium,但它只是一個自動化測試工具,還需要配合瀏覽器一起使用。
推薦使用谷歌瀏覽器,至于下載這里就不再贅述了,有很多方法。
之后安裝ChromeDriver。只有安裝了ChromeDriver才能驅動Chrome。
相關連接:
下載地址:http://npm.taobao.org/mirrors/chromedriver/
ChromeDriver要與Chrome的版本相對應
建議把chromedriver.exe文件加入到python的Scripts目錄下;也可以將其單獨配置到環境變量
3、解析庫的安裝
3.1、lxml的安裝 3.2、pyquery的安裝
3.1、lxml的安裝
lxml 是 一個HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數據(xpath就是這個庫的一個功能)
相關連接:
官方網站:http://lxml.de
Pypi: https://pypi.python.org/pypi/lxml
推薦直接用pip安裝即可:
pip install lxml如果有問題的話就用wheel安裝,鏈接為:https://pypi.org/project/lxml/#files
下載后進入文件所在目錄運行:
pip install lxml-4.4.2-cp27m-win_amd64.whl- 3.2、pyquery的安裝
類似于jquery的python庫,支持css選擇器
官方文檔:http://pyquery.readthedocs.io
Pypi:https://pypi.python.org/pyquery
推薦pip安裝:
pip install pyquery也可以用wheel安裝
4、OCR 識別庫
- Tesserocr的安裝
tesserocr 是 Python 的一個 OCR 識別庫,但其實是對 tesseract做的一層 Python API 封裝,所以它的核心是 tesseract。 因此,在安裝 tesserocr 之前,我們需要先安裝 tesseract
相關鏈接:
Tesseract下載地址:http://digi.bib.uni-mannheim.de/tesseract
Tesserocr pypi: https://pypi.python.org/pypi/tesserocr
Tesseract的安裝
名字中帶有dev的為開發版本,不帶dev的為穩定版,推薦下穩定版
勾選Addition language data(download),安裝OCR支持的語言包,這樣OCR就可以識別多國語言,之后一直點Next即可,安裝過程中會出項很多語言包無法下載,可以直接忽略,不影響正常使用。
之后再安裝tesserocr
pip install tesserocr pillow總結
以上是生活随笔為你收集整理的python3 爬虫 requests安装_爬虫开发环境部署的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 当复选框中打勾时后面自动显示y或者n_基
- 下一篇: 一直在构建工作空间_基于用户场景构建的建