當前位置：首頁 > 编程语言 > python >内容正文

python

Python网络爬虫阶段总结

發布時間：2023/12/20 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python网络爬虫阶段总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

學習python爬蟲有一個月了，現在將學習的東西和遇到的問題做一個階段總結，以作復習備用，另對于python爬蟲感興趣的，如果能幫到你們少走些彎路，那也是極好的。閑話少說，下面直接上干貨：

Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲

另外，比較常用的爬蟲框架Scrapy，這里最后也詳細介紹一下。

當我們在瀏覽器中輸入一個url后回車，后臺會發生什么？

簡單來說這段過程發生了以下四個步驟：

·?查找域名對應的IP地址。

·?向IP對應的服務器發送請求。

·?服務器響應請求，發回網頁內容。

·?瀏覽器解析網頁內容。

網絡爬蟲要做的，簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給用戶所需要的數據，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步，你要明確要得到的內容是什么？是HTML源碼，還是Json格式的字符串等。

1. 最基本的抓取

抓取大多數情況屬于get請求，即直接從對方服務器上獲取數據。

首先，Python中自帶urllib及urllib2這兩個模塊，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

Requests：

import requests

response = requests.get(url)

content = requests.get(url).content

print "response headers:", response.headers

print "content:", content

Urllib2：（標簽整齊，清晰，看著比較舒服，以后可以用它，便于閱讀HTML）

import urllib2

response = urllib2.urlopen(url)

content = urllib2.urlopen(url).read()

print "response headers:", response.headers

print "content:", content

Httplib2：

import httplib2

http = httplib2.Http()

response_headers, content = http.request(url, 'GET')

print "response headers:", response_headers

print "content:", content

此外，對于帶有查詢字段的url，get請求一般會將來請求的數據附在url之后，以?分割url和傳輸數據，多個參數用&連接。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data為dict，json

import requests

response = requests.get(url=url, params=data)

Urllib2：data為string

import urllib, urllib2 ???

data = urllib.urlencode(data)

full_url = url+'?'+data

response = urllib2.urlopen(full_url)

2. 對于登陸情況的處理

2.1 使用表單登陸

這種情況屬于post請求，即先向服務器發送表單數據，服務器再將返回的cookie存入本地。

data = {'data1':'XXXXX', 'data2':'XXXXX'}

Requests：data為dict，json

import requests

response = requests.post(url=url, data=data)

Urllib2：data為string

import urllib, urllib2 ???

data = urllib.urlencode(data)

req = urllib2.Request(url=url, data=data)

response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸，服務器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

import requests

requests_session = requests.session()

response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)

response1 = requests.get(url_login) # 未登陸

response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！

response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

3. 對于反爬蟲機制的處理

3.1 使用代理

適用情況：限制IP地址情況，也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對于“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

關鍵代碼，如下幾行：

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}

Requests：

import requests

response = requests.get(url=url, proxies=proxies)

Urllib2：

import urllib2

proxy_support = urllib2.ProxyHandler(proxies)

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener) # 安裝opener，此后調用urlopen()時都會使用安裝過的opener對象

response = urllib2.urlopen(url)

這在某些情況下比較有用，比如IP被封了，或者比如IP訪問的次數受到限制等等。此時，可以在middlewares.py中通過類對代理IP進行封裝,詳細代碼如下：

class ProxyMiddleware(object):

????def process_request(self, request, spider):

????proxy = random.choice(PROXIES)

????if proxy['user_pass'] is not None:

request.meta['proxy'] = "http://%s" % proxy['ip_port']

encoded_user_pass = base64.encodestring(proxy['user_pass'])

request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

print "**************ProxyMiddleware have pass************" + proxy['ip_port']

????else:

print "**************ProxyMiddleware no pass************" + proxy['ip_port']

request.meta['proxy'] = "http://%s" % proxy['ip_port']

PROXIES = [

????????{'ip_port': '218.4.101.130:83', 'user_pass': ''},

? ? ? ? {'ip_port': '113.121.47.97:808', 'user_pass': ''},

? ? ? ? {'ip_port': '112.235.20.223:80', 'user_pass': ''},

????????{'ip_port': '27.151.30.68:808', 'user_pass': ''},

????????{'ip_port': '175.155.25.50:808', 'user_pass': ''},

? ? ? ? {'ip_port': '222.85.50.207:808', 'user_pass': ''},

? ? ? ? {'ip_port': '116.255.153.137:8082', 'user_pass': ''},

????????{'ip_port': '119.5.0.26:808', 'user_pass': ''},

? ? ? ? {'ip_port': '183.32.88.223:808', 'user_pass': ''},

? ? ? ? {'ip_port': '180.76.154.5:8888', 'user_pass': ''},

? ? ? ? {'ip_port': '221.229.44.174:808', 'user_pass': ''},

? ? ? ? {'ip_port': '27.151.30.68:808', 'user_pass': ''},

? ? ? ? {'ip_port': '60.178.86.7:808', 'user_pass': ''},

? ? ? ? {'ip_port': '58.243.104.149:8998', 'user_pass': ''},

? ? ? ? {'ip_port': '120.27.49.85:8090', 'user_pass': ''},

]

注意，由于代理IP一般都有時效性，需要找到能用的代理IP將上面ip_port關鍵字對應的值替換下來。

3.2 時間設置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import time

time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是在使用真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息，還會檢查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問，適用于拒絕爬蟲的網站

headers = {'Referer':'XXXXX'}

headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}

Requests：

response = requests.get(url=url, headers=headers)

Urllib2：

import urllib, urllib2 ??

req = urllib2.Request(url=url, headers=headers)

response = urllib2.urlopen(req)

詳細的，可以在middlewares.py中通過類對代理（瀏覽器）進行封裝

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class RotateUserAgentMiddleware(UserAgentMiddleware):

????def __init__(self, user_agent=''):

????????self.user_agent = user_agent

????def process_request(self, request, spider):

????????ua = random.choice(self.user_agent_list)

????????if ua:

????????????#print ua, '-----------------yyyyyyyyyyyyyyyyyyyyyyyyy'

????????????request.headers.setdefault('User-Agent', ua)

????????????# the default user_agent_list composes chrome,IE,firefox,Mozilla,opera,netscape

????# for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php

????user_agent_list = [ \

????????"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \

????????"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \

????????"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \

????????"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \

????????"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \

????????"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \

????????"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \

????????"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \

????????"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \

????????"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \

????????"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \

????????"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

????]

4. 對于斷線重連

不多說。

def multi_session(session, *arg):

retryTimes = 20

while retryTimes>0:

try:

return session.post(*arg)

except:

print '.',

retryTimes -= 1

或者

def multi_open(opener, *arg):

retryTimes = 20

while retryTimes>0:

try:

return opener.open(*arg)

except:

print '.',

retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

或者設置失敗后自動重試

????def get(self,req,retries=3):

????????try:

????????????response = self.opener.open(req)

????????????data = response.read()

????????except Exception , what:

????????????print what,req

????????????if retries>0:

????????????????return self.get(req,retries-1)

????????????else:

????????????????print 'GET Failed',req

????????????????return ''

????????return data

5. 多進程抓取

單線程太慢的話，就需要多線程了，這里給個簡單的線程池模板這個程序只是簡單地打印了1-10，但是可以看出是并發地。

from threading import Thread

from Queue import Queue

from time import sleep

#q是任務隊列

#NUM是并發線程總數

#JOBS是有多少任務

q = Queue()

NUM = 2

JOBS = 10

#具體的處理函數，負責處理單個任務

def do_somthing_using(arguments):

????print arguments

#這個是工作進程，負責不斷從隊列取數據并處理

def working():

????while True:

????????arguments = q.get()

????????do_somthing_using(arguments)

????????sleep(1)

????????q.task_done()

#fork NUM個線程等待隊列

for i in range(NUM):

????t = Thread(target=working)

????t.setDaemon(True)

????t.start()

#把JOBS排入隊列

for i in range(JOBS):

????q.put(i)

#等待所有JOBS完成

q.join()

6. 對于Ajax請求的處理

對于“加載更多”情況，使用Ajax來傳輸很多數據。

它的工作原理是：從網頁的url加載網頁的源代碼之后，會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容，“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。

這里，若使用Google Chrome分析”請求“對應的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現對應的GET鏈接尋找Type為text/html的，點擊，查看get參數或者復制Request URL)，循環過程。

·?如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取Ajax地址的數據。

·?對返回的json格式數據(str)進行正則匹配。json格式數據中，需從'\uxxxx'形式的unicode_escape編碼轉換成u'\uxxxx'的unicode編碼。

7. 自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現操縱瀏覽器，包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

如:如何在給定城市列表后，使用selenium來動態抓取去哪兒網的票價信息的代碼?

8. 驗證碼識別

對于網站有驗證碼的情況，我們有三種辦法：

·?使用代理，更新IP。

·?使用cookie登陸。

·?驗證碼識別。

使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。

參考項目：驗證碼識別項目第一版：Captcha1

爬取有兩個需要注意的問題：

·?如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？

·?對于海量數據，如何實現分布式爬取？

9.編碼問題

在解析的過程中要注意編碼問題,因為網頁有UTF-8?編碼的,也有GBK編碼的,還有GB2312等等.?如果編碼問題沒有處理好,很有可能會導致輸入輸出異常,正則表達式匹配錯誤等問題.我的解決辦法是堅持一個中心思想: "不管你是什么編碼來的,到解析程序統一換成utf-8編碼".比如有的網頁是GBK編碼,在處理之前我會先對它進行一個轉碼操作:

utf8_page = GBK_page.decode("GBK").encode("utf8")

同時在代碼的初始化位置(或者是最開始部分)我一般會加上以下代碼:

import?sys

reload(sys)

sys.setdefaultencoding('utf8')

同時代碼文件的編碼方式也要保證是utf-8.

這樣處理調理比較清晰,統一.不會出現一個utf-8的正則表達式和一個GBK的字符串做匹配最后啥也匹配不出來.或者輸出的數據即有utf8編碼的字符串,又有GBK編碼的字符串導致IO錯誤.

如果事先不知道網頁是什么編碼,建議使用python?的第三方包chardet:https://pypi.python.org/pypi/chardet/?它可以自動幫你識別出網頁的編碼.用法是:

import?chardetimport?urllib2

#可根據需要，選擇不同的數據

TestData = urllib2.urlopen('http://www.baidu.com/').read()print?chardet.detect(TestData)

分析

抓取之后就是對抓取的內容進行分析，你需要什么內容，就從中提煉出相關的內容來。

常見的分析工具有正則表達式，BeautifulSoup，lxml等等。

存儲

分析出我們需要的內容之后，接下來就是存儲了。

我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數據庫等。

存儲有兩個需要注意的問題：

·?如何進行網頁去重？

·?內容以什么形式存儲？

Scrapy

Scrapy是一個基于Twisted的開源異構的Python爬蟲框架，在工業中應用非常廣泛。

總結

以上是生活随笔為你收集整理的Python网络爬虫阶段总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：欧姆龙PLC远程上下载实际操作分享
下一篇： EXCEL文件中的VBA模块名包含中文名