【python 淘宝爬虫】淘宝信誉分抓取
生活随笔
收集整理的這篇文章主要介紹了
【python 淘宝爬虫】淘宝信誉分抓取
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、需求分析
輸入旺旺號,獲取淘寶賣家的信用分
二、思路
淘寶需要模擬登陸,我們這里抓不到,因此為了繞過登陸,發現了淘一兔,我們可以通過這里,得到淘寶賣家的信用分,結果是一樣的。
http://www.taoyizhu.com/
輸入旺旺號,需要點擊查詢,等待幾秒,得到查詢結果,這里我們用selienum 來做
三、實現源代碼(抓取不能太快,否則抓不到)
# encoding: utf-8from selenium import webdriver import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd import time import re time1=time.time()driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe') driver.set_window_size(800, 600)########################讀取數據############################ data1=pd.read_excel(r'C:/taobao/taobao1.xlsx') print data1#######################查詢店鋪信譽分############################# seller_credit=[] for i in range(0,len(data1)):key=str(data1.iloc[i,0])key1=key.decode("utf-8")driver.get("http://www.taoyizhu.com/")time.sleep(5)driver.find_element_by_id("txt_name").clear()driver.find_element_by_id("txt_name").send_keys(key1)driver.find_element_by_id('search_btn').click()time.sleep(3)html2 = driver.page_sourceseller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)for each in seller_credit1:print key,eachseller_credit.append(each)#######################################增加店鋪信譽分這一列############################# data1['店鋪信譽分']=seller_creditprint data1# 寫出excel writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False}) data1.to_excel(writer, index=False) writer.close()time2 = time.time() print u'ok,爬蟲結束!' print u'總共耗時:' + str(time2 - time1) + 's'總結
以上是生活随笔為你收集整理的【python 淘宝爬虫】淘宝信誉分抓取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: guacamole 源码_guacamo
- 下一篇: 静电势能的计算(格林函数思想以及有限元工