當前位置：首頁 > 编程语言 > python >内容正文

python

【python 淘宝爬虫】淘宝信誉分抓取

發布時間：2023/12/20 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了【python 淘宝爬虫】淘宝信誉分抓取小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、需求分析
輸入旺旺號，獲取淘寶賣家的信用分

二、思路
淘寶需要模擬登陸，我們這里抓不到，因此為了繞過登陸，發現了淘一兔，我們可以通過這里，得到淘寶賣家的信用分，結果是一樣的。
http://www.taoyizhu.com/

輸入旺旺號，需要點擊查詢，等待幾秒，得到查詢結果，這里我們用selienum 來做

三、實現源代碼（抓取不能太快，否則抓不到）

# encoding: utf-8from selenium import webdriver import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd import time import re time1=time.time()driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe') driver.set_window_size(800, 600)########################讀取數據############################ data1=pd.read_excel(r'C:/taobao/taobao1.xlsx') print data1#######################查詢店鋪信譽分############################# seller_credit=[] for i in range(0,len(data1)):key=str(data1.iloc[i,0])key1=key.decode("utf-8")driver.get("http://www.taoyizhu.com/")time.sleep(5)driver.find_element_by_id("txt_name").clear()driver.find_element_by_id("txt_name").send_keys(key1)driver.find_element_by_id('search_btn').click()time.sleep(3)html2 = driver.page_sourceseller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)for each in seller_credit1:print key,eachseller_credit.append(each)#######################################增加店鋪信譽分這一列############################# data1['店鋪信譽分']=seller_creditprint data1# 寫出excel writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False}) data1.to_excel(writer, index=False) writer.close()time2 = time.time() print u'ok,爬蟲結束!' print u'總共耗時：' + str(time2 - time1) + 's'

總結

以上是生活随笔為你收集整理的【python 淘宝爬虫】淘宝信誉分抓取的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： guacamole 源码_guacamo
下一篇：静电势能的计算(格林函数思想以及有限元工