python 网络爬虫 选择日期提交得到数据
生活随笔
收集整理的這篇文章主要介紹了
python 网络爬虫 选择日期提交得到数据
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
問題背景:需要統計雁門關10年的客流量數據,每次需要選擇時間,然后提交,網頁上回返回客流量數據,網址鏈接:http://www.yanmenguan.cn/yuce/index/cid/166.shtml
?
思路:網頁選擇時間,然后提交時間,頁面返回一個數據,和工作上遇到的POST類似,考慮通過python編寫一個post循環得到相應的數據并保存到excel。
步驟:
1、在chrome打開網頁,F12進入調試狀態
選擇network找到Form Data就是每次post給后臺服務器的數據,可以發現post的data有時間date和dosubmit信息。
?
2、python腳本編寫
# coding=utf-8 import requests import datetime post_url = "http://www.yanmenguan.cn/yuce/index/cid/166.shtml"# 現在的時間 now = datetime.datetime.now() # 遞減的時間 delta = datetime.timedelta(days=-1) # 10年后的時間 endnow = now - datetime.timedelta(days=3662) # 10年后的時間轉換成字符串 endnow = str(endnow.strftime('%Y-%m-%d')) offset = nowcsvfile = open('output.csv', 'w') # 創建記錄信息 csvfile.write('時間' + ",") csvfile.write('人數' + "\n")# 當日期減少到10年后的日期,循環結束 while str(offset.strftime('%Y-%m-%d')) != endnow:offset += deltadata = {'date': str(offset.strftime('%Y-%m-%d')),'dosubmit': '查詢 '}tqHtml = requests.post(post_url, data=data)res = tqHtml.textnum = res[10300:10400].split('<')[0]print('統計到' + str(offset.strftime('%Y-%m-%d')) + '的來訪客流量')csvfile.write(str(offset.strftime('%Y-%m-%d')) + ",")csvfile.write(num + "\n")?
代碼中首先計算了10年的時間天數為3662,達到對應的時間字符串,爬蟲的數據放在csv文件中。通過requests模塊進行post,返回的html文件,嘗試了json等方式都無法提取到相應的客流量數據,最后采用了字符串的處理方法,通過split解析出了相應的人數信息。
?
?
總結
以上是生活随笔為你收集整理的python 网络爬虫 选择日期提交得到数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux shell 数值计算let和
- 下一篇: python 创建文件、文件夹、获取目录