python新浪_Python——新浪新闻抓取
一、微信小程序獲取要求:
獲取前10頁(yè)的內(nèi)容,并保存
二、準(zhǔn)備分析工作
1、先進(jìn)入微信小程序頁(yè)面,url= http://www.wxapp-union.com/;
2、進(jìn)入首頁(yè),右擊檢查,或f12,如圖1;
圖1
3、獲取第一頁(yè)的url,第二頁(yè)的url...,分析找到url的規(guī)律;
三、代碼
1、導(dǎo)入requests模塊,如圖2
import requests
圖2
2、創(chuàng)建params字典,根據(jù)圖3找到params里參數(shù)
圖3
params={
'mod': 'list',
'catid': '1',
}
3、定義請(qǐng)求頭headers,如圖4
圖4
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
4、因?yàn)橐@取前10頁(yè)的內(nèi)容,設(shè)置page,把page添加到params字典里,如圖5
for page in range(1, 11):
params['page'] = page
圖5
5、發(fā)送請(qǐng)求,接收響應(yīng),如圖6
response = requests.get(url='http://www.wxapp-union.com/portal.php?', params=params, headers=headers)
圖6
6、保存內(nèi)容,如圖7
with open(f'小程序社區(qū)抓取{page}.html', 'w', encoding='utf-8') as f:
f.write(response.text)
圖7
總結(jié)
以上是生活随笔為你收集整理的python新浪_Python——新浪新闻抓取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: JavaScript中的正则
- 下一篇: get clone 出现 fatal: