爬取今日头条财经版块新闻
生活随笔
收集整理的這篇文章主要介紹了
爬取今日头条财经版块新闻
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
使用jupyter編輯, etree爬取
進(jìn)入頭條財(cái)經(jīng)新聞網(wǎng)頁,無法獲取原網(wǎng)頁內(nèi)容,在查看各個(gè)請(qǐng)求中發(fā)現(xiàn)一個(gè)url里包含新聞信息.信息都在data里
?
import requests from lxml import etree import json url = "https://www.toutiao.com/api/pc/feed/?category=stock&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1C51CD5E0C5598&cp=5C50D50599C8BE1&_signature=4tjOJQAAvpNI946lUObjM-LYzj"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3610.2 Safari/537.36","Connection": "close" }response = requests.get(url=url,headers=headers) response.encoding = "utf-8" page_text = json.loads(response.text) # 獲取頁面內(nèi)容 # print(page_text) data = page_text['data'] # 獲取data # print(data) news_dict = {} # 存放每條新聞信息的字典 news_list = [] # 存放所有新聞信息的列表 for news in data:news_dict['描述'] = news['abstract']news_dict['標(biāo)題'] = news['title']news_dict['來源'] = news['source']news_dict['關(guān)鍵字'] = news['label']news_list.append(news_dict)news_dict={}print(news_list)?
轉(zhuǎn)載于:https://www.cnblogs.com/huangqihui/p/10336270.html
總結(jié)
以上是生活随笔為你收集整理的爬取今日头条财经版块新闻的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Codeforces 1096D】Ea
- 下一篇: 解决设置了display:none的元素