當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新闻平台聚合之新浪新闻爬虫发布

發(fā)布時(shí)間：2023/12/20 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了新闻平台聚合之新浪新闻爬虫发布小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

對(duì)于 web 開發(fā)者而言，目前各大新聞門戶網(wǎng)站，新浪新聞，百度新聞，騰訊新聞，澎湃新聞，頭條新聞并沒有提供穩(wěn)定可用的 feed api。

對(duì)于 nlper，缺乏足夠的新聞?wù)Z料數(shù)據(jù)集來供訓(xùn)練。

對(duì)于新聞傳播/社會(huì)學(xué)/心理學(xué)等從業(yè)者，缺乏獲取新聞數(shù)據(jù)的簡(jiǎn)單易用途徑來供分析。

如果上面三點(diǎn)是某見識(shí)所限，其實(shí)并不存在的話，第 4 點(diǎn)，則是某的私心，某以為互聯(lián)網(wǎng)的記憶太短了，熱搜一浪蓋過一浪，所以試圖定格互聯(lián)網(wǎng)新聞的某些瞬間，最后會(huì)以網(wǎng)站的形式發(fā)布出來。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

繼承自新聞平臺(tái)聚合之騰訊新聞爬蟲發(fā)布
，本篇是新聞系列的第三篇，以新浪新聞為目標(biāo)網(wǎng)站

該爬蟲實(shí)現(xiàn)的主要功能羅列如下：

全自動(dòng)爬取新浪新聞全站新聞內(nèi)容，包括娛樂、軍事、科技、財(cái)經(jīng) 四大 category。

可以自定義輸入爬取的最大頁碼，默認(rèn)是 20 頁

字段信息齊全，如下表格

字段名字段含義

再說說如何使用（默認(rèn)讀者均有 python3.6+ 環(huán)境）

將倉庫 sina 文件夾下的 sina_news_spider.pyd 文件下載到本地，新建項(xiàng)目，把 pyd 文件放進(jìn)去

項(xiàng)目根目錄下新建 runner.py，寫入以下代碼即可運(yùn)行并抓取

import sina_news_spider sina_news_spider.main()

開始運(yùn)行時(shí)會(huì)提示輸入爬取到哪一頁，默認(rèn)是 20 頁

爬取結(jié)束了，會(huì)在當(dāng)前目錄下生成一個(gè) 新浪新聞.xlsx文件，里面保持了四個(gè) category 的所有網(wǎng)站上可瀏覽的文本新聞，一個(gè) category 對(duì)應(yīng)一個(gè) sheet_name。

1、nytimes 紐約時(shí)報(bào)爬蟲

2、thetimes 泰晤士報(bào)爬蟲

閱讀原文即可直達(dá)該爬蟲的 Github 地址。

以上是生活随笔為你收集整理的新闻平台聚合之新浪新闻爬虫发布的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。