豆瓣评论【数据集分享】
生活随笔
收集整理的這篇文章主要介紹了
豆瓣评论【数据集分享】
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
相信很多做自然語言處理、數據分析的小伙伴們都接觸過豆瓣評論數據集。
最近 《脫口秀大會5》 比較火,所以我就抓去了一份《脫5》的豆瓣短評數據集,樣例如下表所示:
{"comment_time": "2022-11-02 22:37:41", "comment_score": "很差", "comment_vote": "21", "comment_content": "\"不敢說所有,至少有一部分人初心變了。不好笑不要賴觀眾,心思都放在稿子和段子上了嗎,那廣告接得,秀走得,不好笑也正常啊。\"", "comment_username": "江湖諞子" }- 其中,comment_score表示豆瓣評分,總共五顆星,對應總分為 10分。每一顆星對應2分。
不同星數對應的中文描述為:
- comment_vote 代表的是有多少人贊同這條短評。
其實,豆瓣網站有嚴格的數據獲取限制,用戶僅僅能訪問最熱門的短評數據集共計 600 條。然后再進行翻頁,網站系統(tǒng)則會禁止。
同時豆瓣也僅提供 200 條最新的短評。根據這些數據,我做了一個加權統(tǒng)計,《脫5》的豆瓣加權平均分僅僅有3.3分??诒蟠蠡?。
我還對《脫5》的豆瓣評論做了詳細的數據分析,感興趣可以看看。數據集以 json 格式給出。有需要的小伙伴可以關注下面公眾號自取。
步驟如下:
- 1 關注微信gong—zhong號JioNLP
- 2 回復【脫口秀大會5】獲取下載鏈接
- 3 該數據集是免費的
如何在程序中加載
如果有編程經驗,可以用python進行操作
- 1 安裝 jionlp 工具包
- 2 編寫以下代碼執(zhí)行
數據將定期更新,未來也會根據國務院的行政區(qū)劃調整進行重新抓取。
我已經把數據集公開出來,可以掃碼關注微信gong—zong號JioNLP,回復脫口秀大會5獲取。
JioNLP 是一個專注挖掘并分析互聯(lián)網數據的gong—zhong號,還想要什么數據集?來看看這里有沒有你想要的數據吧。
本文由mdnice多平臺發(fā)布
本文由mdnice多平臺發(fā)布
總結
以上是生活随笔為你收集整理的豆瓣评论【数据集分享】的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux下vi命令大全
- 下一篇: JAVA/JSP小区物业管理系统