推荐系统开源数据集
最近比較多的小伙伴在后臺說自己希望從事推薦相關的工作研究,問有哪些練手的數據集可以自己玩玩,今天我們分享一下推薦系統中最為常見的一些開源數據集。
MovieLens數據集由GroupLens研究團隊收集的。MovieLens是電影評分的集合,有不同的大小。數據集命名為1M,10M和20M不等,目前又增加了25M,在2019年12月份放出的,它公包含2500萬的ratings和100萬個標簽應用程序應用于162000名用戶的62000部電影。包括1129個標簽的1500萬個相關分數的標簽基因組數據。
下載地址為:https://grouplens.org/datasets/movielens/
該數據集主要由Cai-Nicolas Ziegler在四周內收集得到。包含278858個用戶(匿名但包含人口統計信息),提供1149780個評分,評分范圍從1到10(顯式/隱式),約271379本書。
下載地址為:http://www2.informatik.uni-freiburg.de/~cziegler/BX/
Last.fm是音樂推薦的數據集。包含來自1892個用戶的92800個藝術家listening記錄。
下載地址為:https://grouplens.org/datasets/hetrec-2011/
該數據集采集于豆瓣電影,電影與明星數據收集于2019年8月上旬,影評數據(用戶、評分、評論)收集于2019年9月初,共945萬數據,其中包含14萬部電影,7萬演員,63萬用戶,416萬條電影評分,442萬條影評,該數據集正好彌補下國內公開電影數據集的空缺。數據已經過初步清洗,可用于推薦系統、情感分析、QA問答、知識圖譜等多個領域。數據集共有5個文件: movies.csv、person.csv、users.csv、comments.csv、ratings.csv,關于各個文件的具體內容將在下文介紹。
下載地址:https://www.csuldw.com/2019/09/08/2019-09-08-moviedata-10m/
這是Netflix大獎賽使用的官方數據集。該數據由大約1億電影收視率組成,目標是預測電影用戶收視率矩陣中缺失的條目。
下載地址:https://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a
這個數據集包含亞馬遜的產品評論和元數據,包括1996年5月至2014年7月的1.428億條評論。此數據集包括評論(評級、文本、幫助投票)、產品元數據(描述、類別信息、價格、品牌和圖像特征)和鏈接(還查看/還購買了圖表)。
下載鏈接:http://jmcauley.ucsd.edu/data/amazon/links.html
這個是LibRec 開源工具提供的數據集,有將近10個不同的數據集,有興趣的伙伴可以自己下載把玩。
下載鏈接:https://www.librec.net/datasets.html
煉丹材料準備好了!總結
- 上一篇: 大有可为的GNN:DeepWalk
- 下一篇: 寻找不合群的数据(异常值)