推荐系统:MovivLens20M数据集解析
????? ? ? MovieLens 是歷史最悠久的推薦系統(tǒng)。它由美國 Minnesota 大學(xué)計算機(jī)科學(xué)與工程學(xué)院的 GroupLens 項目組創(chuàng)辦,是一個非商業(yè)性質(zhì)的、以研究為目的的實驗性站點。MovieLens 主要使用 Collaborative Filtering 和 Association Rules 相結(jié)合的技術(shù),向用戶推薦他們感興趣的電影。?
?? 參考資料:movieLens-百度百科?? 、? 電影數(shù)據(jù)集總結(jié)?? ? ? ? ? ? ? ????????????
?????? ?? 數(shù)據(jù)集地址:?? https://grouplens.org/datasets/movielens/????????????????????
????????? This dataset (ml-20m) describes 5-star rating and free-text tagging activity from [MovieLens](http://movielens.org), a movie recommendation service. It contains 20000263 ratings and 465564 tag applications across 27278 movies. These data were created by 138493 users between January 09, 1995 and March 31, 2015. This dataset was generated on March 31, 2015, and updated on October 17, 2016 to update links.csv and add genome-* files.
??? ? ? Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information?is included. Each user is represented by an id, and no other information is provided.
???? ?? The data are contained in six files, `genome-scores.csv`, `genome-tags.csv`, `links.csv`, `movies.csv`, `ratings.csv` and `tags.csv`. More details about the contents and use of all these files follows.
???? ??? This and other GroupLens data sets are publicly available for download at <http://grouplens.org/datasets/>.。
?? 此數(shù)據(jù)集描述了5星之內(nèi)的電影不受限制的標(biāo)記,用于給出用戶推薦。數(shù)據(jù)集包含了138493個用戶對27278個電影的20000263個評分和465564個標(biāo)簽。此評價收集于1995年1月到2015年3月之間,并在2016年10月17日更新為csv格式。
?? 用戶為隨機(jī)選取,每個選取的用戶至少評分20個電影。沒有人口統(tǒng)計信息。每個用戶只給出一個ID,且不涉及其他私人信息。
?
數(shù)據(jù)格式
? ? ? movieLens20M使用了CSV格式存儲數(shù)據(jù)列表,代替了10M和1M、100K的DAT格式,可以直接可視化分析。
? ? ? 文件列表:genome_scores.csv、genome-tags.csv、links.csv、movies.csv、ratings.csv、tags.csv。
??????movies.csv:MovieId+title+geners。以此表示電影ID、電影名稱、電影流派/種類。其中電影流派具有多個標(biāo)簽,即可以表示電影的多個屬性。
??????用以生成電影屬性矩陣。
??????Rating.csv:userId+movieId+rating+timestamp。分別表示用戶ID、電影ID、評分,以及截至?xí)r間戳。給出了用戶對電影的評分列表。
??????用以生成用戶-電影評分矩陣。
??????Trgs.csv: userId+ movieId+tag+timestamp。分別表示用戶ID、電影ID、用戶對電影的標(biāo)簽、時間戳。給出了用戶對電影的標(biāo)簽列表。
??????用以生成用戶-電影標(biāo)簽矩陣。??
??????Links.csv:moviesId+imdeId+tmdbId。IMDB為互聯(lián)網(wǎng)電影資料庫。tMDB為電影數(shù)據(jù)集。給出了電影ID和兩個數(shù)據(jù)標(biāo)記ID的對應(yīng)關(guān)系。
??????genome_tags.csv:電影標(biāo)簽 DNA標(biāo)記,唯一標(biāo)識符。
??????genome_scores.csv: movieId+tagId+relevance。分別表示電影ID、電影標(biāo)簽ID、官方標(biāo)簽相關(guān)性。給出了電影的官方標(biāo)簽。
??????用以生成電影的標(biāo)簽相關(guān)性矩陣。
????總結(jié)
以上是生活随笔為你收集整理的推荐系统:MovivLens20M数据集解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人生三书是哪几本
- 下一篇: Windows下使用Caffe-Resn