论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合
本文轉載自:RUC智能情報站,知乎專欄鏈接:https://zhuanlan.zhihu.com/RucAIBox
前言:近年來,知識圖譜(KB)被廣泛應用于推薦系統(RS),但尚未有公開將推薦系統物品鏈接到知識圖譜實體的數據集。本文結合SIGIR2018論文《Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks》所用數據集 [1],公布了相關鏈接數據集 [2],希望能對大家有所幫助。
一、動機/引介
近年來,學術界和工業界都致力于利用結構化的知識信息和相關領域的已知事實來提升各項應用。在眾多數據形式中,知識圖譜高度結構化,能夠有效組織和關聯相關實體,被廣泛運用到各個領域。推薦任務中利用知識圖譜提升推薦的質量和可解釋性,相關的推薦系統被稱為knowledge-aware recommender systems。
為了適應推薦系統和知識圖譜相關研究需求,本工作啟發式地將推薦數據中的物品鏈接到大型知識圖譜中的實體,為推薦系統的物品提供蘊含豐富語義的結構化知識信息。本工作將其整理,發布為公開的推薦系統-知識圖譜鏈接數據集KB4Rec v1.0。
二、數據集概況
KB4Rec v1.0數據集,構建了推薦系統數據集物品(RS item)到知識圖譜實體(KB entity)的鏈接。在推薦系統方面,選取了三個得到廣泛使用的數據集:MovieLens 20M [3]、LFM-1b [4]、Amazon book [5],分別對應電影、音樂和書籍三個領域;在知識圖譜方面,選取了研究者常用的Freebase [6]。
KB4Rec v1.0數據集由鏈接的ID對組成,包括推薦系統的物品ID和Freebase中的實體ID。鏈接文件片段(電影數據集合MovieLens 20M)如下所示:
通過此鏈接,能夠找到部分推薦系統中物品在知識圖譜內對應的實體,并通過讀取與該實體相關的三元組,獲取相應的屬性。舉個例子,電影“阿凡達”通過鏈接找到相應實體,讀出與之相關的三元組能夠在知識圖譜中找到相應的演員、導演等屬性。
鏈接數據集(三個領域)的數據統計見下表:
三、鏈接分析
可以看到不是所有推薦系統中的物品都能夠在Freebase中找到對應的實體。對于各領域鏈接比例(linkage ratio),本工作參照各推薦領域內物品流行度做了相關分析,其中物品流行度由推薦數據中與物品有交互記錄的用戶數代表。首先,將推薦系統中的物品按流行度升序排序,等分到5個桶(bin)中,展示相應部分鏈接比例。如下圖,可以發現:流行度高的物品更傾向于被Freebase所包含。
針對MovieLens 20M數據集,還對電影的發布時間與鏈接比例做了分析。對所有電影按發布時間升序排序,等分到10桶(bin)中,展示相應鏈接比例。如下圖所示,可以發現:越早發布的電影越傾向于被Freebase所包含。
四、數據獲取
本工作將相關項目部署在github上,數據的獲取和使用需遵照相關證書(license)。更多鏈接和數據集構建的細節請參照我們的相關論文 [2]。
五、相關論文
[1] Jin Huang, Wayne Xin Zhao, Hong-Jian Dou, Ji-Rong Wen, Edward Y. Chang : Improving Sequential Recommendation with Knowledge-Enhanced Memory Networks. SIGIR 2018: 505-514
[2] ?Wayne Xin Zhao, Gaole He, Hongjian Dou, Jin Huang, Siqi Ouyang and Ji-Rong Wen : KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems. Arxiv 1807.11141.
[3] F. Maxwell Harper, Joseph A. Konstan : The MovieLens Datasets: History and Context. TiiS 5(4): 19:1-19:19 (2016)
[4] Markus Schedl : The LFM-1b Dataset for Music Retrieval and Recommendation. ICMR 2016: 103-110
[5] Ruining He, Julian McAuley : Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering. WWW 2016: 507-517
[6] Google : 2016. Freebase Data Dumps. https://developers.google.com/freebase/ data.
本文作者:何高樂,2018級研究生,目前研究方向為網絡表示學習、深度學習,來自中國人民大學大數據管理與分析方法研究北京市重點實驗室。
RUC 智能情報站由中國人民大學信息學院的趙鑫副教授 (微博 @趙鑫RUC) 所帶領的研究小組維護。關注的領域是數據挖掘、社會計算和機器學習。該專欄會定期會分享相關學術內容,歡迎各位來郵件進行交流,也歡迎大家向該專欄投稿精品文章。知乎賬號聯系人為 竇洪健,負責資訊、投稿、宣傳以及一切賬號相關問題,郵箱為43404873@qq.com;企業和轉載合作需求請致謝趙鑫老師,郵箱為 batmanfly@qq.com。趙鑫老師個人情況詳見個人主頁 http://playbigdata.com/batmanfly 和 http://info.ruc.edu.cn/academic_professor.php?teacher_id=55 。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于置信度的知识图谱表示学
- 下一篇: 谷歌发布端到端AI平台,还有用于视频和表