让知识来指引你:序列推荐场景中以知识为导向的强化学习模型
?
?時序推薦是基于用戶的順序行為,對未來的行為進行預測的任務。目前的工作利用深度學習技術的優勢,取得了很好的效果。但是這些工作僅專注于所推薦商品的局部收益,并未考慮該商品對于序列長期的影響。
強化學習(RL)通過最大化長期回報為這一問題提供了一個可能的解決方案。但是,在時推薦場景中,用戶與商品交互的稀疏性,動態性增加了強化學習的隨機探索的難度,使得模型不能很好地收斂。
近年來,知識圖譜被廣泛地用于推薦系統,但是這些工作往往忽略了知識對于探索過程的指導,從而使得RL模型不能很好地解決時序推薦任務中用戶偏好的漂移。
針對以上問題,北京郵電大學的王鵬飛老師課題組同中國人民大學的趙鑫課題組首次探討了將強化學習技術應用在時序推薦任務上的可能性。提出了一種知識引導的強化學習模型,將知識圖信息融合到 RL 框架進行序列推薦。他們的研究成果 KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation 發表在 2020 年的 SIGIR 會議上。
論文標題:KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation
論文來源:SIGIR 2020
論文鏈接:https://arxiv.org/abs/2004.08068
框架模型
我們將時序商品推薦問題定義為一個馬爾可夫決策過程 (MDP),并在此框架中進行了三個主要的技術擴展將知識同 RL 框架進行融合,指導探索和重復的學習過程。具體包括知識增強的狀態表示方法、引入知識的獎勵機制,以及基于截斷策略的學習機制。 我們將模型命名為 Knowledge-guidEd Reinforcement Learning model (KERL),論文模型圖如下所示:
融合知識的狀態表示方法
我們通過融合知識的信息來加強狀態向量的表達能力。但是在購物場景中,用戶的偏好是動態變化的,這在強化學習探索長序列過程中更加明顯,僅依據歷史序列的知識不能充分的指導強化學習的探索過程。為此,我們創造性的將知識分成了兩部分具體設計方式如下:
其中 表示時序信息, 表示歷史知識, 表示未來知識。具體對于 ,我們構造了一個推斷網絡來利用建模歷史知識與未來知識的關聯性,并最終將三部分信息進行融合,構造狀態的向量表達:
融合知識與序列的復合獎勵函數
對于激勵函數我們同時考慮了推薦商品時序和知識的準確性,以此來增強對于探索過程的指導。具體的,對于時序角度的激勵函數 ,我們機器翻譯評估工作的啟發,通過 BLEU 指標,評估預測序列 和真實序列 之間單個商品,以及子序列片斷的相似性:
公式中 為修整過的 m 單位片段精確度。
其中 是 的子序列, 是 在 中出現的次數。對于知識角度的激勵函數 ,我們用余弦函數測量預測序列和真實序列之間知識的語義相似性:
最后我們將二者累加,作為最后的激勵函數:
模型的學習算法
給定預訓練好的知識表達,我們目的是學習一個策略 ,使得累積獎勵最大化:
我們采用了一種截斷式的 policy gradient 策略來對目標函數進行優化,對于用戶的每個狀態 , 隨機采樣 條長度為 k 的子序列,進行梯度更新:
其中 表示 子序的第 t 個商品。
在 KERL 中我們通過設計一個推斷網絡來建模歷史知識和未來知識的關聯。但是訓練數據的稀疏性使得該網絡不能很好地收斂。考慮到 KERL 通過 policy gradient 策略采樣了一系列子序列進行模型的學習,我們試圖引入這些序列,通過構造一個排序模型學習推斷網絡。
具體的,我們先得到每一個序列的知識表達,記為 。給定兩個子序列知識表達 與 ,我們按照如下的規則構造鍵對:
對于每個狀態 ,我們構造 個鍵對推斷網絡進行學習,保證網絡的魯棒性。此外,這樣的學習策略也充分利用了獎勵函數,從而能更好的和強化學習吻合。
模型試驗效果
考慮到我們的模型把 KG 的信息分別融合進了激勵函數和狀態表達之中,我們先通過剝離試驗來具體的分析每一塊的性能。
針對 RL 的狀態表示,KERL 總共使用了三種不同的信息,分別是序列信息,歷史知識,以及未來知識。我們首先分析一下不同的信息對于性能的影響,具體設計了三種基于不同狀態表示 KERL 模型,包括 ,僅用時序的信息;,利用時序與歷史知識信息;,利用時序與未來知識信息。我們將這三個模型同 KERL 進行比較,具體結果如圖下所示:
從圖上發現,僅利用時序信息進行狀態表示的 性能最差,這證明了融合知識提升預測性能的重要性。此外,盡管考慮的未來知識信息的 性能有所提升,但整體上性能還是低于 ,而 KERL 同時考慮了以上三種信息,取得了最好的結果。?
對于激勵函數,我們分析了單獨考慮時序相似性 () 和知識相似性 () 時對于模型性能的影響。下圖展現了在 CD 數據集上模型的性能。
可以看出, 在 Hit-Ratio 指標上性能優于 ,而 在 NDCG 指標上優于 , 這是由于 使用了BLEU來計算序列的得分,使得模型傾向將正確的商品排在前列,而 從知識相似性的角度,傾向于召回正確的商品。而同時考慮到兩種相似性的 KERL 在兩個評價指標上均取得了最好的成績。
我們在 next-item 和 next-session 兩個任務上驗證了模型的有效性,KERL 一致超過了所有的基線方法。
論文總結
該論文首次探討了將強化學習應用于時序推薦任務的可行性,通過將該任務定義為 MDP 過程,賦予了時序預測模型捕獲推薦商品長期收益的能力,并創造性地引入知識對強化學習的探索重復過程進行指導。文章在 next-item 和 next-session 兩個推薦任務上驗證了模型的有效性。
關于作者
王鵬飛,北京郵電大學計算機學院碩士生導師
2017年獲得中科院計算技術研究所博士學位,現入北京郵電大學,任計算機學院的助理教授,碩士生導師。主要專注于研究用戶行為的時序建模,文本分類等任務。近五年內在國內外著名學術期刊與會議上發表論文20余篇,在國際頂級會議(SIGIR、WSDM、CIKM等)以第一作者發表論文10余篇,并在并擔任多個國際會議(如SIGIR,AAAI等)評審人。
范鈺, 北京郵電大學計算機學院碩士研究生
目前研究生在讀,研究方向為推薦系統中用戶行為的時序建模,圖神經網絡。已在SIGIR會議發表論文兩篇。?
夏龍,約克大學博士后研究員
2017年于中國科學院計算技術研究所獲博士學位后,加入京東數據科學實驗室擔任資深研究員。研究興趣包括數據挖掘,應用機器學習,信息檢索和人工智能。在國際頂級會議期刊如KDD,SIGIR,TIST發表論文十余篇,并擔任KDD,WWW,AAAI,WSDM等國際學術會議程序委員會委員。
趙鑫,中國人民大學信息學院副教授、博士生導師
博士師從北京大學李曉明教授,專注于研究面向文本內容的社交用戶話題興趣建模。近五年內在國內外著名學術期刊與會議上發表論文80余篇,其中包括ACM TOIS和SIGIR、IEEE TKDE和SIGKDD、ACL等。所發表的學術論文共計被引用3500余次。擔任多個重要的國際會議或者期刊評審,入選第二屆CCF青年人才發展計劃。曾獲得CIKM 2017最佳短文候選以及AIRS 2017最佳論文獎。
牛少彰,北京郵電大學計算機學院教授
2004年于北京郵電大學獲得博士學位。作為主要研究人員參加了973項目、國家自然科學基金等項目,同時兼任中國電子學會高級會員,中國電子學會多媒體信息安全專家委員會委員等職務。現主要從事網絡信息安全、網絡攻防技術、信息內容安全、信息隱藏技術、數字權益管理技術、軟件安全以及計算機取證技術方面的教學和科研工作。
Jimmy Huang,約克大學信息技術學院教授、博士生導師
博士畢業于倫敦大學。ACM杰出科學家,加拿大約克大學約克研究主席,英國計算機學會會員和皇家藝術學會會員。主要研究重點是信息檢索,大數據及其在Web和醫療保健中的應用領域。在國際著名學術期刊與會議所發表的學術論文共計被引用20000余次。曾獲得第32屆歐洲信息檢索會議最佳論文獎,作為研究創新部早期研究員獲得首席卓越研究獎(2007-2012年)。2015年獲LA&PS杰出研究,學術創造力獎。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的让知识来指引你:序列推荐场景中以知识为导向的强化学习模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华硕英特尔下一代主板官宣:“AI 新神通
- 下一篇: 萝卜系统xp怎么安装pe 如何在萝卜系统