用户的购物历史都有用吗?看作者如何运用对比学习来筛选相关项
本文關注的是對用戶歷史序列的去噪問題,旨在從歷史購物序列中挑選出對預測具有真正影響力的相關商品,去除序列中不相關商品,以提高序列推薦效果。
論文標題:
Pattern-enhanced Contrastive Policy Learning Network for Sequential Recommendation
論文作者:
Xiaohai Tong, Pengfei Wang, Chenliang Li, Long Xia, Shaozhang Niu
收錄情況:
IJCAI 2021 Full Paper
背景
首先介紹一下這篇論文的 task,也就是序列推薦,它是根據用戶的歷史購物序列,來推薦用戶下一次可能購買的商品。
由于用戶行為的隨機性和多樣性,用戶的歷史記錄中并不是所有商品都對預測下一次行為有幫助,所以辨識出有關聯的商品并提取出有價值的序列特征對提升序列推薦的性能有很大意義。
正如圖 1 所展示的,給出了用戶之前購買過的四個商品,來推薦用戶下一時刻可能會購買的商品。我們可以看到,商品 coat 可以被忽略掉,因為它與其他商品不存在明顯的關系。與此同時,雖然商品 bread 和 milk 表現出了與 ham 的強關聯關系,但是在推薦 banana 時,它們就會變成噪聲來影響推薦效果。
挑戰
如何在無標注的情況下,自動挖掘出與推薦結果相匹配的時序模式,提高推薦的可解釋性和準確性,是本文最大的挑戰。
模型
基于上述分析的種種原因,作者提出了一個模式增強的對比學習模型來自動地挑選出與目標商品相關聯的部分商品用于下一個商品的推薦。
本文采用強化學習的方法來對用戶歷史序列進行去噪,并用于序列推薦。模型主要分為兩個部分:模式增強的策略模塊 和 對比學習模塊 。
3.1 模式增強的策略模塊
本文采用一種策略模塊來判定用戶購物序列中的商品與目標商品之間的關聯性。針對目標商品 ,在 時刻,策略學習進程處在狀態 ,根據狀態 , 會執行動作 。動作空間 = 1, = ,我們采用 動作來表示該商品與目標商品是相關的, 動作表示該商品與目標商品無關,應從初始序列中刪去。 執行動作 的概率由以下策略來決定:
但是,在"用戶-商品"交互較為稀疏的序列上運行復雜的策略并不容易。此外,由于沒有提供商品級的相關信息來監督去噪過程,因此該過程也無法得到保證。考慮到序列模式可以在大量的用戶行為中得到良好表達,我們選擇挖掘序列模式,并將其作為先驗知識來指導去噪過程。
我們首先使用 SPADE 算法從用戶序列中提取出序列模式特征,然后將長度為 的模式特征整合到矩陣 中。其中, 就代表了 中的第 行信息, 的第 個元素就代表了從商品 出發到商品 結束的模式特征數量。針對商品 ,我們使用 = 來表達對應的模式特征信息,并將其輸入到策略狀態 的計算中,來增強其語義表示:
其中, 是門控循環單元, 是一個多層感知機, 是商品 的嵌入向量, 是一個指示函數, 是一個拼接操作符。
3.2 對比學習模塊
給定一個交互序列 ,我們使用 為每個商品依次選取動作,我們就得到了一個動作序列 ,就可以很自然地將初始序列 分割成兩個子序列: 子序列 和 子序列 。那么,生成子序列 的概率就是:
基于以上生成的子序列 ,目標函數就可以寫為:
其中, 正是子序列 的延遲激勵 。我們希望子序列 可以準確地捕獲到與目標商品 存在關聯關系的語義信息,最直接的一種方法就是對 進行編碼。這里,我們選用一個 對 進行處理,并將最后一個商品對應的隱式狀態作為該子序列的向量表示 。然后,我們使用 與 之間的余弦相似度作為 :
然而,由于沒有合理使用序列 中不相關的商品,這一策略并不是一個最優的選擇,而且會加劇稀疏性問題。同時,由于缺少監督信號,策略模塊的一個錯誤區分也會影響到性能。為了全面利用相關與不相關的商品,我們采用對比學習的方法來加強模型的學習進程。
進一步地,我們采用另一個 來對 子序列 進行編碼,得到向量表示 ,對應的生成概率就是:
類似地, 就等于 與 之間的余弦相似度。那么,最終的目標函數就可以寫作:
3.3 學習和預測
我們采用 Adam 優化器來最大化目標函數。根據訓練好的 RAP 模型,給定用戶的歷史交互序列和候選商品,我們首先依據狀態公式對整個序列進行掃描,并依據下面的最大值概率來為每一個商品選取動作。
根據上面的步驟,我們可以提取出可信賴的相關商品,并計算出對應的 。之后,我們依據候選商品的 就可以對它們進行排序,并返回 top- 作為推薦結果。
實驗效果
4.1 主實驗
4.2 消融實驗
4.3 case study
小結與展望
本文提出了一個序列去噪問題,并提出了一個模式增強的對比策略學習網絡()來進行去噪和推薦。 將序列去噪問題轉化為 MDP 的一種形式,利用序列模式和對比學習過程進行偏好學習。目前,我們只利用項目交互來進行去噪,這種有限的資源會阻礙去噪和推薦的有效學習。在未來的研究中,我們將選擇從知識圖譜中提取序列依賴關系,這將為去噪過程帶來更多的好處。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的用户的购物历史都有用吗?看作者如何运用对比学习来筛选相关项的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 白天日行灯和大灯一起亮对吗?
- 下一篇: ACL 2021 | 为什么机器阅读理解