论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法
論文筆記整理:郝凱龍,南京大學(xué)碩士。
? ? ? ? 來源:AAAI2020
鏈接:https://arxiv.org/pdf/1911.10699.pdf
動(dòng)機(jī)
推薦系統(tǒng)實(shí)際上是在做用戶-商品二部圖上的鏈路預(yù)測,僅僅用用戶-商品之間的單一購買關(guān)系無法精確的進(jìn)行描述為什么購買行為發(fā)生。現(xiàn)有的方法沒有探索各種購買動(dòng)機(jī)之間的差異進(jìn)而導(dǎo)致無法捕捉到細(xì)粒度的用戶偏好。因此,我們提出了一種新穎的多分量圖卷積協(xié)同過濾方法 Multi-Component graph convolutional Collaborative Filtering (MCCF),以區(qū)分觀察到的顯式用戶-商品交互下潛在的多種購買動(dòng)機(jī)。在三個(gè)真實(shí)數(shù)據(jù)集和一個(gè)合成數(shù)據(jù)集上進(jìn)行試驗(yàn),結(jié)果不僅顯示了 MCCF 的顯著性能提升,而且有效地證明了多個(gè)組件的必要性。
亮點(diǎn)
MCCF的亮點(diǎn)主要包括:
(1)首次探索了用戶-商品二部圖下,用戶潛在的多種購買動(dòng)機(jī)。可以更好的描述用戶細(xì)粒度的偏好;
(2)首次一種新穎的多分量圖卷積協(xié)同過濾 Multi-Component graph convolutional Collaborative Filtering (MCCF) 方法,以區(qū)分觀察到的顯式用戶-商品交互下潛在的多種購買動(dòng)機(jī);
概念及模型
MCCF 內(nèi)部有兩個(gè)主要模塊:分解器和組合器。前者首先將用戶-商品交互分解為多種可能導(dǎo)致購買關(guān)系的潛在組件;后者自動(dòng)重新組合這些潛在組件,以獲得統(tǒng)一的用戶/商品表示以進(jìn)行預(yù)測。此外,稀疏正則化和鄰居權(quán)重采樣用來緩解過擬合問題并加速優(yōu)化
?
MCCF具體由三部分構(gòu)成:
Decomposer:分解潛在偏好并用 node-level attention 來學(xué)習(xí)用戶/商品多個(gè)成分的表示。
Combiner:多個(gè)成分利用 component-level attention 進(jìn)行加權(quán)融合。
MLP+Predict:評(píng)分預(yù)測。
?
模型整體框架如下:
? ? ? ? ? ? ?
?
多成分抽取
假定用戶和商品都有 M 個(gè) components,為了將這 M 種成分進(jìn)行剝離,文章首先利用 M 組投影矩陣對(duì)它們進(jìn)行投影。實(shí)際上是將節(jié)點(diǎn)通過不同的投影矩陣映射到不同的空間,每個(gè)空間的表示代表一個(gè) component。具體如下:
? ? ? ? ? ? ?
? ? ? ? ? ? ?
節(jié)點(diǎn)級(jí)別注意力
圖神經(jīng)網(wǎng)絡(luò)通常收集鄰居信息并利用神經(jīng)網(wǎng)絡(luò)更新節(jié)點(diǎn)表示。通過對(duì)鄰居的加權(quán)混合來更新節(jié)點(diǎn)表示。文章先考慮聚合 item 的信息更新節(jié)點(diǎn)表示。給定一個(gè)用戶和商品的第m個(gè) component,文章可以利用節(jié)點(diǎn)級(jí)別注意力計(jì)算它們之間的一個(gè)注意力權(quán)重。基于所學(xué)習(xí)到的權(quán)重對(duì)鄰居進(jìn)行加權(quán)聚合,得到用戶在第 m 個(gè) component 下的表示:
? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
? ? ? ? ? ? ?
評(píng)測和優(yōu)化
評(píng)分部分采用常規(guī)的拼接+MLP:將用戶和商品的表示拼接后經(jīng)過多次神經(jīng)網(wǎng)絡(luò)映射到一個(gè)標(biāo)量評(píng)分。同時(shí),作者為了增強(qiáng)泛化能力,對(duì) component 進(jìn)行了L0 正則。作者引了一篇文章的稀疏正則:它把全連接換成了論文源碼里 L0 約束的稀疏全連接。為了防止過擬合,作者還提出了一種采樣策略:根據(jù)評(píng)分的高低來對(duì)鄰居進(jìn)行加權(quán)采樣,這里的采樣也可以使不同節(jié)點(diǎn)在一個(gè) batch 里的鄰居數(shù)相同,加速 GPU 運(yùn)算。如下:
? ? ? ? ? ? ?
? ? ? ? ? ? ?
?
理論分析
實(shí)驗(yàn)
作者采用了3個(gè)公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別是:MovieLen-100K、Amazon、Yelp。首先是有效性實(shí)驗(yàn),模型的評(píng)價(jià)指標(biāo)為:MAE 和 RMSE。
? ? ? ? ? ? ?
本文所提出的 MCCF 優(yōu)于 GCMC。但是需要注意的是,在 Yelp 數(shù)據(jù)集上 MCCF 和 MCCF-cmp 的效果一樣。也就說,在 Yelp 上對(duì)多個(gè) component 進(jìn)行平均和加權(quán)所取得效果一致。
?
文章利用合成數(shù)據(jù)集上進(jìn)行評(píng)測。文章首先生成了 3 個(gè)用戶-商品交互圖,每個(gè)圖都代表一種潛在意圖。然后,將 3 張圖進(jìn)行合并,生成了所謂的合成數(shù)據(jù)集。
? ? ? ? ? ? ?
實(shí)驗(yàn)表明隨著 components 的個(gè)數(shù)增加,模型效果先上升后下降并在 3 個(gè) components 時(shí)達(dá)到最優(yōu)。這里驗(yàn)證了本文所提出的 MCCF 模型確實(shí)可以捕獲到真實(shí)個(gè)數(shù)的 component。
?
文章在 3 個(gè)真實(shí)數(shù)據(jù)集上驗(yàn)證了 components 個(gè)數(shù)對(duì)模型表現(xiàn)的影響。在不同數(shù)據(jù)集上最佳 components 的個(gè)數(shù)有所差異。如下:
?
? ? ? ? ? ? ?
?
文章驗(yàn)證了節(jié)點(diǎn) embedding 維度大小對(duì)模型的影響。較大的維度可以更精準(zhǔn)的表述節(jié)點(diǎn),但是過大的維度可能會(huì)帶來冗余。
?
? ? ? ? ? ? ?
?
總結(jié)
本文對(duì)推薦系統(tǒng)中用戶-商品二部圖的建立原因展開分析:用戶購買商品可能是基于多種不同的購買意圖,比如性價(jià)比或者外觀,這也是用戶的細(xì)粒度偏好。因此,文章提出了一種多分量圖卷積協(xié)同過濾 Multi-Component graph convolutional Collaborative Filtering(MCCF)方法,以探索在用戶-商品購買交互下潛在的多種購買動(dòng)機(jī)。最后文章利用 node-level 和 component-level 的注意力來更好的學(xué)習(xí)節(jié)點(diǎn)表示。
?
?
OpenKG
開放知識(shí)圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | AAAI2020 - 多分量图卷积协同过滤方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - EMNLP2020 | 跨
- 下一篇: 会议交流 | “数据智能与知识服务”研讨