论文阅读——个性化实体推荐: 一种异构信息网络方法
論文名稱:《Personalized Entity Recommendation: A Heterogeneous Information Network Approach》
作者:Xiao Yu, Xiang Ren, Yizhou Sun, Quanquan Gu, Bradley Sturt, Urvashi Khandelwal, Brandon Norick, Jiawei Han
原文鏈接:http://hanj.cs.illinois.edu/pdf/wsdm14_xyu.pdf
摘要
??????在各種混合推薦技術中,基于網絡的實體推薦方法利用用戶或項目之間的關系信息,近年來受到越來越多的關注。之前這類研究大多只考慮單一的關系類型,比如社交網絡中的friendship。在大多數場景中,實體推薦問題存在與異構網絡之中,用不同類型的關系提高推薦質量。具體來說,本文提出了對每個用戶的異構關系信息進行不同地組合,以及利用用戶隱式反饋數據來提供高質量推薦結果和個性化推薦模型。
??????為了充分利用信息網絡中的關系異構性,我們首先引入基于meta-path的隱含特征來代表用戶和項目在不同路徑上的連接性,然后我們在全局和個性化級別上分別定義了推薦模型,并使用Bayesian ranking優化技術估計所提出的模型。
1. Introduction
??????過去的研究存在的問題
??????以往的研究表明,利用額外的用戶或項目關系信息可以提高推薦系統的質量。我們的研究屬于混合推薦系統的范疇。我們的工作與其他基于鏈接的混合方法的區別在于,以前的大多數研究只利用單一類型的關系,如trust relationship,friend relationship等。我們提出在上述異構網絡環境中研究實體推薦問題,旨在同時利用不同類型的關系信息。
??????以往的研究針對所有的用戶使用相同的推薦模型,他們依賴個性化評分或者用戶反饋數據來實現推薦的個性化。然而,這樣的方法不能全面地區分用戶的興趣和偏好,因此導致令人不滿意的結果。例如,Alice和Bob觀看了電影Pacific Rim,Alice觀看這個電影是因為她喜歡robot/monster故事,而Bob是因為他的朋友也觀看了這個電影。如果我們不理解和區分用戶的動機和興趣,使用相同的推薦模型,那么推薦結果可能不能使不同的用戶滿意。
??????本文的改進
??????在本文中,我們使用隱式反饋數據引進了一個新的實體推薦框架。我們以協同過濾的方式將用戶反饋與不同類型的實體關系結合起來。通過考慮用戶的隱式反饋數據,建立針對不同用戶的個性化推薦模型,實現推薦結果的個性化。
??????為了利用信息網絡的關系異構性,我們首先將觀察到的用戶隱式反饋沿著不同的元路徑進行擴散,從而在相應的用戶興趣語義假設下生成可能的推薦候選項。我們將矩陣分解技術應用于擴散的用戶偏好上(diffused user performance),來計算用戶和項目的潛在表示。然后結合這些潛在的特征,定義一個全局推薦模型。為了進一步區分用戶的興趣,我們建議建立個性化的推薦模型,即,針對不同的用戶建立不同的實體推薦模型。我們采用貝葉斯排序優化技術進行模型估計。在IMDB - MovieLens - 100k和Yelp這兩個真實世界數據集中的實證研究表明,所提出的推薦模型優于幾個最先進的隱式反饋推薦系統。
??????本文主要貢獻:
?????? 1. 研究了異構信息網絡中用戶隱式反饋的個性化實體推薦問題。
?????? 2. 為了利用關系的異構性(relationship heterogenity),我們提出將用戶偏好分散到信息網絡中不同的元路徑上,以生成用戶和項目的潛在特征。
?????? 3. 我們提出的框架能夠高效地為不同的用戶生成個性化的推薦模型。
?????? 在MovieLens100K和Yelp這兩個數據集的實證研究上證實了我們的方法。
2. Background
2.1 Binary User Feedback
對于m個用戶和n個項目,我們定義以下的隱式反饋矩陣R
注意到,1代表了用戶和項目之間的交互,如:用戶觀看了某個電影或者瀏覽了某個餐廳的網頁。1不表明用戶喜歡此項目,因為用戶買了這個電影票,但是觀影之后可能討厭這個電影。0也不意味著用戶不喜歡這個項目,它是負面反饋(用戶不喜歡此item)和暫無交互(用戶還沒注意到這個item)的混合。之前的一些研究對隱式反饋數據有額外的假設,例如,用戶-項目交互頻率,或每個交互的駐留時間。為了不偏離本研究的目的,我們使用前面定義的原始形式的二進制用戶反饋。但是,如前所述的其他信息可以相應地添加到所提議的模型的因數分解過程中。
2.2 Heterogeneous Information Network
異構網絡定義省略
例子:
2.3 Matrix Factorization for Implicit Feedback
在以往的研究中,矩陣分解技術(通過學習用戶和項目的低秩矩陣表示)已經被用來解釋隱式用戶反饋。就是用低秩矩陣的乘積近似隱式反饋矩陣R:R≈UVTR \approx UV^T R≈UVTU是m行d列的,V是n行d列的,U和V分別代表用戶和項目的潛在特征表示,d<min(m,n)。用戶uiu_iui?和項目eje_jej?之間的recommendation score可以用低秩矩陣來表示:r(ui,ej)=UiVjTr(u_i,e_j) =U_iV_j^Tr(ui?,ej?)=Ui?VjT? UiU_iUi?表示矩陣U的第i行,VjV_jVj?表示矩陣V的第j列,通過對項目的recommendation score進行排序,我們可以得到用戶以前沒有接觸過的項目top-k個項目。
我們應該注意到我們提出的模型是與因子分解技術正交的(our models are orthogonal to factorization techniques???),即利用先進的因子分解技術可以很容易地擴展我們所提出的模型。在本研究中,為了提出一個通用的推薦框架,我們使用基本的NMF方法定義特征和模型。利用先進的因子分解方法,由于上述正交性,我們的方法的性能可以得到相應的提高。
2.4 Problem Definition
給定一個用用戶隱式反饋R表示的異構信息網絡G,我們旨在建立一個個性化推薦模型,將用戶可能感興趣的項目排序列表推薦給他。
3 Meta-path Based Latent Features
這個部分旨在利用豐富但尚未發現的信息網絡,提出一種基于用戶偏好擴散(user preference diffusion)的特征生成方法,此方法結合了用戶隱式反饋和異構實體關系。我們利用全局層次的潛在特征定義了一個推薦函數,全局(global)代表了這個推薦過程對于所有用戶來說是相同的。
3.1 Meta-path
從信息網絡的角度來看,實體推薦問題就是尋找用戶和項目之間的連接性(connectivity),在信息網絡中,兩個實體可以通過不同的路徑連接(以Figure 3為例),為了描述異構信息網絡中的路徑類型,我們引入了【1】提出的meta-path,meta-path是在信息網絡模式的范圍內定義的,并描述了如何通過不同類型的路徑連接兩個實體類型。
- Example1
對于Figure3,給定如下的兩條路徑,在Figure3中,藍色實線電表P1,紅色實線代表P2,這兩條路徑用不同的語義連接了用戶和電影。P1利用社會關系,利用了電影演員的鏈接關系,通過衡量用戶和電影基于不同路徑的相似度,我們可以從不同語義角度為用戶做出電影推薦。
當表示較長的元路徑時,在不引起歧義的情況下關系類型可以省略,元路徑的遞歸部分可以用指數符號進行壓縮,如P2可以簡化為:user?(movie?actor?movie)2user-(movie-actor-movie)^2user?(movie?actor?movie)2
3.2 User Preference Diffusion
如前所述,隱式反饋表示用戶和項目交互的交互情況。隱式反饋中的值1表示用戶對相應的項比對其他項更感興趣。我們使用術語user preference 來表示隱式反饋數據中的用戶興趣。直觀地說,如果我們能夠理解user preference 的語義含義,并找到與用戶感興趣的相似的項目,那么根據所發現的語義,我們就可以對這些用戶做出相應的實體推薦。
根據這一觀察結果和第2節中給出的問題定義,在本文中,我們將重點討論以user?item???itemuser - item -*- itemuser?item???item格式的元路徑,以建立推薦模型。我們的直覺是,我們希望將隱式反饋數據中觀察到的用戶偏好分散到不同的元路徑上,這樣用戶就可以與其他項目連接。通過定義目標用戶和不同元路徑上所有可能項目之間的 user preference di?usion score,我們現在可以測量在不同語義條件下未觀察到的(用戶-項目)交互的可能性。對于給定的元路徑,我們擴展PathSim方法以計算 user preference diffusion score,計算方法如下:
s(ui,ej∣P)s(u_i,e_j|P)s(ui?,ej?∣P)表示沿著元路徑P下用戶uiu_iui?和項目eje_jej?的diffusion score,pe→ejp_{e→e_j}pe→ej??代表eee和eje_jej?之間的1條路徑,pe→ep_{e→e}pe→e?代表eee和eee之間的1條路徑,pej→ejp_{e_j→e_j}pej?→ej??代表eje_jej?和eje_jej?之間的1條路徑。這個得分包括兩個部分:① 與用戶uiu_iui? 相關的、已觀測到的用戶-項目交互;② uiu_iui? 感興趣的項目和潛在偏好項(即式子中的eje_jej?)之間的連接性。項目之間的連接性被定義為這些項目之間沿著元路徑P的路徑數量,用Example 2演示用戶偏好擴散過程。
- Example2
假設只有兩個用戶,三部電影和五名演員,這些實體間的聯系如Figure 4所示,紅色鏈路表示已觀測到的用戶隱式反饋,紫色鏈路表示擴散的用戶偏好,我們使用user?movie?actor?movieuser-movie-actor-movieuser?movie?actor?movie作為元路徑以計算diffusion score。基于隱式反饋矩陣R,我們可以得知用戶1觀看了電影2;基于信息網絡結構,可以得到電影1和電影2之間有1條路徑,電影1和電影1之間有2條路徑,電影2和電影2之間有2條路徑。將上述隱式反饋數據和路徑數帶入diffusion score的計算式可以得到元路徑P下用戶偏好擴散得分為0.5,其他同理。
通過計算所有用戶和項目之間的diffusion score,我們產生一個diffused user matrix R′R^{'}R′,重復此過程,利用L條不同的元路徑,我們可以計算L個不同的diffused user matrix R(1)′R^{'}_{(1)}R(1)′?,R(2)′R^{'}_{(2)}R(2)′?,…R(L)′R^{'}_{(L)}R(L)′?
3.3 Global Recommendation Model
根據矩陣分解推薦方法的直覺和原理,我們可以從每個擴散的偏好矩陣中得到相應的低秩用戶矩陣和項目矩陣。這些低秩矩陣是用戶和項目在相應元路徑語義意義下的潛在表示。利用矩陣分解技術分解diffused matrix:
我們使用NMF技術完成式(3),得到L對用戶-項目的特征表示,每一對特征在一定關系語義下代表了用戶和項目。當使用這些潛在特性定義推薦模型時,不同的特性對可能具有不同的重要性。例如,用戶在選擇電影時更有可能追隨某些演員,而不是考慮這些電影是由哪些電影公司制作的。根據這一觀察,根據,我們定義了一個全局推薦模型如下:
θq是第q個<user,item>低秩表示的權重,基于非負屬性的特性,我們添加θq≥0作為優化約束。利用式(4)中的推薦模型,給定一個用戶,我們現在可以為所有item分配推薦分數,然后對這些item進行相應的排序。我們返回top-K結果作為推薦結果。我們將在第5節中討論如何估計推薦模型中的參數。
4. Personalized Recommendation Model
Section 3所述模型沒有區分用戶興趣和行為模式,例如:全局模型可能會建議大多數用戶觀看由著名演員主演的流行電影,但這一規則可能并不適合所有人。因此,此部分將全局模型擴展到更細的粒度級別,旨在為不同的用戶計算不同的推薦模型,以捕捉其興趣和偏好,提出了personalized model。一種直接的方法是僅使用某用戶自己的隱式反饋數據計算式(4),但每個用戶的反饋矩陣服從power law distribution,這意味著我們沒有足夠的數據學習personalized model。
雖然用戶行為因人而異,但一組用戶可能具有相似的興趣,比如:漫畫迷對超級英雄、奇幻和冒險電影感興趣,而斯蒂芬·斯皮爾伯格的粉絲則追隨他的電影。基于以上觀察,我們首先根據用戶的興趣對他們進行集群,然后在每個集群中學習一個推薦模型。請注意,一個用戶可以屬于不同的用戶集群(一個用戶可以同時是comic fan和Spielberg fan)。推薦時,我們通過結合相關用戶群的推薦模型,計算出目標用戶的個性化推薦模型,再結合目標用戶的個性化模型計算出推薦結果。對于用戶uiu_iui?的Personalized Model定義如下:
C代表了與用戶UiU_iUi?相關的用戶集群,sim(.,.)sim(.,.)sim(.,.)函數定義了集群CkC_kCk?中心和UiU_iUi?之間的余弦相似度,θqkθ^{k}_qθqk?代表了定義在用戶集群CkC_kCk?中的推薦模型。與全局模型相比,個性化模型具有c×Lc×Lc×L個參數,利用較大的參數空間,我們可以高效地生成個性化的推薦模型,有效地表現不同的用戶興趣或行為模式。第5節詳細討論了用戶聚類和模型學習算法。
此處集群數量十分重要,集群數太小,就無法很好地區分用戶興趣,集群數太多,我們可能沒有足夠的數據訓練模型。可以通交叉驗證估計最優jiq
5. Model Learning With Implicit Feedback
在本節中,我們將介紹用于全局和個性化推薦模型的學習算法。首先討論了全局推薦模型的參數估計方法(式(4)),然后將學習算法擴展到個性化推薦模型。
本文提出的推薦模型充分利用了信息網絡中的異構實體關系。更具體地說,我們將基于網絡擴散的潛在特征與代表推薦過程中相應元路徑重要性的參數相結合。為了了解潛在特征的重要性,我們使用用戶隱式反饋作為訓練數據。如第2節所述,隱式反饋數據中的值1表示正反饋,0代表負反饋的集合(用戶對這個item不感興趣,或者用戶沒有注意到這個item),傳統的學習方法采用分類或者learning-to-rank的目標函數,通常將數據集中的1視為positives,把0視為objectis,如前所述,這些方法不適合隱式反饋數據的定義,也不能生成高質量的推薦模型。
在[21]的激勵下,我們采用了一種不同的學習方法: 通過考慮正確的item pair orders,我們定義一個目標函數,對每個用戶,我們將1 values排在0 values之前,這個目標函數背后的設想是:比起其他items,用戶對value為1的items更感興趣。
5. Model Learning With Implicit Feedback
在此部分,介紹了全局模型和個性化模型的訓練方法,首先討論了全局模型的參數估計方法,然后將其推廣到個性化模型中。受【2】的影響,我們使用一種不同的訓練方法,我們定義一個目標函數,將值為1的項目排在值為0的之前,這背后的假設是:相比于其余項目,用戶對隱式反饋矩陣中值為1的項目更加感興趣。
5.1 Bayesiam Ranking-Based Optimization
我們使用P(eae_aea?>ebe_beb?;uiu_iui?| θ)代表用戶更喜歡eae_aea?而不是ebe_beb?的概率,優化準則的貝葉斯公式是最大化后驗概率,如下所示
θ={θ1,……,θL}θ =\{θ_1,……,θ_L\}θ={θ1?,……,θL?}代表全局模型參數,p(R∣θ)p(R |θ)p(R∣θ)代表所有item pairs排名都正確的概率, 即,對于每個用戶,反饋1的項可以排在反饋0的項之前。
假設用戶偏好和項目對都是獨立的,我們可以得到如下似然函數:
P(eae_aea?>ebe_beb?;uiu_iui?| θ)的定義如下:
σ\sigmaσ是sigmoid函數,基于以上假設我們得到目標函數:
本文使用SGD進行參數估計。
5.2 Learning Personalized Recommendation Models
此前的部分說到,對于個性化模型,我們需要先根據用戶興趣對其進行分組。對于NMF得到的低維用戶矩陣U,我們使用帶有余弦函數的k-means算法作為用戶之間的相似度度量,然后將用戶聚類,對于每個集群,我們使用之前的討論的方法訓練出一個推薦模型,訓練算法如Algorithm 1所示,在估計推薦模型的參數后,對于給定的目標用戶,我們可以利用式(5)計算出相應的個性化推薦模型,并根據個性化推薦模型和用戶的個人反饋數據進行個性化實體推薦。
Reference
【1】 Y. Sun, J. Han, X. Yan, S. P. Yu, and T. Wu. PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. In VLDB, 2011.
【2】 S. Rendle, C. Freudenthaler, Z. Gantner, and L. Schmidt-Thieme. Bpr: Bayesian personalized ranking from implicit feedback. In UAI, 2009.
總結
以上是生活随笔為你收集整理的论文阅读——个性化实体推荐: 一种异构信息网络方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记——利用CC++语言计算二重积分
- 下一篇: Lecture 12: Iterated