建立在线社交网络中的关系权重模型
大部分人都會有好朋友,也會有普通朋友,但目前很多網站中并沒有體現出來,而且多數研究工作也都是基于無權網絡展開,把好朋友與點頭朋友都混淆在了一起。本文基于用戶間的交互行為(如查看資料、連接確立、標記圖片等行為)和用戶資料相似度,提出了一個無監督的模型來評估人們之間交互關系的強弱,這個強弱關系的度量是一系列連續的值,區分與之前的強弱二元關系。
實際應用
度量好友關系的強弱對于社交網站的實際應用有很大的幫助,包括:
鏈路預測:在LinkedIn和Facebook這樣的社交網站中,都會向用戶自動推薦新的鏈接。在推薦具有一定距離的用戶的時候(比如是兩度距離或者是在同一公司),度量用戶之間的關系強弱有利于給予用戶更好的建議。
產品推薦:度量關系強弱有利于推薦產品,因為越是強關聯的人,他們的喜好越是相似,比如說LinkedIn中為用戶推薦群組。
新聞反饋:好友動態、新聞更新這些是社交網站的重要內容,基于好友關系強弱為每個用戶提供個性化的動態更新,刪除那些無關的內容,從而為用戶帶來便利。
人物搜索:把搜索的結果按照與申請人的關系強弱進行排名,用戶能更方便地找到他們想找的人。
可視化設計:有利于更清晰地現實用戶的局部社交網絡。
模型建立
本文的一個基本假設就是社會學中的同質性——越是相似的人越是容易形成連接。在線社交網絡中,可以拿來使用的屬性包括是否屬于同一學校、公司,是否加入了同一個群組,是否地理臨近等等。需要考慮的行為信息包括:瀏覽個人信息的行為、關系建立、標記圖片等等,兩人之間的關系越多,他們的關系也就越強。
基于此,本文為用戶i建立了一個屬性向量x(i),并且用(t?= 1,2…,m)表示用戶i和j在m種不同“交互行為”中的出現率,表示用戶i和j之間的潛在關系權重,它綜合了用戶的屬性相似度和交互強弱。模型的框架如下圖。模型分為上下兩部分,分別表示為p(Z|X)和p(Y,Z),式子表示為:
該模型既適用于有向網路,也適用于無向網絡,這取決于網絡的構建方式。本文模型在有向網絡中展開,即不同于
模型詳解
給定用戶“資料”的相似性,本文使用常用的高斯分布來建立關聯強度的條件概率。定義sk(x(i),x(j)) (k=1,2,…n)表示用戶i和j之間的一套相似性度量方法,于是和x(i),x(j)的依賴關系可定義為:
其中,s是基于x(i)和x(j)計算的相似度向量,w是一個需要估算的n維的權重向量,v是高斯模型中的方差(在該模型中被定為0.5)。于是,模型可以被重新設計,如下圖所示。
?
在模型中,給定后,每個的概率分布是條件獨立的。由于數據的稀疏性,所有的交互行為都被設定為二元的而不去考慮交互的頻率。而且,為了增加模型的準確性,本文為每一個交互行為t引入了一組輔助變量如上圖所示。
最后,在給定了和條件下,本文采用了羅吉斯函數來建立的條件概率,如下式所示
其中,是需要估計的參數。為了簡練,定義
可得
最后,為了防止過擬合,本文將w和 進行L2正則化處理。
實驗結果
本文分別在LinkedIn和Facebook中進行了實驗。
在LinkedIn中考慮的“資料相似性”因素包括:是否在同一學校、同一公司、同一地理位置、同一工廠,是否有相同的職位、相同的職能范圍,每一對用戶參與共同群組的數目在標準化處理之后再取對數,每一對用戶共享連接的數目在標準化處理之后再取對數,一共8個資料相似度的參考因素;“交互行為”因素包括:用戶i是否建立了對用戶j的連接,用戶i是否為j寫過推薦信,用戶i是否看過j的資料,用戶i是否將j加入到了LinkedIn地址簿,一共4種交互行為變量作為參考因素。
在Facebook中考慮的資料相似性因素包括:用戶i和j的共同網絡個數在標準化處理之后再取對數,用戶i和j的共同群組個數在標準化處理之后再取對數,用戶i和j的共同好友個數在標準化處理之后再取對數,一共3個資料相似度參考因素;“交互行為”因素包括兩個:用戶i是否在用戶j的facebook墻上留過言,用戶i是否標記過用戶j的圖片。
實驗結果現實,單獨使用這些影響因素進行建模得到的結果都不好,但是把這些因素綜合考慮起來,就會有非常好的表現。
總結
以上是生活随笔為你收集整理的建立在线社交网络中的关系权重模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java保存图片进度条_java 进度条
- 下一篇: STAR对RNA seq进行map