最新综述:推荐系统的Bias问题和Debias方法
?PaperWeekly 原創 ·?作者|陳佳偉
學校|中國科學技術大學博士后
研究方向|信息檢索
?
導言
bias 是推薦系統中普遍存在的問題,受到廣大研究者和從業者的關注。本文將分享何向南老師團隊最近的一篇關于推薦系統 bias 的綜述文章 Bias and Debias in Recommender System: A Survey and Future Directions,討論 bias 的重要性、bias 的定義和分類、debias 的方法、以及探索未來的研究方向。
論文標題:
Bias and Debias in Recommender System: A Survey and Future Directions
論文鏈接:
https://arxiv.org/abs/2010.03240
論文作者:
陳佳偉(中國科學技術大學)、董漢德(中國科學技術大學)、王翔(新加坡國立大學)、馮福利(新加坡國立大學)、汪萌(合肥工業大學)、何向南(中國科學技術大學)
介紹(重要性)
在當今信息過載的時代,推薦系統對于用戶越來越有用,如何構建更加有效的推薦系統、解決目前推薦系統中存在的問題具有重要意義。然而不像其他領域的任務,在推薦任務中盲目的構造模型擬合用戶的歷史數據往往難以取得良好的性能。
這是因為推薦系統中的 bias 廣泛存在,其一,推薦數據是觀測得到的而非實驗干預得到的。交互數據受到曝光機理和用戶選擇的影響。其二,推薦數據呈現出長尾的特征。其三,推薦系統生態存在反饋閉環。推薦系統的結果會影響用戶的交互行為,然而用戶的行為又作為新的數據來訓練推薦系統模型,從而產品并加強數據的 bias。
近些年,學術界越來越關注推薦系統中 bias 和 debias 的研究。圖 1 展示了近些年頂刊和頂會關于推薦系統 bias 論文數量的變化趨勢,我們可以發現,自從 2015 年之后,相關研究迅速增長。然而雖然推薦系統的bias領域蓬勃發展,但是目前的研究呈現出碎片化、定義不一致等現象。
為了方便后續研究和感興趣的讀者快速了解現有技術,該綜述對現有技術歸納總結并給出一些未來的研究方向。
?
▲ 圖1: 2006年以后研究推薦系統的bias的論文數量變化趨勢
?
Bias的定義和分類
如圖 2 所示,推薦系統實際上是一個環路,包括三個組成部分:用戶、數據、模型。在環路的每一個部分都會引入 bias。我們根據 bias 產生的位置對其進行分類,并分別介紹。
▲?圖2: 推薦系統的反饋環路,環路的每一個環節都可能引入bias
?
2.1 數據中的bias
推薦系統中的數據分為顯示反饋數據(多值,比如打分數據)和隱式反饋數據(二值,比如點擊數據),在顯示數據中,存在選擇偏差(selection bias)和一致性偏差(conformity bias);在隱式數據中,存在曝光偏差(exposure bias)和位置偏差(position bias)。
Selection bias:當用戶能夠自由地選擇給哪些物品打分的時候,則評分數據不是隨機丟失的(missing not at random, MNAR),觀測到的交互數據的分布將不能代表整體數據的分布。
圖 3 是用戶對于隨機物品和自主選擇的物品的打分分布,可以明顯地看出,兩者的分布有較大的差異。當用戶擁有自由選擇權的時候,更傾向于給自己喜歡的物品打分。
▲?圖3: 用戶對隨機物品和自己選擇的物品的打分分布
Conformity bias:用戶的打分會傾向于和群體一致,即使群體的打分有時候和用戶的判斷是有區別的,用戶的這種傾向將使得評分并不能準確反映用戶的偏好。大部分人都有從眾的傾向,當用戶發現自己的判斷與大眾不一致時,很可能改變自己的評分,而讓自己的評分向大眾的評分靠攏。
Exposure bias:用戶只會暴露在一部分的物品上,因此沒有交互過的物品不一定是用戶不喜歡的,還可能是用戶沒看到。用戶和物品沒有交互存在兩種可能性:用戶沒看到物品、用戶不喜歡物品,直接講沒有交互過的物品當作負樣本(用戶不喜歡)會引入偏差。
Position bias:用戶更傾向于和推薦列表中位置比較靠前的物品交互,因此在推薦列表中用戶和物品的交互不僅由用戶的興趣決定,還很大程度上由物品的排名決定。相關研究表明,用戶在垂直展示的列表中,更傾向于點擊排名靠前的物品,而忽略排名靠后的物品。
2.2 模型中的bias
為了讓模型更好地適應數據,需要對模型做各種假設,以提升模型的性能。這種假設也可以看作是一種 bias,我們稱為歸納偏差(inductive bias),與數據中的 bias 不同,這種 bias 的作用是積極的。
Inductive bias:模型可能會做一些假設,以學習更好的目標函數,產生比僅僅依靠訓練集泛化性能更好的模型。模型的泛化性能可以看作是機器學習的核心目標,合理的假設能夠提升模型的泛化性能,比如矩陣分解(MF)模型中的點積假設,分解機(FM)模型里的交互項假設,等等。
2.3 結果中的bias和unfairness
通過分析推薦結果,還有常見的流行度偏差(popularity bias)和不公平(unfairness)現象。
Popularity bias:流行的物品將在推薦結果中有著比預想更高的流行度。長尾現象在推薦系統中廣泛存在,即一小部分物品占據了推薦數據中大部分交互。當在長尾分布的數據上訓練模型時,模型將傾向于給流行物品更高的打分,給不流行的物品更低的打分,這會導致在推薦列表中,模型也更傾向于推薦流行的物品。
如圖4所示,經實驗驗證,模型對于流行物品的推薦頻率甚至超過了其在訓練集中的頻率。
▲?圖4: 物品流行度和推薦頻率的關系
Unfairness:系統為了另一部分個人或群體而給特定的個人或群體以不公平的對待。不公平的推薦系統將由于其本身的倫理問題被社會的敏感領域限制,比如可能存在的性別歧視、種族歧視等。當數據分布不均勻的時候,模型很可能學出敏感的特征(比如性別)和結果(是否給予工作機會)的相關性,這將會導致不公平現象。
2.4 反饋環路增加bias
推薦系統構成動態的反饋環路,動態的環路會增加 bias。舉個例子,流行的物品在推薦結果中有更高的出現頻率、展示給用戶后將會有更多關于流行物品的交互、更多的交互將使得模型更容易推薦流行的物品。
表1總結了上述 bias:
▲?表1: 推薦系統各種bias的對比
Debias的方法
為了減弱 bias 對于推薦結果的影響,很多去偏(debias)的方法被提出來,表 2 總結了各種去偏方法。這里選取幾種常用的方法進行簡單介紹,對這些技術細節感興趣的讀者可以參考綜述原文。
▲?表2: 各種去偏方法總結
傾向評分(propensity score):該方法來源于統計學,是處理觀測數據(observational data)的常用方法。在推薦系統中應用該方法去偏的步驟:首先假設觀測數據的產生機制,然后在數據中加入懲罰項(Inverse propensity score, IPS)進行去偏。在訓練階段使用該方法,可以使訓練出的模型更加可靠;在測試階段使用該方法,可以使對模型的評估更準確。
因果圖(causal graph):該方法假設產生數據的內在因果效應,并用因果圖刻畫該因果效應。與 IPS 方法不同,該方法顯示地建模數據生成過程,在測試階段只保留用戶偏好的部分。如果對數據產生的機制假設合理,因果圖將取得很好的效果。
均勻數據(uniform data):從數據來看,bias 產生是因為數據是觀測(observation)到的,那么一個直接減弱 bias 的方法在于引入更合理的實驗(experiment)數據,比如引入一些隨機流量、隨機地調查用戶對于物品的評分等等,這些均勻數據的引入將有利于減弱 bias。
未來的方向
傾向得分評估(propensity score, PS):傾向得分方法的有效性依賴于對數據產生機制的假設是否正確,目前已經有不少工作做了不少,但是關于 PS 的評估仍然是一個開放性的問題,有待于進一步探索。
通用的去偏框架:從特征可以將 bias 分成多個類別,大部分 bias 的也都有著共同的起因,即推薦系統中的數據是觀測數據而非實驗數據,未來有希望構建統一的去偏框架處理全部的 bias。
知識驅動型去偏:近些年快速發展的知識圖譜技術,也有希望融合到去偏中,根據知識圖譜能夠獲得協同信息之外更廣泛的信息,將知識融合進推薦模型也有助于去偏。
動態bias建模:在實際場景中,bias 往往是隨時間動態變化而不是靜態不變的。動態 bias 的建模將是一個有前景的研究方向。
因果圖推理:因果圖方法不僅可以挖掘數據中的 bias 產生的原因,而且可以實現知識推理、推薦解釋等功能,是一個值得深入研究的方向。
推薦精度和公平性的權衡:現有的方法在追求推薦公平性的同時往往也會造成推薦精度降低的問題,如何較好的實現兩個目標依舊是一個困難的善待解決的問題。
無偏的推薦性能的評估:由于離線場景下,獲得的數據是有偏的,如何在有偏的數據上無偏的評估推薦的性能依舊是一個難題。推薦系統領域急需統一的基準數據集和評估標準。
?
總結
本篇綜述較為系統地介紹了目前推薦系統中的 bias 問題和 debias 的方法,這是對幾年來關于 bias 研究的一次歸納總結,將有助于感興趣的讀者快速了解研究現狀,也有利于未來的研究。綜述也提出了很多有前景的方向,以供研究者參考。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的最新综述:推荐系统的Bias问题和Debias方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哪些美食吃了一次就让人难以忘怀?
- 下一篇: 一百毫升53度的飞天茅台会有假的吗?