【论文解读】KDD2020最佳论文: 关于个性化排序任务评价指标的大讨论
前段時間還跟實驗室同學專門討論了下關(guān)于個性化排序中的評價指標問題,即我們在實驗的過程中究竟使用哪一種實驗設置才能較好的反映模型的泛化能力,比如采用全量測試數(shù)據(jù)進行排序,但該方法需要的測試時間較長;比如使用采樣的測試樣本進行排序評估,該方法雖然評估時間大大縮短但不能完全反映模型性能。如今Rendle大佬通過實驗的方式告訴了我們答案,并且憑借該主題獲得了KDD2020的最佳論文,祝賀!
眾所周知,推薦系統(tǒng)主要有兩大任務:評分預測和個性化排序。其中,針對評分預測任務的評判指標主要是均方誤差(MSE)、均方根誤差(RMSE)和平均絕對誤差(MAE)等回歸指標。這些指標的評價相對來說復雜度較低,因此對于全量測試數(shù)據(jù)進行評估相對可行。對于個性化排序任務需要在給定上下文的情況下對大量的項目候選進行排序,因此需要利用平均準確率(MAP)、歸一化折損累計增益(NDCG)等排序指標來評估模型的性能。如果大家想了解更多排序模型知識可以移步推薦系統(tǒng)中排序?qū)W習的三種設計思路。
目前,主流的個性化排序任務(Item Recommendation)的文獻為了加速評價指標的計算,經(jīng)常利用采樣的指標(Sampled Metrics)進行評價,即針對待測試的正樣本和隨機出來的較小規(guī)模的負樣本進行排序,比如在測試階段對一個正樣本和從大量候選集采樣出來的99個負樣本進行排序,然后計算該樣本相對于負樣本的排序位置進行性能評估。雖然這種實驗設置可以一定程度上反映模型A的排序性能好于B,但根據(jù)論文的實驗結(jié)果發(fā)現(xiàn),這種結(jié)論并不總是成立的,往往采樣指標的性能跟確切指標的性能不一致。另外,實驗結(jié)果表明抽樣規(guī)模越小,指標之間的差異就越小,而且對于非常小的抽樣規(guī)模,所有指標都會塌陷為AUC指標。因此,論文提出了一種改進的采樣評價指標用來提高評價質(zhì)量。最后,該論文建議評價的時候盡量不要采樣,如果不聽話非要采樣那就用所提出的修正的采樣指標來提高評價質(zhì)量。
來,讓我們先來熟悉下常用的排序指標,即AUC,Precision,Recall,AP和NDCG。其中,為全部物品個數(shù),為預測的列表結(jié)果,為預測的樣本個數(shù),代表該物品所在的位置,為設置的預測截斷個數(shù),為測試時采樣的負樣本個數(shù)。
AUC衡量了相關(guān)項目排在非相關(guān)項目前邊的可能性。
Precision衡量了在前k個預測物品中相關(guān)物品的比例。
Recall代表預測召回的物品中排在前k位置物品的比例。
Average Precision表示對于前邊Precision指標的平均。
NDCG為歸一化的折損累計收益,通過在分母引入位置收益來表示排在前邊并且收益大的項目獲得的收益較高。
接下來介紹目前大部分文獻采用的簡化的采樣過后的指標,以此來應對大規(guī)模樣本的效率問題。大部分論文在評價的時候假設只有一個正樣本,即=1,然后基于這個正樣本采樣若干個負樣本,以此來進行排序,看最終該正樣本排在了什么位置。因此上文的精確采樣可以表示為下圖所示的簡化形式。
接下來主要介紹下論文中的實驗結(jié)果分析與結(jié)論。
下圖1展示的是將正樣本隨著排序位置的變化所產(chǎn)生的評價指標的變化。左圖是針對所有的候選集來說的,右圖是針對Top100來說的。從左圖可以看出AUC是與排序位置無關(guān)的指標,隨著排名逐漸靠后,排序指標線性的遞減。也就是說把正樣本從排名100移到101位的變化跟把排名從第2位移到第1位一樣;平均準確率AP的分數(shù)衰減的最明顯,例如在排名第1位的價值是排名第2的兩倍;右圖展示了各種指標在Top100的指標變化,可見除了AUC以外,其他指標都對排序位置比較敏感。
對于排序評價指標的選擇取決于是否位置敏感,即由于用戶的注意力有限以及網(wǎng)站或者App有限的展示資源,人們大多比較關(guān)心排在頭部的物品之間的相對位置,而忽略尾部的項目排序位置,因此對于測試階段我們需要強調(diào)頭部效應。而在訓練階段我們需要盡量打消這樣的基于位置的偏見(Position bias),盡可能的還原用戶點擊該物品是真的處于喜歡,而非僅僅因為排在了頭部顯眼的位置。我喜歡你,不僅僅是因為你出現(xiàn)在了我眼前,而更是因為你的內(nèi)在。
下表展示了3個推薦算法A,B,C預測結(jié)果不同而產(chǎn)生的關(guān)于AUC,AP,NDCG和Recall的評價結(jié)果。表1是針對5個實例的精確評價,表2是采樣過后進行的評價。可見只有AUC這種位置不敏感的指標對于三個推薦算法的排名沒有變化,依然是算法A最高,C次之,B墊底。而對于其他指標來說,利用采樣之后的評價指標出現(xiàn)了與精確指標不一致的結(jié)果。
另外,論文還針對采樣個數(shù)關(guān)于評價指標的變化進行了實驗。實驗結(jié)果出現(xiàn)群魔亂舞的現(xiàn)象。發(fā)現(xiàn)隨著評價階段負采樣個數(shù)的增加,原來性能優(yōu)越的算法A出現(xiàn)性能惡化,最終被算法C打敗的情況。可見,只針對一個負采樣個數(shù)來作為最終模型的性能評價有失公平。這么一想,咱的破模型沒準在某個負采樣個數(shù)的設置下可能打敗著名的N某F。
另外,論文對于采樣指標中不同的采樣個數(shù)對結(jié)果的影響與精確的指標做了相關(guān)對比實驗。可見不同的采樣個數(shù)與精確的指標之間差距較大,并且即使采樣個數(shù)足夠大,仍然與精確的評價指標之間存在較大偏差。所以,只利用某一種負采樣個數(shù)進行性能評估是具有偶然性的,但往往必然的結(jié)果是與真正的評價效果相差很遠。
最后,論文提出了對于采樣評價指標的修正版本。左邊是修正的采樣指標AP在采樣個數(shù)為的結(jié)果,右邊是在全量測試樣本上的評價結(jié)果,可見兩者效果是差不多相等的。
最后,大佬給出了一些做實驗的建議。
抽樣指標可能無法很好地指示該指標下推薦算法的真實性能。
對于未校正的指標,這主要是由于采樣引入的較大偏差造成的。
使用校正方法,可以減少這種偏差,但要付出更高的方差代價。
如果論文中確實需要使用抽樣指標,并且仍對指標的真實性能感興趣,建議使用本文提出的校正方法。在這種情況下,請務必使用不同的樣本(例如,不同的隨機種子)重新進行實驗。
盡管這種改進的評價指標優(yōu)于未校正的采樣指標,但由于偏差,它仍然傾向于得出錯誤的結(jié)論。所以只有完全避免抽樣,才能消除這種偏差。
更多關(guān)于論文細節(jié),請閱讀原文。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習的數(shù)學基礎專輯獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群1003271085。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):
總結(jié)
以上是生活随笔為你收集整理的【论文解读】KDD2020最佳论文: 关于个性化排序任务评价指标的大讨论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习基础】太棒了!这里有385篇自
- 下一篇: 【励志】高考失利之后,属于我的大学本科四