搜索推荐炼丹笔记:点击位置偏差的经验比较
An Experimental Comparison of Click Position-Bias Models (WSDM08)
作者:一元,公眾號:煉丹筆記這是一篇經典的文章,引用800+,雖然有些老了,但里面的諸多假設仍然值得細細品味。
搜索引擎點擊日志提供了寶貴的相關信息來源,但這些信息是有偏的。
有偏的一個主要來源是呈現順序:點擊的概率受文檔在結果頁面中的位置的影響。本文著重于解釋這種偏差,建模點擊概率如何依賴于位置。我們提出了四個關于位置偏差產生的假設。
我們進行了大量的數據收集工作,擾亂了一個主要搜索引擎的排名,看看點擊量是如何受到影響的。然后,我們探討四個假設中哪一個最能解釋實踐中位置的影響,并將其與簡單的logistic回歸模型進行比較。
簡單的位置模型并不能很好地解釋這些數據,有些用戶不分青紅皂白地點擊排名1的商品,或者注意力在排名上出現簡單的衰減。“cascade”模型,用戶從上到下查看結果,并在看到有價值的文檔后立即離開,這是我們對早期排名中位置偏差的最佳解釋。
我們將位置標記為i->{ 1,2,....,N}, 我們對位置不做任何的假設,它們可能是線性排序的,在網格中,交錯排列或以其他方式排列的。
我們的經驗觀測來自于一個標準的Top-10排序,我們諸多模型中的一個假設用戶傾向于按從1-10的順序觀測結果。
1. Baseline假設:在位置i點擊文檔的概率與在位置j點擊文檔的概率相同
Position Bias最簡單的解釋是none。用戶查看所有結果并考慮每個結果的優點,然后決定單擊哪個結果。在我們的基線假設中,在位置i點擊文檔的概率與在位置j點擊文檔的概率相同;
在我們的實驗中, j=i+1 , 位置上可能的最小改變,所以我們的baseline模型是非常強的預測。
基線假設似乎與過去的研究不一致,過去的研究表明,排名第1或接近排名1的結果更有可能被點擊,更有可能在眼睛跟蹤下查看。衰減的點擊曲線可以與基線一致,如果搜索引擎用衰減的對文檔進行排序,那么我們將看到更低的rank的點擊更少。然而,基線假設與衰減的rd注意曲線并不一致。
2. 混合假設:一些用戶由于文檔出現在rank i中而以概率bj盲目點擊
這個概率模型是新的,我們將看到很難根據我們的經驗觀察來擬合這個模型。然而,在不假設概率混合模型的情況下使用相關的方法,取得了顯著的成功。Agichtein等人通過從該查詢的點擊分布中減去背景點擊分布,糾正了位置偏差。然后,點擊次數超過預期的搜索結果是相關的,而點擊次數少于預期(否定)的搜索結果是無關的。
3. 檢驗假設
通過眼球追蹤研究,我們有直接的證據表明,用戶不太可能看排名較低的結果。這就提出了另一個假設:每個排名都有一定的被檢驗概率。這可以被建模為一個項xi,它是在位置i被檢測的概率,如果要被點擊,結果必須被檢查而且是相關的:
4. 級聯模型
我們提出了一個新的模型來解釋position效應,該模型假設通過排序進行線性遍歷,并且不檢查點擊之后的文檔。
本文靈感來自于Joachims等人的工作,該工作假設通過排名進行線性遍歷,以點擊結果結束。一個典型的模型是上面的Click > Skip。在該模型中,排名i的單擊文檔被認為比跳過的文檔更受歡迎。在第j列。如果點擊i,則跳過第j列的文檔,
為了觀測一次點擊,用戶必須決定點擊和跳過rank。
為了驗證我們關于點擊是如何產生的假設,我們進行了一個對照實驗,在這個實驗中,我們改變了文檔顯示的rank,并觀察了點擊概率的變化。這是在一小部分用戶上實驗的,因為他們在主要的搜索引擎中執行搜索。所有翻轉都是在排名前10的rank中的翻轉,所以有9種類型的翻轉,我們對其編號
我們通過隨機抽樣收集了大量這樣的實驗,然后采用兩種方式進行過濾。我們忽略了任何在前十名列表上方有廣告或其他元素的實驗。這意味著我們對前10名觀看行為的分析主要集中在用戶首先看到的是排名第一的情況。因此,我們不對廣告和其他元素進行建模.
方框中間顯示了較高概率的中位數,因此我們將bin較低概率的中位數顯示為“.”,以便進行比較。方框圖完整地顯示了數據集,但存在一些問題。大多數觀察都在最左邊的箱子里。在最右邊的bin中,我們實際上看到了中位點擊概率在上部位置的下降(這是因為任何大于90%的概率都是異常值,因此在上部和下部位置都不太可能觀察到)。
上圖顯示了日志空間中的相同數據。概率p的對數幾率為對數log(p/(1-p))。這樣做的效果是擴展了較低的概率,因此我們可以更清楚地看到數據的形狀。誤差條形圖再次顯示下、中、上四分位數(如方框圖)。下圖則顯示了相同的圖,但是對于每種類型的翻轉是分開的。注意,我們的數據集包含大量零點擊的觀測數據,我們在實驗和對數優勢圖中對這些數據進行了不同的處理。在實驗中,我們保持零并使用平滑,后面會闡述。在對數優勢圖中,我們通過在x軸或y軸上的零點擊觀察移除任何數據點。零不能按原樣顯示,因為零的對數幾率是負無窮大。此外,如果通過平滑或添加epsilon來包含它們,它們往往會使繪圖的可讀性降低,并減少關于非零數據點的信息。
存在四種可能的情況,
- 只點擊A;
- 只點擊B;
- 兩個都點擊;
- 兩個都不點;
評估中的一個難點在于,我們的許多模型都獨立地預測A和B的點擊概率,這意味著我們分配了非零的概率,即兩個結果在呈現時都被點擊。
而在級聯模型中,不可能同時觀察到A和B的點擊。我們的解決方案是對所有4個事件進行評估,但決不能同時觀察到A和B的點擊。我們表明,這并不妨礙獨立A-B模型。
我們通過下面的式子計算觀測到的AB序列的點擊概率:
1.Baseline模型:
基于未調整的AB概率預測BA的點擊概率;
2.Mixture模型:
3.Examination模型:
4.級聯模型
- 級聯模型是最好的模型,優于logistic模型。Examination模型幾乎沒有對Baseline進行任何調整。我們還通過使用測試集BA計數作為我們的預測來計算“最佳可能”交叉熵。
- 在rank較小的時候,cascade模型表現特別好,在rank4以及之后,cascade模型表現的一般。
我們認為這意味著在較低的級別上存在少量的presentation偏差,并且由于點擊很少,所以存在大量的可變性。
我們10萬多個觀測類型的數據集中,cascade是迄今為止最成功的模型。這是值得注意的,因為它不使用訓練數據,并適用于無參數點擊觀察。也就是說,它在較低rankk(大于4)級別上表現糟糕。盡管它并不比其他模型差多少,而且沒有一個模型的性能明顯優于基線。很明顯,級聯模型最適合解釋rank為1或rank為1附近的翻轉。
我們描述了一些簡單的模型:“Mixture”下的點擊是相關或隨機的,而“Examination”下的點擊是相關和examination的。然而,這些模型并不符合我們的數據。我們可以在沒有點擊的情況下找到任何級別的文檔,這是反對隨機點擊假設的證明。
我們可以在(例如)rank 3中找到點擊概率大于0.9的文檔,這是反對檢驗假設的證明。因此,這兩個模型的實現都存在約束問題。作為替代,我們提出了一個簡單的LR模型,表現良好。即使我們允許AND或OR模型的權重有更多的極值,并且修正了任何越界的預測,他們的表現并不比LR模型好。
級聯模型在早期排名中的出色表現,基線模型在較低排名中的不敗表現,提出了兩種結果查看模式。為了比較相鄰配對的點擊水平,基于我們的結果的建議是,如果配對處于最ranks,則簡單地應用級聯模型來校正呈現偏差,并且以未校正的形式使用來自其他ranks的點擊。
顯然可以改進我們的模型,增加更多的參數。例如,cascade模型包含一個關于繼續的假設,即如果用戶不單擊,他們將繼續排名(continue down the ranking.)。這顯然不是真的,有些用戶會放棄結果列表而不點擊,也不查看所有結果。事實上,當用戶瀏覽頁面時,我們可能會發現,由于點擊一個特別好的結果,我們會失去許多用戶;如果點擊一個特別壞的結果,我們會失去許多用戶,因為放棄。然后,一旦用戶點擊,當前的層疊模型就假設他們不在了,因此我們永遠無法觀察到在同一個列表上的多次點擊。如果我們給點擊用戶一些返回結果列表的概率,那么在級聯模型下,可以允許多次點擊的情況,這顯然是真實發生的。
參考文獻:
總結
以上是生活随笔為你收集整理的搜索推荐炼丹笔记:点击位置偏差的经验比较的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搜索推荐炼丹笔记:位置偏差里的惊喜
- 下一篇: 2020年AI领域有哪些让人惊艳的研究?