全球400多支团队参加,鹅厂是如何拿下冠军的
來自中國、美國、新加坡、日本、印度等國家的400多支頂級團隊參加了今年 WSDM Cup大賽,騰訊拿下兩大子賽道冠軍。
ACM 國際 WSDM(Web Search and Data Mining) 會議是信息檢索領域頂級會議之一。
今年,第16 屆 ACM 國際 WSDM 會議的論文的接收率為17.8%。WSDM Cup由 WSDM 會議舉辦,本次大賽共設置三個賽道:無偏排序學習和互聯網搜索預訓練模型賽道、跨語言連續體的多語言信息檢索賽道和視覺問答挑戰賽道。
在騰訊太極機器學習平臺和混元AI大模型助力下,騰訊機器學習搜索團隊(參賽隊名:騰訊機平搜索團隊(TMLPS))參加了無偏排序學習和互聯網搜索預訓練模型賽道,并在該賽道的兩項子任務中(“Pre-training for Web Search”和“Unbiased Learning to Rank”)雙雙奪冠。與此同時,相關技術也廣泛應用于微信搜一搜、騰訊廣告等多個產品,取得了顯著的業務收益。
我們是如何做到的?
任務介紹
1.1 數據集簡介
-
大型會話搜索數據集[1]
數據是主辦方提供的搜索會話(Session)數據, 涉及到約3.8億query及12億的document。全數據經過脫敏處理,內容不具有可讀性。Session數據中包含:1)記錄了頁面表現特征(文檔媒體類型、文檔展現高度和標題與摘要等)的候選文檔列表 (通常少于10個);2)當前Session 下的用戶行為特征(點擊、停留時長和滑屏次數等)。
具體該數據集所記錄的所有特征展現如下圖所示:
圖左: Session數據中的頁面文檔表現特征。從 D1 到 D8 共有 8 個表現特征。
圖右: Session數據中用戶行為特征。從 U1 到 U18 共有 18 種用戶行為。
下圖從不同的角度展示對該數據集的分析。
Session數據的數據分析
-
專家標注數據集
專家標注數據集從Session數據隨機抽取,每個文檔與query的相關性由標注人員判斷標注。每個文檔根據相關性的強弱被標注為 5 個等級。表1-1 展示了每個等級文檔的比例分布。表1-1 不同等級文檔的數量以及所占比例
在本次比賽中,該數據集一共被分為了三份。一份用于驗證集,一份用于比賽第一階段測試集,最后一份用于比賽第二階段的測試集。
1.2 任務描述
-
Pre-training for Web Search
預訓練技術在深度學習中得到了廣泛的運用。目前主流的預訓練方式主要基于自然語言處理,學習給定語料中的語言建模能力,例如masking token prediction任務與next sentence prediction任務。然而這樣的預訓練并非與搜索排序相關,在預訓練任務中引入搜索排序相關的任務使得模型更加貼近于下游任務成了搜索預訓練研究中重要的課題。此任務中,參賽者需要在給定中大型搜索日志中進行搜索排序相關的預訓練,并結合專家標注數據進行模型微調,產出一個有效地搜索排序模型。
-
Unbiased Learning to Rank
點擊日志能提供大量的查詢-文檔相關性反饋,然而用戶的點擊信號通常存在很多噪音(bias),主要來源于諸如位置、展現形式、網頁權威度、點擊必要性等因素的影響。為了消除點擊數據中潛在的噪音,無偏排序學習(Unbiased Learning to Rank,ULTR) 得到了廣泛的研究。在此任務中,參賽者僅可利用大型搜索日志(不能使用專家標注數據),通過文章內容、展現特征、用戶交互行為特征等因素進行無偏排序學習訓練。
1.3 評測指標
本次比賽采用折損累積收益 (DCG) 用于評估排名模型的性能。對于𝑁 個已經排好順訊的文檔列表,DCG計算公式為:
Pre-training for Web Search賽道解決方案
2.1 整體方案
圖2-1 預訓練賽道中的四階段訓練策略
在此任務中,我們旨在通過點擊日志進行語言模型預訓練與專家標注數據微調解決搜索排序任務。由于全數據經過脫敏處理,我們需要從隨機參數模型進行預訓練到微調的完整步驟。方案整體為以下四個階段:
-
階段1——CTR任務預訓練:
首先,我們通過語言建模任務masking language modeling (MLM)與CTR預估任務進行預訓練。在MLM任務中,使用官方提供的unigram_dict.txt文件進行詞組匹配,通過whole word masking的方式對掩碼進行預測,實現語言建模能力。與此同時,我們構建了一種group-wise CTR 預估訓練方式。一個大小為K的group包含了一個點擊文檔作為正例,與K-1的非點擊文檔作為負例。與基于完整文檔列表的point-wise訓練方式相比,group-wise訓練方式通過點擊文檔與非點擊文檔之間的對比學習,更好地保證了點擊文檔的相關性要比非點擊文檔的相關性要高,進而提升了排序任務的效果。(point-wise預訓練模型的效果約為DCG@10約為7.68,groupwise預訓練模型的效果約為DCG@10約為8.69)
-
階段2——基于用戶行為特征進行去噪預訓練:
為了更好地減少預訓練期間點擊噪音的影響,我們利用用戶行為特征來完善階段1的預訓練目標。具體來說,通過用戶在每個點擊文檔上的停留時間來過濾階段1中的訓練組,要求點擊文檔的停留時間應比其他未點擊文檔長于一個給定閾值𝜖。通過數據過濾,進而通過group-wise CTR prediction的任務進行預訓練。這樣訓練樣本質量更好,點擊的文檔更有可能是一個真實正樣本,進一步地優化了模型的排序效果。
-
階段3——專家標注數據微調:
在預訓練完成后,我們使用專家標注數據集微調模型,其中每個候選文檔都標記有五級相關性。我們使用margin ranking loss來微調我們的模型。其中𝑑+是從相關性大于或等于2的文檔中采樣,𝑑?是從相關性低于𝑑+的文檔中采樣。margin在我們的工作中設置為 1。微調模型前DCG@10約為9.1,微調后模型DCG@10約為11.3~11.9。
-
階段4——集成學習:
表2-1:額外引入的排序學習特征
為了進一步提升模型的排序效果,我們使用了多個BERT ranker的分數與表2-1中的排序特征作為LambdaMart的輸入進行集成學習。由于在人工標注數據上對LambdaMart進行訓練,缺少可調參的數據集。我們采用五折交叉驗證的方式,確定LambdaMart的參數設置,進而計算測試集上的文檔的相關性分數。集成學習后,模型效果由DCG@10=11.9提升到12.16。
2.2 實驗結果
表2-2:預訓練BERT模型的效果
圖2-2:集成學習中各種特征的重要性分數
我們列出了每個預訓練BERT模型的效果與集成學習中的特征重要性分數,可以發現使用大模型(BERT-24層)能比BERT-12層有效地提升排序效果;同時,基于用戶行為特征的debiased pre-training model能有效地減少點擊噪聲的影響,進而提升最終排序效果。
Unbiased Learning for Web Search 賽道解決方案
3.1 整體方案
圖3-1 經典基于PBM假設的方法與我們所提出方法的總體框架對比
如圖 3-1(a) 所示,業界[3,4]常采用基于 Position-based Model(PBM)[2]假設的方法對訓練 unbias learning to rank (ULTR) 模型。PBM的基本假設是:
換言之,PBM 認為 document (文檔,以下簡稱doc) 只有在該 doc 被用戶檢驗并且它與用戶輸入的 query 相關時才會被點擊。如圖3-1(a) 所示,大多數 PBM-based 方法在預測檢驗偏置項時,只考慮了位置信息。即,這些方法認為 doc 被用戶檢驗的概率只與它排序的位置 (position) 有關 (排名靠前則更容易被用戶看到)。然而,用戶檢驗 doc 的步驟通常可以分為兩步:
- 首先用戶需要能夠觀察到該文檔;
- 在觀察到文檔的基礎上用戶根據doc的表現形式來感知 query 與 doc 之間的相關性,如果用戶覺得相關的話,就會進行點擊。
在第一步中,doc 的排序位置確實對用戶能否觀察到該 doc 造成極大影響。但是在用戶感知 doc 相關性時,位置的影響微乎其微,而包括 doc 的媒體類型(media type,以下簡稱mType)、doc 在搜索頁面的展示高度 (以下簡稱serpH) 以及 doc 摘要中的 term 命中 query 中關鍵 term 的次數等 doc 在表現形式上的差異都對用戶感知 doc 相關性造成關鍵性的影響。
因此我們提出了一種用于去除檢驗偏置 (包含感知偏置在內) 的多特征集成模型。模型的總體框架如圖3-1 (b) 所示,它與圖 3-1 (a) 有三個不同之處:
- 在 examination-bias model 中除了依賴于位置偏置之外。我們還可以集成包括 mType、serpH、slipoff count (點擊后用戶的滑屏次數)。其中,mType 與 serpH 代表著顯式的文檔表示形式差異特征對檢驗偏置中用戶感知偏置的影響。這些顯式的特征在實際應用中需要根據搜索場景的不同而進行調整。而 slipoff count 則表示隱式的用戶反饋特征。由于當用戶因為感知錯誤而點進對應 doc 時,他很快能根據文檔的內容判斷 doc 的不相關性,一般也就不會進行滑屏而直接退出文檔。因此,加入用戶的隱式反饋作為 examination-bias model 估算檢驗偏置的依據是十分有必要的。同時,這種隱式反饋特征可以在任何搜索場景估算檢驗偏置時適用;
- 由于在 examination-bias model 中集成了多種特征,所以我們適當的增加了它全連接層的深度(1層 --> 5層)。此外,BatchNorm (BN) 的引入對于加速模型的收斂起到了至關重要的作用;
- 相比于圖 3-1(a),我們還引入了一個實用的 trick ,即 Group Selection Layer,它等價于Pre-training 賽道所使用的 group-wise 預訓練方式,在本次任務中起到了很好的效果。
除以上三點之外,relevance model 側使用 pre-training 任務中預訓練的模型參數作為熱啟動也是一個關鍵點。如果不做熱啟動, examination-bias model 和 relevance model 的初始預測值都比較差,極大地加大了模型初始的訓練難度,并且兩側模型存在相互誤導的風險。實驗中,做熱啟動與否的 DCG@10 相差 0.8 左右,并且不做熱啟動的模型收斂時間是做了熱啟動的模型的三倍。
3.2 實驗結果
如表 3-1 所示,我們測試了不同特征組合下,模型的性能變化。可以觀察到在位置特征的基礎上,引入 doc 的表現形式特征以及用戶行為特征能夠在 PBM-based 模型的基礎上有效的提升模型的性能。
表3-1 使用不同特征時,模型的性能變化
此外,如表 3-2 所示,我們還測試了不同超參數設置下,模型性能的變化趨勢。經過參數搜索,在當前任務中,將 examination-bias model 的層數設置為 5 層,同時將 group size 參數設置為 6 時,模型性能最佳。
表3-2 不同超參數下,模型的性能變化(L代表層數,G代表訓練組大小)
總結與展望
4.1 Pre-training for Web Search
點擊日志是預訓練搜索排序任務的寶貴資源, 在該任務中我們總結了以下方法可以有效地提升排序效果:
- Group-wise CTR prediction任務比Point-wise CTR prediction任務更好地提升排序效果。
- Whole word masking在中文任務上能進一步提升語言建模能力。
- 通過用戶行為特征對點擊數據進行清洗過濾,可以使得模型學習到更為可靠的相關性關系,進而提升模型效果。
- 使用大模型在cross-encoder的結構上,能有效地提升相關性排序效果。
4.2 Unbiased Learning to Rank
在該任務中我們重點探索了以下兩點:
- 提出了一個能夠借助更多上下文特征(用戶行為特征與文檔表現形式特征) 的多特征集成框架以更好的對點擊數據進行去偏,驗證了多種不同類特征在提升模型去偏能力上的效果。
- 工作過程中發現,并不是加入越多的去偏特征模型的性能就會越好,特征過多反而會導致模型學習的難度變大、收斂更慢。實際應用中,需要通過實驗合理地選擇特征、表征特征以進行標簽去噪。
比賽鏈接:Unbiased Learning to Rank and Pre-training for Web Search
比賽完整代碼與論文:GitHub - lixsh6/Tencent_wsdm_cup2023
總結
以上是生活随笔為你收集整理的全球400多支团队参加,鹅厂是如何拿下冠军的的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度地图汽车物流数智化应用方案,推进整车
- 下一篇: 漫画告诉你:区块链到底是什么?