SIGIR 2019 eBay高精度召回任务挑战赛冠军团队DeepBlueAI技术分享
作者丨羅志鵬
單位丨深蘭北京AI研發中心
近日,SIGIR 2019 eBay 數據挑戰賽結果出爐,這次賽題是 eBay 搜索集團組織的高精度召回任務。由來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲冠軍,本文帶來該團隊在競賽中技術細節分享。
背景介紹
ACM SIGIR 是國際計算機學會主辦的信息檢索領域的最重要學術會議。SIGIR 專注于信息存儲、檢索和傳播的各個方面,包括研究戰略、輸出方案和系統評估。今年, 第 42 屆 SIGIR 會議于 2019 年 7 月 21 日至 25 日在法國巴黎舉行。
團隊成績
在 eBay SIGIR 2019 電子商務搜索挑戰——高精度召回任務中,DeepBlueAI 團隊榮獲冠軍,排名如下:
?
?
賽題介紹
本次比賽是由 eBay 搜索組組織的高精度召回任務。本次挑戰針對的是電子商務搜索中的常見問題:展示非相關性排序時要顯示的項目。用戶通常按非相關性的維度進行排序,例如流行度、評論得分、價格等。
本次比賽的重點在于:使用非相關性排序時找到應該召回的內容。比賽數據集包括大約 90 萬條來自 eBay 收藏類別中的特定字段,以及與收藏類別相關的 150 個熱門搜索查詢短語。每條數據帶有商品標題,價格,分類目錄和相應圖像網址的 URL。參賽選手要合理運用數據集材料,來判斷查詢短語和文檔是否相關。
評測指標
使用 150 個查詢短語的平均 F1-score 作為本次競賽的主要性能指標。得分越高代表模型性能越好。
題目特點
在這次比賽中,主要有以下難點:
1. 數據量大
原始數據集共約 90 萬字段,150 個查詢短語,兩兩組合即要預測約 1 億 3 千萬個 (document, query) 對是否相關。
2. 匹配難度大
給定的 query 長度短,一般為 2-3 個專業性英文單詞,最長的不超過 6 個詞,匹配難度較大,對建模挑戰較大。
3. 訓練集小,調優難
在約 1 億 3 千萬條 (document, query) 中只有 6 萬余條數據作為訓練集,其余部分全部需要給出預測結果。此外,150 個 query 中每個 query 的訓練集數據量差異很大,需要對 average-f1 指標進行優化處理。
特征工程
我們通過 LightGBM 模型來驗證特征效果。特征分三部分構成,第一部分是對 query 做基礎屬性特征;第二部分是對商品做基礎屬性特征;第三部分就是對 query 與商品做組合特征。
在所有的特征當中,query 與 title 的句向量以及在句向量的基礎上再做的特征對效果影響較大。我們針對這點嘗試了不同的文本,單詞處理方法與不同的詞向量訓練方法去生成 query 與 title 的句向量。
query基礎屬性特征
query 單詞的個數,query 數字的個數;
query 的形容詞占比與名詞占比;
query 的語義向量。
商品基礎屬性特征
title 單詞的個數,title 數字的個數;
title 的形容詞占比與名詞占比;
商品類別的 hash 值(5 列),商品類別是逐級遞減的,最多 5 級,下一個類別是上一個的子集;
最后一列商品類別的 hash 值;
最后一列商品類別的 value_counts;
價格分箱,一個查詢可能搜索出價格差異較大的兩個商品,價格分箱能體現出這兩個商品的差異;相比直接把價格做特征,價格分箱能把兩個價格相近的商品歸為一類。下圖是商品的價格分布,可以看出價格分布差異較大,而做完價格分箱后,能弱化這種差異,價格分布都很集中。
查詢關鍵詞與商品組合特征
title 句向量與 query 句向量的差值與點積;
title 句向量與 query 句向量的的相似度,相似度計算包括 cosine, cityblock, canberra;
query 單詞與 cate 單詞相同的個數;query 單詞與 title 單詞相同的個數;
使用 fuzzywuzzy 計算字符的編輯距離;使用 fuzzywuzzy 計算單詞的編輯距離;
title 單詞數與 query 單詞數的差值與比值;
價格分箱針對 query,與直接用價格分箱相比,對每個 query 分別做分箱,能使每個 query 的價格分箱互不干擾;
BM25 計算 query 與 title 的相關性分數。BM25 算法通常用來作搜索相關性評分。其主要思想為:對 query 進行語素解析,生成語素 qi;然后,對于每個商品 title D,計算每個語素 qi 與 D 的相關性得分,最后,將 qi 相對于 D 的相關性得分進行加權求和,從而得到 Query 與 D 的相關性得分。
BM25 算法的一般性公式如下:
不同的單詞文本預處理方法
把句子里的標點與分隔符去掉,并轉成小寫;
把句子里的標點與分隔符去掉,提取詞干并轉成小寫;
不去特殊字符,直接用空格分隔,轉成小寫。
句向量的生成
用預處理好的 title 與 query 訓練使用 word2vec 來生成詞向量,然后生成句向量,雖然總語料庫數據量小,但是使用它們訓練得出的詞向量更能體現出該數據的特性,同時也能覆蓋到更多的詞;
用 google 已經預訓練好的詞向量來生成句向量。
實驗模型
在本次比賽中,我們實驗了幾種經典的文本相似度匹配、自然語言推理模型,包括 CNN, BiGRU,decomposable attention, ESIM 等,其中效果最好的是 ESIM。
我們最好的單模型是在 ESIM 中引入我們構造的特征,這部分特征我們稱做? dense feature。
在實驗中發現把 dense feature 和 nn 模型某一層直接 concat 的效果并不好,我們參考了 product neural network 概念以及 LSTM 中的 Gate 設計,我們把 dense feature 做為 gate 來使用,使用中我們把 dense feature 經過全連接層得到和子模型維度一樣的表示向量,然后加上 sigmoid 激活函數,再進行 element-wise-multiplication,這樣 dense feature 就可以控制子模型的信息流通,通過實驗發現這樣的結構在各個子模型上都能夠得到較大提升。
優化后的 Gate-ESIM 模型結構如下:
效果優化
考慮到不同的 query 的訓練數據量和分布都有些不同,并不一定都使用 0.5 作為正負例的劃分閾值。所以我們可以調整每個 query 預測出來概率的正負例劃分閾值,來優化 Average F1-Score。
相對于測試集,訓練集的數量較少,為了讓調整閾值后的結果更穩定,我們選擇對訓練集進行 10 折交叉驗證,每折用 10 個不同的種子分別訓練得到 10 個模型,然后把預測結果取平均。同樣,對測試集預測時,用全量訓練集用 10 個不同的種子分別訓練得到 10 個模型,然后預測結果取平均。
在搜索閾值時,我們以優化 10 折交叉驗證結果上的得分為目標。之后將 10 折交叉驗證上搜到的閾值用于測試集。并且考慮到訓練集中有些 query 數量較少,二分類的閾值微調后對驗證集的分數會影響很大,所以我們選擇只對訓練集中樣例數大于 120 的 query 調整閾值,數量約為整體的 81.3%。
這種優化方法雖然會在本地數據集上出現輕微的過擬合,但線上測試集也得到的較大提升,對我們后期的提分也是至關重要的。
?
實驗結果
▲?注: local最好的結果E沒有來得及提交
?
從實驗結果來看基于我們構造的特征的 LightGBM 模型在 Ave-F1 指標上也取得了 0.7521 的成績,也能在榜單中排名前列,證明我們在特征工程上做了很多有效的特征。
經過參數調優的 ESIM [1] 模型在 Ave-F1 指標上也取得了非常好的效果,同時我們通過初始化預訓練詞向量和采用門限機制的 Gate-ESIM 的效果得到進一步提升。我們使用多種子 10 折交叉驗證的方法在 local 搜索閾值對 Ave-F1 進行調優,經過這一步優化后的結果線上成績達到 0.7731,提升非常明顯。
最后我們對 Decomposable AttentionModel [2] 模型也進行了優化,最后和優化后的 Gate-ESIM 模型進行融合,在 local 效果上再次提升了千分之 5 左右,因結束時間理解有誤未能提交到線上。
?
Poster
工作總結
提出了一種用 dense feature 做 gate 的網絡結構,使得原有的模型得到較大提升;
對正負例劃分閾值進行優化來提升評測指標效果。我們采用在 local 結果上進行閾值搜索的方式來優化評測指標,為了使得搜索到的閾值更穩定可靠,我們采用 10 折交叉驗證并結合多 seed 的方式獲取 local 預測結果,并且只在那些有不低于 120 個樣本的 query 下進行閾值搜索;
構造豐富的基于 query,商品以及 query-商品對的特征;
使用不同的預處理方法構造特征,加強了特征表達。
進一步工作
嘗試利用商品的圖像信息;
對 query 和 doc 進行數據增強,增加更多訓練樣本;
對 query 進行擴展;
使用 BERT 進行 Fine-tune。
參考文獻
[1] Chen, Qian, et al. "Enhanced LSTM for Natural Language Inference." ACL. 2017.
[2] Parikh, Ankur, et al. "A DecomposableAttention Model for Natural Language Inference." EMNLP. 2016.
點擊以下標題查看更多往期內容:?
圖神經網絡綜述:模型與應用
ACL 2019 | 基于知識增強的語言表示模型
ACL 2019 | 基于上下文感知的向量優化
基于小樣本學習的意圖識別冷啟動
復旦大學邱錫鵬:詞法、句法分析研究進展綜述
ACL 2019?| 句對匹配的樣本選擇偏差與去偏方法
深度長文:NLP的巨人肩膀(上)
NLP 的巨人肩膀(下):從 CoVe 到 BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的SIGIR 2019 eBay高精度召回任务挑战赛冠军团队DeepBlueAI技术分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最后9个名额丨知识图谱理论与实战(线下集
- 下一篇: 复旦大学肖仰华教授:知识图谱落地的基本原