WWW 2020 | 信息检索中的对话式问题建议
?PaperWeekly 原創 ·?作者|金金
單位|阿里巴巴研究實習生
研究方向|推薦系統
論文標題:
Leading Conversational Search by Suggesting Useful Questions
論文來源:
WWW 2020
論文鏈接:
https://www.microsoft.com/en-us/research/uploads/prod/2020/01/webconf-2020-camera-rosset-et-al.pdf
簡介
本文由微軟 AI 研究院發表于 WWW 2020,當前對話式搜索引擎主要存在兩個挑戰:1. 用戶仍然習慣使用查詢詞而并非自然語言進行搜索;2. 搜索引擎的能力需要超出僅解決當前查詢的問題。
本文提出了對話式問題建議(Conversatioal question suggestion)這一新的方式,幫助用戶通過更接近于對話式檢索的方式,獲得更好的搜索體驗。
本文首先提出了更加合理的評價指標 usefulness 替代 relevance,以衡量建議問題的性能;然后提出了基于 BERT 的排序模型和基于 GPT-2 的生成模型,從而針對當前的查詢生成問題,這些模型在離線的 usefulness 評價和在線的 A/B test 中相比于原來 Bing 上線的系統都有顯著提升。
從相關性到有用性
考慮到對話式問題推薦不僅僅需要保證推薦的問題和當前的查詢之間具有相關性,同時也希望推薦的問題能和用戶下一階段可能構造的查詢詞相契合,從而使得用戶可以通過該功能獲得更好的體驗,作者定義了五種不符合有用性的問題類別如下,用以標注問題的有用性:
Misses Intent:該問題完全和主題不符,或者不是用準確的自然語言進行表達。
Too Specific:問題過于具體,導致能覆蓋的人群較少。
Prequel:問題的答案是用戶已知的內容。
Duplicate with Query:提問和查詢完全重復。
Duplicate with Answer:提問可以被當前查詢中所顯示的結果解答。
問題推薦框架
本文分別提出了基于排序和基于生成的兩種問題推薦框架。前者基于 BERT 模型,將查詢和問題拼接輸入 BERT 模型完成排序,并通過正負樣本對微調模型;而后者基于 GPT-2 模型,通過將查詢作為模型的輸入直接輸出建議的問題,并使用正樣本的最大對數似然訓練的方法微調模型。兩者的公式表達如下:
二者均在以下四個任務上完成訓練:
相關性分類:該任務針對一個具體的“查詢-問題對”判斷它們是否相關,是一個二分類問題。
相關點擊率預測:該任務抽取了同一查詢下,兩個具有點擊率顯著差異的問題(30%以上),目標是模型能準確預測出點擊率更高的問題。
點擊預測:該任務針對一個具體的“查詢-問題對”,判斷在顯示該查詢的情況下,該問題是否會被點擊,是一個二分類問題。該任務可以被認為是該模型的主任務。
用戶搜索軌跡模擬:該部分首先抽取出一些真實搜索引擎中的會話,并借助下一查詢預測任務,使得我們的模型預測下一查詢中的用戶意圖。具體來說 GPT-2 模型直接根據之前的查詢生成下一查詢,而 BERT 模型則對最可能出現的模型進行排序篩選。
實驗
本文首先對比了僅使用當前的在線系統 online,僅使用主任務訓練模型和完整的模型,可以看到僅使用主任務對模型訓練兩種方法均不如當前的在線系統,而完整的模型則大大提升了問題建議的用戶滿意度。
而通過在線的 A/B test 測試,發現提出的模型在真實的 Bing 搜索引擎上上線后,問題的點擊率上升了 6.4%-8.9%,直接證明了模型的有效性。
結論
本文首先提出了對話式問題建議(Conversatioal question suggestion)這一新的方式,幫助用戶獲得更好的搜索體驗。本文此后提出了更加合理的評價指標 usefulness 替代 relevance,以衡量建議問題的性能。
然后提出了基于 BERT 的排序模型和基于 GPT-2 的生成模型,從而針對當前的查詢檢索或生成建議的問題,這些模型在離線的 usefulness 評價和在線的 A/B test 中相比于原來 Bing 的在線系統都有顯著提升,證明了模型的有效性。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的WWW 2020 | 信息检索中的对话式问题建议的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么iso开机启动u盘装系统教程 制作U
- 下一篇: 最会买 2.10 上架,抖音商城返利、全