WWW 2021 | 通过强化学习控制对话式检索的风险
?PaperWeekly 原創(chuàng) ·?作者|金金
單位|阿里巴巴研究實(shí)習(xí)生
研究方向|推薦系統(tǒng)
本文由猶他大學(xué)發(fā)表于 WWW 2021。考慮到當(dāng)前的對話式系統(tǒng)可能由于提出一些不好的澄清式問題,導(dǎo)致用戶擁有不好的搜索的體驗(yàn),本文作者提出了一種基于強(qiáng)化學(xué)習(xí)的 agent,來判斷基于當(dāng)前的狀態(tài),系統(tǒng)應(yīng)該向用戶返回澄清式問題還是結(jié)果。
論文標(biāo)題:
Controlling the Risk of Conversational Search via Reinforcement Learning
論文鏈接:
https://arxiv.org/abs/2101.06327
模型
該模型主要包括問題/答案重排序網(wǎng)絡(luò)、決策網(wǎng)絡(luò)以及他們的訓(xùn)練方法,具體來說,該模型首先根據(jù)當(dāng)前對話的上下文信息,對候選的澄清式問題集合和候選答案集合中所有的元素給出匹配分?jǐn)?shù),因?yàn)楸疚南M?yàn)證提出的 agent 在各類的匹配網(wǎng)絡(luò)上,都能做出較好的決策,所以主要考慮了 Bi-encoder(分別建模上下文和候選,并通過內(nèi)積得到相關(guān)性分?jǐn)?shù))和 poly-encoder(一種快速且交互式的相關(guān)性編碼器)兩種模型來實(shí)現(xiàn)重排序。
生成候選集合的排序分?jǐn)?shù)后,作者通過一個(gè) DQN 的網(wǎng)絡(luò),將上下文信息和候選集合信息所生成的 embedding 以及重排序分?jǐn)?shù)作為輸入,分別計(jì)算提出問題和給出答案的預(yù)測 reward,具體來說,該網(wǎng)絡(luò)通過了一個(gè)兩層的前向傳輸層,并考慮到輸出是 reward 而不是分類結(jié)果,故最后一層沒有使用激活函數(shù)。
在訓(xùn)練階段,作者使用二元的 cross-entropy loss 來訓(xùn)練重排序模型,并通過 MSE loss 計(jì)算真實(shí) reward 和預(yù)測 reward 之間的差距。具體來說,作者使用結(jié)果列表的 MRR 為選擇返回的 reward,而如果選擇提問,提出一個(gè)好的問題則給定一個(gè)固定的獎勵,而提出一個(gè)差的問題則給出一個(gè)固定的懲罰,由此訓(xùn)練 DQN 網(wǎng)絡(luò),使其能夠盡量好的作出決策。
實(shí)驗(yàn)
本文的實(shí)驗(yàn)在 MSDialog 數(shù)據(jù)集上進(jìn)行,作者比較了 3 種固定的策略(即固定提出 0-2 個(gè)澄清式問題),以及一個(gè)簡單的分類方法。選擇的評價(jià)指標(biāo)是候選答案排在第一位的比例(Recall@1),候選列表的 MRR 以及作出錯(cuò)誤決策的比例(Decision Error),并考慮了用戶能忍受的最多錯(cuò)誤問題數(shù),實(shí)驗(yàn)結(jié)果如下:
可以看到,當(dāng)我們使用 poly-encoder 這種更加好的匹配網(wǎng)絡(luò)時(shí),我們的模型都顯著更好,雖然有一項(xiàng)上 MRR 略低,但是 MRR 指標(biāo)更偏向于不提出澄清式問題,并不能作為主要的評價(jià)指標(biāo)。而當(dāng)我們使用較差的匹配網(wǎng)絡(luò)時(shí),可以看到用戶容忍度較高的情況下,固定提出一個(gè)問題效果較好,這是因?yàn)樵撃P椭饕谔岢?0-1 個(gè)問題之間權(quán)衡,而在該條件下,不提出問題的效果太差(即 Q0A),一定程度上可以解釋本文模型效果略低于提出一個(gè)問題。
結(jié)論
在本文中,作者列出了在對話搜索中向用戶提出澄清問題的風(fēng)險(xiǎn)。本文提出了一種考慮風(fēng)險(xiǎn)的對話代理,該代理通過綜合評估和比較在提出澄清問題和回答用戶的詢問之間做出決策。在訓(xùn)練時(shí),作者提出強(qiáng)化學(xué)習(xí)來訓(xùn)練,而無需何時(shí)提出澄清問題以及何時(shí)向用戶提供答案的標(biāo)注數(shù)據(jù)。通過使用不同用戶模型的模擬實(shí)驗(yàn),作者證明了該代理可以在與檢索系統(tǒng)進(jìn)行交互時(shí)提高回答質(zhì)量和用戶體驗(yàn)。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的WWW 2021 | 通过强化学习控制对话式检索的风险的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 戴尔xps怎么装系统 戴尔XPS电脑系统
- 下一篇: iso解压后的系统文件怎么安装系统 is