让聊天机器人同你聊得更带劲 - 对话策略学习 | 论文访谈间 #21
「論文訪談間」是由 PaperWeekly 和中國中文信息學會青工委聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。?這是第 21?期「論文訪談間」
論文作者 |?宋皓宇,張偉男,劉挺
(哈爾濱工業大學,社會計算與信息檢索研究中心)
特約記者 | 曾愛玲(香港中文大學)
構建開放域聊天機器人的一個主要任務就是進行多輪對話,得到一個更好的多輪對話策略對于人機對話系統有著很多積極的意義。而目前的神經網絡對話生成模型在多輪對話過程中存在著容易產生萬能回復、沒有考慮多輪對話的整體走向之類的問題。
針對這些問題,本文引入了深度強化學習的 DQN(Deep Q-Network)算法進行開放域的多輪對話策略學習,該策略使得每一輪的回復都更加有利于多輪對話的進行,減少萬能回復的生成以及產生質量更高的多輪對話。?
所謂的“萬能回復”,是指那些看似能夠回復任何輸入但卻沒有實際意義、不利于對話過程持續進行的句子。萬能回復跟訓練語料密切相關,通常出現頻率較高,典型的萬能回復比如英文 OpenSubtitles 語料上的“I don’t know”以及中文微博語料上的“哈哈哈哈”等。
對話生成任務中以 seq2seq 模型為代表的端到端生成方式基于極大似然估計,每次得到的回復都是生成概率最大的句子,這就導致了萬能回復非常容易被選中。
△?圖1:生成萬能回復的例子
開放域多輪對話的一個重要目標就是盡可能聊得更久。開放域多輪對話中每一輪回復的選擇,不僅需要考慮是否能夠有效回復當前輸入,更需要考慮是否有利于對話過程的持續進行。
本文通過 DQN 對當前對話狀態下每一句回復進行評估,每次選擇具有最大累計價值而不僅僅是生成概率最高的句子,利用強化學習最大化未來累計獎勵的特點,建模多輪對話的過程,使得當前回復有利于對話過程的持續進行,以緩解多輪對話過程中容易出現的生成大量萬能回復以及很快陷入死循環的問題。
△?圖2:DQN提供了黑盒的功能
本文參考 Sutskever et al. (2014) [1] 以及 Vinyals et al. (2015) [2]?實現了 seq2seq 模型,同時在訓練過程中加入了注意力機制和 dropout 機制。在得到基礎的回復生成模型后,可以通過模擬對話的方式來檢驗該模型能否有效進行多輪對話。
此外,因為句子是變長和離散的,不利于進一步處理,所以本文借鑒自編碼的思想,使用自編碼器來獲得關于句子的固定維度向量表示。?
接下來介紹使用強化學習模型建模多輪對話過程:?
代理(Agent)的主要作用是根據環境更新的狀態s選擇動作a,這部分的主體是通過 DQN 算法訓練得到的深度價值網絡。深度價值網絡對于給定的狀態 s 和動作 a,估計出一個價值 Q ( s, a ),然后選擇價值最大的那個動作。?
環境(Environment)的主要作用是接受代理選擇的動作 a(也就是句子),根據這個句子更新狀態 s,并根據獎勵函數計算這個動作得到的獎勵 r。環境的主體部分是訓練好的自編碼器,將輸入句子編碼為特征向量從而表示狀態s。?
轉移概率在對話過程中不需要定義,因為狀態的轉移依賴于模擬對話過程。 獎勵函數(Reward)的作用是引導對話向輪數更多、信息更豐富、無聊回復更少的方向進行。從這個角度出發,獎勵定義為選擇一個動作后得到的即時獎勵,通過生成概率、互信息以及句子間余弦相似度的方式進行定量計算。
△?圖3:本文實驗的整體結構
DQN 系列算法提供了更新價值估計的有效方法,經過漫長的迭代計算后,通過深度價值網絡進行的估值漸漸逼近了真實價值。?
實驗數據方面,本文使用新浪微博對話語料 (Shang et al. 2015) [3],每一對對話數據分別來自微博的正文和這條微博下面的評論,這樣一組博文-評論對就近似構成了一組對話對,該數據集總共有約 110 萬組這樣的對話對。?
實驗結果方面,下面表 1、表 2 給出了一些直觀的結果展示。可以看到,通過 DQN 引入多輪對話策略后,模擬對話的質量有了明顯的提升。具體如下所示:
△?表1:DQN和Baseline單輪對話對比
△?表2:DQN和Baseline多輪對話對比
評價指標方面,對于多輪對話的實驗結果,本文參考 Li et al. (2016) [4] 的方法,使用以下兩個客觀指標進行評價:1. 平均對話輪數。2. 多樣性。
本文還進行了主觀的對比評價:給定相同的輸入,本文的 DQN 模型和基礎模型獨立進行單輪回復生成以及進行模擬對話,然后由與實驗無關的評價者主觀對比二者的質量。對于多輪對話,總共收到 600 組對比打分。?
主觀指標方面,基于 DQN 的對話策略在多輪對話上優于基礎模型的比例達到了 68.3%。?
客觀指標方面,引入 DQN 學習多輪對話策略后,模擬對話的平均對話輪數由 2.51 輪提高到了 4.56 輪。
對話作者
我們的創新之處在于,將 DQN 應用于對話策略的學習過程中,使用獨立的深度神經網絡對每一句候選回復的未來收益進行評估,從而得到一個有利于多輪對話持續進行的對話策略。而實驗結果也表明,通過 DQN 方法得到的多輪對話策略有效提高了多輪對話的多樣性、平均輪數和對話質量。
我們的后續工作將著眼于將 DQN 用于 seq2seq 模型的訓練過程,使用深度價值網絡來估計訓練過程中的損失,使得訓練損失帶有更多的信息,從更細粒度上提高生成句子的質量。
此外,如何更加全面的評價對話結果也是一個值得研究的問題。
參考文獻
[1] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learn-ing with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.
[2] Vinyals O, Le Q. A neural conversational model[J]. arXiv preprint, 2015, arXiv:1506.05869.
[3] Shang L, Lu Z, Li H. Neural responding machine for short-text conversation[J]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015, pages 1577–1586.
[4] Li J, Monroe W, Ritter A, et al. Deep Reinforcement Learning for Dialogue Generation[J]. Proceedings of the 2016 Con-ference on Empirical Methods in Natural Language Pro-cessing, 2016, pages 1192–1202.
關于中國中文信息學會青工委
中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的让聊天机器人同你聊得更带劲 - 对话策略学习 | 论文访谈间 #21的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 评测任务实战:中文文本分类技术实践与分享
- 下一篇: 大家心目中的这些「优质」论文,你读过几篇