IJCAI 2018:中科院计算所:增强对话生成一致性的序列到序列模型
IJCAI 2018:中科院計(jì)算所:增強(qiáng)對(duì)話生成一致性的序列到序列模型
你和“懂AI”之間,只差了一篇論文
號(hào)外!又一撥頂會(huì)論文干貨來(lái)襲!
2018年6月9-10日,代表學(xué)術(shù)界和工業(yè)界的頂級(jí)交流盛會(huì)——由中國(guó)中文信息學(xué)會(huì)青年工作委員會(huì)和百度公司聯(lián)合舉辦的【“ALS2018(ACL、IJCAI、AIGIR)論文預(yù)講會(huì)”】在北京盛大舉行。兩天時(shí)間內(nèi),來(lái)自“情感分析”“推薦系統(tǒng)”“機(jī)器問(wèn)答”“對(duì)話系統(tǒng)”等不同主題的頂級(jí)會(huì)議論文報(bào)告匯聚一堂,英雄相惜,華山論劍。
據(jù)芯君了解,本次預(yù)講會(huì)在學(xué)術(shù)圈的火爆程度完全超出了主辦方的想象,開(kāi)放報(bào)名的短短幾天就全面滿額了,以至于主辦方不得不設(shè)定條件篩選參會(huì)者。
讀芯君作為本次預(yù)講會(huì)的活動(dòng)媒體,將全程跟隨大會(huì),為大家全程紀(jì)錄活動(dòng)中最前沿的觀點(diǎn),最有價(jià)值的成果,并特邀預(yù)講會(huì)論文報(bào)告者聯(lián)合為讀者朋友們推出預(yù)講會(huì)系列組文,向你展示頂會(huì)最新論文成果。
讀芯術(shù)讀者論文交流群,請(qǐng)加小編微信號(hào):zhizhizhuji。等你。
這是讀芯術(shù)解讀的第56篇論文
作者:張海楠,蘭艷艷,郭嘉豐,徐君,程學(xué)旗IJCAI 2018增強(qiáng)對(duì)話生成一致性的序列到序列模型Reinforcing Coherence for Sequence to Sequence Model in Dialogue Generation中國(guó)科學(xué)院計(jì)算所Institute of Computing Technology,Chinese Academy of Sciences【摘要】序列到序列模型(Seq2Seq)的方法在對(duì)話生成領(lǐng)域獲得了高度關(guān)注。但目前存在一個(gè)嚴(yán)重的問(wèn)題就是大多數(shù)現(xiàn)有的基于Seq2Seq的模型傾向于產(chǎn)生缺乏具體含義的通用回復(fù)。我們分析主要是因?yàn)镾eq2Seq相當(dāng)于優(yōu)化Kullback-Leibler(KL)距離,因此它不懲罰那些生成概率高、真實(shí)概率低的句子。然而,真實(shí)的概率是未知的,構(gòu)成了解決這個(gè)問(wèn)題的挑戰(zhàn)。我們考慮可以使用post和response一致性(即相似性)來(lái)近似真實(shí)概率,并統(tǒng)計(jì)了一致性分?jǐn)?shù)與人工打分的關(guān)系,發(fā)現(xiàn)二者呈正比關(guān)系。因此我們將一致性分?jǐn)?shù)作為獎(jiǎng)勵(lì),加入到強(qiáng)化學(xué)習(xí)框架中,懲罰那些生成概率高但是真實(shí)概率低的句子。本文提出了三種不同類(lèi)型的一致性函數(shù),包括unlearned的相似性函數(shù),預(yù)訓(xùn)練的語(yǔ)義匹配函數(shù),以及端到端的對(duì)偶學(xué)習(xí)模型。實(shí)驗(yàn)在中文的微博數(shù)據(jù)集和英文的電影字幕數(shù)據(jù)集上均顯示本文的模型可以產(chǎn)生更具體和更有意義的回復(fù),無(wú)論在自動(dòng)評(píng)價(jià)指標(biāo)和人工評(píng)價(jià)兩方面,本文的模型均好于Seq2Seq模型及其變種。
1 介紹本文重點(diǎn)討論單輪對(duì)話生成問(wèn)題,根據(jù)Post,可以自動(dòng)生成適當(dāng)?shù)幕貜?fù)Response。大多數(shù)現(xiàn)有的神經(jīng)對(duì)話模型都是基于Seq2Seq架構(gòu)[Sutskever et al., 2014]的架構(gòu)。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)編碼器首先將輸入Post編碼為固定長(zhǎng)度的向量,然后將該向量輸入到另一個(gè)RNN解碼器,用該解碼器進(jìn)行回復(fù)生成。模型使用最大似然估計(jì)的方法進(jìn)行參數(shù)學(xué)習(xí),期望真實(shí)的概率可以通過(guò)生成的概率進(jìn)行估計(jì)。
盡管Seq2Seq能夠產(chǎn)生流暢的回復(fù),但是這類(lèi)模型經(jīng)常生成通用回復(fù),比如“我不知道”,“這是什么意思?”和“哈哈”。顯然,這些回復(fù)缺乏具體的含義,用戶的體驗(yàn)不好。通過(guò)我們的分析,主要原因是Seq2Seq的目標(biāo)是等價(jià)于最小化KL距離。
但是,KL距離是不對(duì)稱(chēng)的,因此它不會(huì)懲罰生成概率高但真實(shí)概率低的句子。我們統(tǒng)計(jì)了生成句子在真實(shí)數(shù)據(jù)中的命中率:
統(tǒng)計(jì)結(jié)果如表1所示。
Exactly matching
Semantic matching
HitR
0.285561
0.426222
HitP
0.02419
0.03583
表1 生成語(yǔ)句在真實(shí)數(shù)據(jù)中的命中率和命中概率根據(jù)我們對(duì)對(duì)話數(shù)據(jù)STC的統(tǒng)計(jì),Seq2Seq的完全命中率和完全命中概率分別為0.004239和0.00091。因此,我們得出一下結(jié)論:大多數(shù)生成的回復(fù)都不是真實(shí)的回復(fù),這些回復(fù)的真實(shí)概率可能非常低。由于統(tǒng)計(jì)完全命中太過(guò)嚴(yán)格,我們還統(tǒng)計(jì)了語(yǔ)義層面的結(jié)果,當(dāng)兩個(gè)句子的余弦相似度足夠大(本文設(shè)置0.9),就認(rèn)為兩個(gè)句子命中。在這種情況下的統(tǒng)計(jì)結(jié)果為命中率0.1449和命中概率0.01255。因此,即使我們考慮了語(yǔ)義層面,生成回復(fù)的真實(shí)概率仍然非常低。
在本文中,我們利用生成回復(fù)與Post的一致性分?jǐn)?shù)作為對(duì)真實(shí)概率的估計(jì),我們統(tǒng)計(jì)了一致性分?jǐn)?shù)與人工評(píng)分(評(píng)分細(xì)則見(jiàn)實(shí)驗(yàn))的關(guān)系,發(fā)現(xiàn)二者呈正相關(guān),如圖1所示。
圖1 post-generation的一致性與人工評(píng)分的關(guān)系
2 模型我們提出了三種類(lèi)型的一致性函數(shù):
1.unlearned相似度函數(shù),如余弦相似度(如圖2所示),可以直接用為相關(guān)性模型。
圖2 post與generation的余弦相似度一致性分?jǐn)?shù)2.語(yǔ)義層面的文本匹配模型可被視為衡量Post和生成回復(fù)的一致性的函數(shù)。在本文中,我們使用兩個(gè)預(yù)訓(xùn)練的語(yǔ)義匹配函數(shù),即GRU雙線性模型[Socher et al.,2013](如圖3)和MatchPyramid [Pang et al.,2016](如圖4),這是代表兩種不同類(lèi)型的深度語(yǔ)義匹配模型,即表示重點(diǎn)突出的方法和著重于交互的方法。
圖3 GRU雙線性模型
圖4 MatchPyramid一致性模型3.端到端的對(duì)偶學(xué)習(xí)框架[Xia et al.,2016],它可以用來(lái)同時(shí)學(xué)習(xí)生成模型和一致性模型。對(duì)偶學(xué)習(xí)的過(guò)程如下:
1)agent1(第一個(gè)seq2seq模型)理解post,并生成G1,并把G1發(fā)送給agent2(第一個(gè)seq2seq模型)。
2)agent2是一個(gè)Response->post的模型,它收到G1,并通過(guò)自己的模型計(jì)算G1條件下生成X的概率,作為對(duì)agent1的獎(jiǎng)賞。
3)agent1根據(jù)agent2給出的獎(jiǎng)賞,調(diào)整自己的生成策略。
4)以上三個(gè)步驟從agent2開(kāi)始,對(duì)稱(chēng)的重復(fù)一遍。
它的計(jì)算如下:
3 優(yōu)化使用一致性分?jǐn)?shù)作為獎(jiǎng)勵(lì),融入到強(qiáng)化學(xué)習(xí)的框架中。學(xué)習(xí)過(guò)程將懲罰那些生成概率高但真實(shí)概率低的例子。強(qiáng)化學(xué)習(xí)框架如下圖所示(左圖是unlearned和預(yù)訓(xùn)練的學(xué)習(xí)框架,右圖是對(duì)偶學(xué)習(xí)的學(xué)習(xí)框架):
左圖的優(yōu)化公式為:
右圖的優(yōu)化公式為:
4 實(shí)驗(yàn)我們?cè)趦蓚€(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),即中文微博數(shù)據(jù)集和英文電影字幕數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果顯示我們的模型在自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)下,均明顯好于baselines。在表2顯示了自動(dòng)評(píng)價(jià)的結(jié)果,我們提出的一致性模型比baseline模型獲得更高的BLUE和distinct, 更低的PPL。對(duì)偶學(xué)習(xí)模型獲得了最優(yōu)的效果。
人工評(píng)價(jià)的評(píng)分規(guī)則如下:
1分表示邏輯錯(cuò)誤
2分表示不相關(guān)
3分表示通用回復(fù)
4分表示相關(guān)
5分表示像人的回復(fù)
表3展示了人工評(píng)價(jià)的結(jié)果,從結(jié)果中可以看到本文的一致性模型提高了4和5分的比例,生成更相關(guān)的回復(fù),并且對(duì)偶學(xué)習(xí)模型的人工評(píng)價(jià)得分最高。
表4展示了一些生成的case,可以看出一致性模型可以生成更多的有趣和具體的回復(fù)。
留言 點(diǎn)贊 發(fā)個(gè)朋友圈我們一起探討AI落地的最后一公里
- 發(fā)表于: 2018-06-112018-06-11 22:14:14
- 原文鏈接:https://kuaibao.qq.com/s/20180611A1YJUO00?refer=cp_1026
- 騰訊「云+社區(qū)」是騰訊內(nèi)容開(kāi)放平臺(tái)帳號(hào)(企鵝號(hào))傳播渠道之一,根據(jù)《騰訊內(nèi)容開(kāi)放平臺(tái)服務(wù)協(xié)議》轉(zhuǎn)載發(fā)布內(nèi)容。
掃碼關(guān)注云+社區(qū)
總結(jié)
以上是生活随笔為你收集整理的IJCAI 2018:中科院计算所:增强对话生成一致性的序列到序列模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 0-1背包问题的动态规划算法-秒懂
- 下一篇: 技术动态 | 人工智能开源软件发展现状连