从ICLR 2020、AAAI 2020看对话系统近期研究进展
?PaperWeekly 原創(chuàng) ·?作者|王馨月
學(xué)校|四川大學(xué)本科生
研究方向|自然語言處理
本文盤點(diǎn)近期 ICLR 2020、AAAI 2020 上幾篇對(duì)話系統(tǒng)相關(guān)的論文。
ICLR 2020
論文標(biāo)題:Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue
論文來源:ICLR 2020
論文鏈接:https://arxiv.org/abs/2002.07510
代碼鏈接:https://github.com/bckim92/sequential-knowledge-transformer
基于知識(shí)是一項(xiàng)結(jié)合上下文和外部知識(shí)生成有效回復(fù)的任務(wù),一般通過更好地建模多輪基于知識(shí)的對(duì)話中的知識(shí)來提升。主要分為兩步:1)知識(shí)選擇;2)根據(jù)選擇出的知識(shí)以及上下文生成回應(yīng)。不同于 TextQA 任務(wù),基于知識(shí)的對(duì)話系統(tǒng)中上下文與要選擇的知識(shí)之間是一對(duì)多的關(guān)系。
因此,文章將序列潛在變量模型引入知識(shí)選擇過程,提出了 sequential knowledge transformer (SKT)。將知識(shí)選擇看作序列決策過程,根據(jù)多輪的潛在變量,聯(lián)合推斷出要選擇的知識(shí),因此不僅能減少知識(shí)提取的多樣化造成的歧義,還能夠促使回復(fù)過程選擇合適的知識(shí)。在 Wizard of Wikipedia 上達(dá)成 SOTA 性能。
模型由三部分構(gòu)成:句子編碼器用 BERT 和 average pooling 實(shí)現(xiàn);序列知識(shí)選擇用 SKT 實(shí)現(xiàn);解碼器用 Transformer 的 Decoder 結(jié)合 Copy 機(jī)制實(shí)現(xiàn)。
文章的核心在于 SKT 模型,如圖所示是模型在 t=3(迭代到第三輪對(duì)話)的狀態(tài)。
模型首先通過后驗(yàn)知識(shí)推斷出前 t-1 輪選取的知識(shí),再通過先驗(yàn)知識(shí)分布推斷出 t 輪選取的知識(shí)并根據(jù)推斷出的知識(shí)生成回應(yīng)。其中 代表 encoder, 為先驗(yàn)知識(shí)分布, 為后驗(yàn)知識(shí)分布。
作者在 Wizard of Wikipedia 和 Holl-E 上進(jìn)行了實(shí)驗(yàn),結(jié)果如下:
作者在結(jié)論中指出,在基于知識(shí)的多輪對(duì)話知識(shí)提取中還有一些可能的研究方向,比如利用 filtering variational objectives 的序列蒙特卡洛推斷模型,以及探究知識(shí)選擇的可解釋性等。
ICLR 2020
論文標(biāo)題:Low-Resource Knowledge-Grounded Dialogue Generation
論文來源:ICLR 2020
論文鏈接:https://arxiv.org/abs/2002.10348
在開放域?qū)υ捪到y(tǒng)中,目前大多數(shù)模型只能擬合小規(guī)模訓(xùn)練數(shù)據(jù),而基于知識(shí)對(duì)話的知識(shí)也很難獲取。因此,文章在缺少資源的假定下,設(shè)計(jì)了 disentangled response decoder,將依賴于基于知識(shí)的對(duì)話的參數(shù)從整個(gè)模型中分離分離。
通過這種方法,模型的主要部分可以從大規(guī)模的非真實(shí)對(duì)話以及非結(jié)構(gòu)化文本中訓(xùn)練,而其余的很少一部分參數(shù)則可以用有限的訓(xùn)練數(shù)據(jù)擬合。在兩個(gè)基準(zhǔn)上實(shí)驗(yàn)的結(jié)果顯示只用 1/8 的訓(xùn)練數(shù)據(jù),模型就能達(dá)到 SOTA 性能并生成很好的跨領(lǐng)域知識(shí)。
文章將生成回應(yīng)的問題分解為 3 個(gè)不相關(guān)的行為:1) 根據(jù)已生成的部分選擇合適的詞使得句子語法正確(符合語言模型);2) 根據(jù)上下文選擇合適的詞使得對(duì)話連貫(符合上下文處理器);3) 根據(jù)對(duì)話基礎(chǔ)上的外部知識(shí)選擇合適的詞(符合知識(shí)處理器)。
這三個(gè)步驟可以獨(dú)立地學(xué)習(xí),據(jù)此,文章提出了如圖所示的生成模型:
相較傳統(tǒng)模型,主要的區(qū)別在作者通過將 decoding 過程分解為一個(gè)語言模型、一個(gè)上下文處理器、一個(gè)知識(shí)處理器,以模擬上述三個(gè)步驟。
作者在 encoding 過程使用 RNN+GRU 得到句子的隱藏向量序列 ,作為 decoding 過程上下文處理器的輸入;通過雙向 GRU 得到文本的表示 ,作為decoding過程知識(shí)處理器的輸入。
值得注意的是,模型并不像一般的 Transformer 模型在 encoding 過程通過 attention 機(jī)制來選擇知識(shí),而是將這一步留在 decoding 過程,這能去除上下文編碼和知識(shí)編碼間的依賴。
Decoder 中將隱藏序列 根據(jù) t-1 步驟的預(yù)測(cè) word embedding 定義為 。將三個(gè)部分定義如下:
語言模型:語言模型基于 通過一個(gè) MLP 進(jìn)行詞的預(yù)測(cè)。
上下文處理器:通過一個(gè) MLP 結(jié)合注意力分布權(quán)衡預(yù)測(cè)單詞來自詞匯表或上下文。
知識(shí)處理器:知識(shí)處理器通過多層注意力機(jī)制(此處使用了 sentence-level 和 word-level)通過和上下文處理器類似的方式預(yù)測(cè)單詞。
最終通過 gumbel softmax 計(jì)算三個(gè)部分的參數(shù)。
作者在 Test Seen of Wizard 和 CMU_DoG 上進(jìn)行的實(shí)驗(yàn)結(jié)果如下:
此外,作者還探討了對(duì)使用固定參數(shù)還是 fine-tune 效果更好進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,當(dāng)數(shù)據(jù)量較小(<5K)時(shí),用固定參數(shù)效果更好,而數(shù)據(jù)量較大時(shí),fine-tuning 則可以進(jìn)一步提升模型表現(xiàn)。
AAAI 2020
論文標(biāo)題:A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/1911.04700
在這篇文章中,作者指出,讓模型生成更加 human-like 的回復(fù)是對(duì)話系統(tǒng)中非常重要的問題,但由于自然語言中難以適當(dāng)?shù)靥砑咏巧畔?#xff0c;且真實(shí)生活中大多數(shù)對(duì)話中是缺少角色信息的(persona-sparse),使得這一問題更加艱難。
而角色信息相關(guān)的數(shù)據(jù)集如 PERSONA-CHAT,則由于構(gòu)造時(shí)對(duì)話者被要求在很少輪中顯示性格而包含了過多個(gè)人信息(persona-dense),這一點(diǎn)不符合真實(shí)情況。
針對(duì)這一問題作者提出了可以在 persona-sparse 數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練模型,并提出了一種注意力路由機(jī)制(attention routing mechanism)以在 decoder 中動(dòng)態(tài)預(yù)測(cè)權(quán)重。實(shí)驗(yàn)結(jié)果顯示此模型可以很好地生成連貫且 persona-related 的回應(yīng)。
模型框架如圖:
其中,人物信息 是一個(gè)包含性別、位置、興趣標(biāo)簽信息的鍵值對(duì)集合 ; 為對(duì)話-人物信息集合 。Encoder 和 decoder 按照 Transformer 架構(gòu)實(shí)現(xiàn)。 和 經(jīng)過 encoder 變?yōu)? 和 ,作為 Decoder 的輸入,通過注意力路由機(jī)制得到的權(quán)重 merge。
如上圖,在 encoding 過程中作者將不同信息的 embedding 加在一起作為每個(gè)單詞最終的 embedding,通過encoder得到 ,同種方法將 的每個(gè)鍵值對(duì)組成一個(gè)句子序列 embedding 得到 。
而在 Decoder 中的 Attention Routing 的實(shí)現(xiàn)機(jī)制是:將 multi-head attention 的每一組操作視作一個(gè) attention route,因此,對(duì)目標(biāo)任務(wù)信息 、對(duì)話上下文 和上一輪編碼的 token 分別有:
作者又根據(jù) 設(shè)置了一個(gè) 0 到 1 之間的參數(shù) ,用以調(diào)整 feature 的權(quán)重。參數(shù) 通過訓(xùn)練時(shí)使用一個(gè)二分分類器,判斷回復(fù)是否 persona 來實(shí)現(xiàn)。可以看出 越大, 的占比越大。最終得到混合輸出:
訓(xùn)練數(shù)據(jù)集 PersonalDialog 來自微博。實(shí)驗(yàn)結(jié)果隨 的變化如圖所示:
作者在文中還給出了模型的 case study,可以參考。
AAAI 2020
論文標(biāo)題:End-to-End Trainable Non-Collaborative Dialog System
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/1911.10742
本文主要針對(duì)非協(xié)作設(shè)定(如協(xié)商或勸導(dǎo))下的對(duì)話中用戶和系統(tǒng)不具備相同目標(biāo)的問題,引入了 hierarchical intent annotation scheme,基于 TransferTransfo 構(gòu)建了一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型 MISSA (Multiple Intents and Semantic Slots Annotation Neural Network)。
作者還基于模型開發(fā)了一個(gè)防詐騙對(duì)話系統(tǒng)以及一個(gè)說服對(duì)話系統(tǒng)以說服人們做公益等。并創(chuàng)建了數(shù)據(jù)集 ANTISCAM。
GitLab:https://gitlab.com/ucdavisnlp/antiscam
MISSA 在 ANTISCAM 數(shù)據(jù)集的訓(xùn)練過程如上圖所示。作者在 TransferTransfo 的基礎(chǔ)上主要做的改變?yōu)?#xff1a;
1) 由于 TransferTransfo 原本用于沒有意圖的開放域?qū)υ?#xff0c;作者加入了兩個(gè) intent classifier 和兩個(gè) semantic slot classifier;2) 為增加回復(fù)的多樣性,根據(jù) nucleus 采樣策略設(shè)計(jì)了一個(gè) filter 根據(jù)預(yù)設(shè)的規(guī)則對(duì)生成的回復(fù)進(jìn)行采樣。
TramsferTransfo: Transformer 模型在對(duì)話生成方面的應(yīng)用,將 Transformer 的 segement embedding 變?yōu)?dialogue state embedding 以標(biāo)注意圖和對(duì)話狀態(tài)。
第 t 輪的 Intent classifier 和 semantic slot classifier 根據(jù)第 t-1 輪的最后一句的最后一個(gè)隱藏狀態(tài)和第 t 輪第 i 個(gè)句子的最后一個(gè)隱藏狀態(tài)加權(quán)求 Softmax 得到。
在訓(xùn)練過程中,作者在每句話結(jié)尾設(shè)置了一個(gè) token < sep >?。并在系統(tǒng)回應(yīng)的橘子開頭設(shè)置?token?< pos_ans >。
作者在 ANTISCAM 和 PERSUASIONFORGOOD 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果如下(其中 MISSA-sel 是 MISSA 去除回應(yīng) filter,MISSA-con 是 MISSA 去除回應(yīng)開頭的 intent token):
ICLR 2020
論文標(biāo)題:Augmenting Non-Collaborative Dialog Systems with Explicit Semantic and Strategic Dialog History
論文來源:ICLR 2020
論文鏈接:https://arxiv.org/abs/1909.13425
這篇文章同樣是針對(duì) Non-collabratibe 的情況,提出了利用有窮狀態(tài)轉(zhuǎn)換器(finite state transducers, FSTs)構(gòu)造的模型 FeHED (FST-enhanced hierarchical encoder-decoder model),用于建模對(duì)話中的語義和策略 history。
如下圖所示,FeHED 模型主要由四個(gè)部分組成:一個(gè)對(duì)話動(dòng)作分類器、一個(gè)策略分類器、兩個(gè) FST(FST-DA/S),以及一個(gè)層次 encoder-decoder 模型(HED)。
對(duì)話動(dòng)作分類器和策略分類器的輸出作為 FSTs 的輸入,FSTs 的輸出結(jié)合 utterance embedding 作為 HED 的輸入,最終 HED 生成下一輪的策略和 utterance。
作者在 CraigslistBargain 和 Persuasion For Good 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果如下。
這篇文章將有窮狀態(tài)轉(zhuǎn)換器用在規(guī)則和對(duì)話狀態(tài)的轉(zhuǎn)換,相較于 hidden states只能描述語義 history 而言,將 FSTs 用在多輪對(duì)話也是一種有意義的新思路。
數(shù)據(jù)集
AAAI 2020 上 Google 團(tuán)隊(duì)發(fā)表了一篇論文 Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset,介紹了數(shù)據(jù)集 SGD (Schema-Guided Dialogue)。
研究團(tuán)隊(duì)稱 SGD 數(shù)據(jù)集是目前公開可用的最大的任務(wù)型對(duì)話數(shù)據(jù)集,包含 16k 多領(lǐng)域?qū)υ挃?shù)據(jù),數(shù)據(jù)集也為每個(gè)領(lǐng)域提供了多個(gè) API。
論文標(biāo)題:Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/1909.05855
GitHub:https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
還有一篇 ACL 2020 上的論文 KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation 中介紹的 KdConv 數(shù)據(jù)集,包含影視、音樂、旅游方面的共計(jì) 4.5K 的多輪對(duì)話數(shù)據(jù)集。
論文標(biāo)題:KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation
論文來源:ACL 2020
論文鏈接:https://arxiv.org/abs/2004.04100
GitHub:https://github.com/thu-coai/KdConv
總結(jié)
對(duì)話系統(tǒng)的論文數(shù)量雖然在各個(gè)會(huì)議中占比不算很高,但可以看出,還是有一些很有趣的想法。比如在第一篇文章中對(duì) latent variable model 進(jìn)行改進(jìn)在解決回復(fù)多樣性的同時(shí)使得知識(shí)選擇更加準(zhǔn)確。
而在第二篇文章中針對(duì)低資源的問題將語言模型、上下文與知識(shí)分離開,使得僅用 1/8 真實(shí)數(shù)據(jù)情況就能達(dá)到很好的性能。
而第三第四篇文章都對(duì)于對(duì)話系統(tǒng)的個(gè)性化作出了不同的嘗試,其中第三篇文章很有新意地將人物信息加入 encoding,第四、第五篇文章則考慮到日常生活中更多對(duì)話是非協(xié)作的情形作出了嘗試。
還可以看到 Visual Dialogue 也取得了一定進(jìn)展,有興趣的讀者可以參考 AAAI 2020 的 DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
任務(wù)導(dǎo)向型對(duì)話系統(tǒng)——對(duì)話管理模型研究最新進(jìn)展
超詳綜述 | 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別
復(fù)旦大學(xué)邱錫鵬教授:NLP預(yù)訓(xùn)練模型綜述
BERT在小米NLP業(yè)務(wù)中的實(shí)戰(zhàn)探索
針對(duì)復(fù)雜問題的知識(shí)圖譜問答最新進(jìn)展
從三大頂會(huì)論文看百變Self-Attention
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的从ICLR 2020、AAAI 2020看对话系统近期研究进展的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 英伟达推出 ACE 虚幻引擎 5 插件,
- 下一篇: 消息称极氪国庆期间新增大定破万,极氪 7