A Network-based End-to-End Trainable Task-oriented Dialogue System
abstract
讓機(jī)器去和人類自然的交談是具有挑戰(zhàn)性的。最近的任務(wù)型對話系統(tǒng)需要創(chuàng)造幾個部分并且通常這需要大量的人工干預(yù),或者需要標(biāo)注數(shù)據(jù)去解決各部分訓(xùn)練的問題。在這里我們提出了一種端到端的任務(wù)型對話系統(tǒng),它采取了一種基于管道框架的新穎的收集對話數(shù)據(jù)的方法。這個方法允許我們輕松實(shí)現(xiàn)對話系統(tǒng)而不用過多的人工干預(yù)。結(jié)果展示模型能夠在和人自然交流的同時幫助他們完成餐館搜索領(lǐng)域的任務(wù)。
introduction
構(gòu)建一個任務(wù)型對話系統(tǒng)例如酒店預(yù)訂或者某種技術(shù)支持服務(wù)是困難的,因?yàn)樗鼘儆谔囟I(lǐng)域應(yīng)用且對于訓(xùn)練數(shù)據(jù)的獲取也有限制。為了去解決這個問題,近來的針對對話系統(tǒng)設(shè)計(jì)的機(jī)器學(xué)習(xí)方法將問題轉(zhuǎn)換為一個部分可觀馬爾科夫決策過程(POMDP),它的目的是通過和真實(shí)的使用者進(jìn)行交互,使用強(qiáng)化學(xué)習(xí)去訓(xùn)練對話在線決策。然而,語言理解和語言生成模型仍然依賴監(jiān)督學(xué)習(xí)并且因此需要語料在其上進(jìn)行訓(xùn)練。進(jìn)一步,為了使強(qiáng)化學(xué)習(xí)(RL)可控,狀態(tài)和行為空間必須被小心的設(shè)計(jì),而這些都會限制模型的表達(dá)力和學(xué)習(xí)能力。而且reward功能也需要被訓(xùn)練,這樣的模型很難被設(shè)計(jì)且很難去測量運(yùn)行時間。
另一方面來講,sequence2sequence也促進(jìn)了可訓(xùn)練、非任務(wù)型端到端對話系統(tǒng)構(gòu)建的研究,這類方案把對話當(dāng)作從源到目標(biāo)句子的轉(zhuǎn)換問題,encoder and decoder。他們能夠創(chuàng)造高效的聊天機(jī)器人但是缺乏支持特殊領(lǐng)域?qū)υ挼哪芰?#xff0c;例如和數(shù)據(jù)庫交互和收集有用的信息到他們的對話中。
模型可以端到端的進(jìn)行訓(xùn)練,但是仍然模塊化連接;它沒有直接為用戶目標(biāo)建模,但是它仍會通過每一輪的相關(guān)的恰當(dāng)?shù)幕貜?fù)去學(xué)習(xí)完成被要求的任務(wù);他有用來去達(dá)到一個高任務(wù)準(zhǔn)確率的數(shù)據(jù)屬性的精準(zhǔn)表達(dá),但是有一個用戶意圖的分布式表達(dá)去允許模糊的輸入;使用delexicalisation和一個權(quán)重減少策略去減少訓(xùn)練模型所需的數(shù)據(jù),但是仍然會維持一個高自由度使得大量數(shù)據(jù)成為可獲得的。
model
seqence mapping(seqence2seqence) + dialogue history(belief trackers)
在每一輪對話中,
- 系統(tǒng)接受分詞后的用戶的話然后把他轉(zhuǎn)換成兩種表示,一是由一個意圖識別網(wǎng)絡(luò)生成的分布式表示intent representation,二是一種由belief trackers生成的belief state(槽值對)的概率分布。
- 之后數(shù)據(jù)庫節(jié)點(diǎn)會在belief state中選擇最可能的值去形成一個query給DB
- 數(shù)據(jù)庫搜索結(jié)果,意圖表示intent representation和belief state被一個policy網(wǎng)絡(luò)transformer和combine去形成一個簡單的向量表示系統(tǒng)的下一步行動action。
- system action 之后被用做condition一個回復(fù)生成網(wǎng)絡(luò),這個網(wǎng)絡(luò)是生成系統(tǒng)回復(fù)骨架
然后,通過將數(shù)據(jù)庫條目的實(shí)際值替換到骨架句結(jié)構(gòu)中,形成最終的系統(tǒng)響應(yīng)。
intent network
encoder:lstm最后的隱藏層輸出 + CNN
belief trackers
dialogue state tracking提供任務(wù)型對話系統(tǒng)(spoken dialogue system SDS)的核心。最新的dst使用例如RNN的判別系統(tǒng)去直接將Automatic Speech Recognition (ASR)映射到belief state。盡管我們聚焦在文本對話系統(tǒng),但是我們?nèi)匀辉谖覀兊南到y(tǒng)核心維持狀態(tài)追蹤因?yàn)?#xff1a;- 它能把一句自然表達(dá)轉(zhuǎn)變成固定槽值對表示,進(jìn)而給DB傳query,這可以等同于一個語義分析器
- 通過狀態(tài)追蹤,避免了從原始輸入中學(xué)習(xí)不必要的復(fù)雜的長期依賴
通過使用權(quán)重
學(xué)姐剛才和我說這是個seq2seq....我覺得我可能誤會這個model了....
https://www.eefocus.com/industrial-electronics/367104/p7
https://blog.csdn.net/u014300008/article/details/53212915
轉(zhuǎn)載于:https://www.cnblogs.com/forPrometheus-jun/p/10632656.html
總結(jié)
以上是生活随笔為你收集整理的A Network-based End-to-End Trainable Task-oriented Dialogue System的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 利用stub技术进行单元测试
- 下一篇: spring batch (四) Job