为新研究准备好一块用武之地:最全任务型对话数据调研
合適的數(shù)據(jù)集或者語(yǔ)料是優(yōu)秀的自然語(yǔ)言研究工作的基礎(chǔ),然而找尋合適的數(shù)據(jù)集通常是一件耗時(shí)耗力的工作。這時(shí)候一份優(yōu)質(zhì)的數(shù)據(jù)集匯總就能幫助科研人員,在研究開(kāi)始的時(shí)候事半功倍。這篇文章就向你介紹一份優(yōu)質(zhì)的數(shù)據(jù)集匯總,幫助你的研究工作輕松選擇一片合適的用武之地。
作者丨侯宇泰
學(xué)校丨哈爾濱工業(yè)大學(xué)博士生
研究方向丨任務(wù)型對(duì)話(huà)系統(tǒng)
本文主要介紹本人收集整理的一個(gè)任務(wù)型對(duì)話(huà)數(shù)據(jù)集大全。
▲?圖1. 數(shù)據(jù)集匯總項(xiàng)目
這份數(shù)據(jù)集大全涵蓋了到目前在任務(wù)型對(duì)話(huà)領(lǐng)域的所有常用數(shù)據(jù)集的主要信息。此外,為了幫助研究者更好的把握領(lǐng)域進(jìn)展的脈絡(luò),我們以?Leaderboard?的形式給出了幾個(gè)數(shù)據(jù)集上的 State-of-the-art 實(shí)驗(yàn)結(jié)果。
數(shù)據(jù)集的地址如下:
https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
背景介紹:什么是任務(wù)型對(duì)話(huà)
我們收集的數(shù)據(jù)集主要針對(duì)任務(wù)型對(duì)話(huà)研究(Task-oriented Dialogue)。
任務(wù)型對(duì)話(huà)系統(tǒng)指在特定的情境下幫助用戶(hù)完成特定任務(wù)的對(duì)話(huà)服務(wù)系統(tǒng),例如幫助用戶(hù)訂餐、訂酒店的對(duì)話(huà)系統(tǒng)。近年來(lái),隨著亞馬遜 Alex,微軟小娜,蘋(píng)果 Siri 等個(gè)人語(yǔ)音助理業(yè)務(wù)的興起,基于對(duì)話(huà)的人機(jī)交互方式得到了廣泛的關(guān)注,相關(guān)的研究也越來(lái)越多,儼然成為一個(gè)富有潛力的研究方向。
▲?圖2. 語(yǔ)音助手
目前任務(wù)型對(duì)話(huà)的研究可以大體分為兩類(lèi):基于流程的任務(wù)型對(duì)話(huà)(Pipeline)以及端到端的任務(wù)型對(duì)話(huà)(End-to-End)。
基于流程的任務(wù)型對(duì)話(huà)是相對(duì)較為傳統(tǒng)的方法。這種任務(wù)型對(duì)話(huà)的系統(tǒng)通過(guò)一套 Pipeline 流程實(shí)現(xiàn)。如圖 3 所示, 任務(wù)型對(duì)話(huà)系統(tǒng)的流程依次包括:自然語(yǔ)言理解、對(duì)話(huà)狀態(tài)跟蹤、對(duì)話(huà)策略學(xué)習(xí),自然語(yǔ)言生成模塊。
具體的,用戶(hù)輸入自然語(yǔ)言,對(duì)話(huà)系統(tǒng)按流程依次完成:分析用戶(hù)意圖,更新對(duì)話(huà)狀態(tài),根據(jù)對(duì)話(huà)策略做出動(dòng)作,生成最終的自然語(yǔ)言回復(fù)。
▲?圖3. Pipeline任務(wù)型對(duì)話(huà)
然而,Pipeline 流程式的對(duì)話(huà)系統(tǒng)存在錯(cuò)誤級(jí)聯(lián)和標(biāo)注開(kāi)銷(xiāo)大的問(wèn)題,為此最近有一部分研究嘗試通過(guò)直接進(jìn)行端到端的任務(wù)型對(duì)話(huà)學(xué)習(xí)來(lái)規(guī)避這些問(wèn)題。端到端式對(duì)話(huà)系統(tǒng)根據(jù)用戶(hù)輸入句子直接給出自然語(yǔ)言回復(fù)。
為什么要做數(shù)據(jù)集匯總?
任務(wù)型對(duì)話(huà)任務(wù)并不是新課題,但是針對(duì)任務(wù)型對(duì)話(huà)的廣泛研究在最近幾年才興起。任務(wù)型對(duì)話(huà)研究的方興未艾反映在數(shù)據(jù)和語(yǔ)料上,就是目前現(xiàn)有的任務(wù)型對(duì)話(huà)數(shù)據(jù)集數(shù)量少,且其他成熟的任務(wù)已有的數(shù)據(jù)集在數(shù)據(jù)量上要少的多。?
在這種情況下,盡可能多找到并有效的利用已有的數(shù)據(jù)資源就成為開(kāi)展研究的關(guān)鍵之一。然而,搜羅并全面的尋找合適的數(shù)據(jù)集是一個(gè)費(fèi)時(shí)費(fèi)力的工作,所以整理統(tǒng)計(jì)目前已有的任務(wù)型對(duì)話(huà)領(lǐng)域的數(shù)據(jù)集的信息是有必要的,可以極大地為相關(guān)研究工作提供便利,讓研究工作得以地快速開(kāi)始。
除了數(shù)據(jù)本身的信息有價(jià)值之外,在重要數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果提升過(guò)程,可以很大程度上反映自然語(yǔ)言研究的前進(jìn)脈絡(luò)。所以,簡(jiǎn)單的數(shù)據(jù)集信息羅列并不能讓我們滿(mǎn)意,我們還計(jì)劃提供一些常用數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果和對(duì)應(yīng)論文的信息。從而幫助研究人員了解和把握任務(wù)型對(duì)話(huà)領(lǐng)域研究的推進(jìn)脈絡(luò)。我們選擇以 Leaderboard 的形式呈現(xiàn)數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果。
數(shù)據(jù)匯總的內(nèi)容介紹
1. 數(shù)據(jù)集信息
針對(duì)每個(gè)數(shù)據(jù)集,我們統(tǒng)計(jì)并總結(jié)了如下幾個(gè)方面的內(nèi)容。
▲?表1. 數(shù)據(jù)集內(nèi)容及說(shuō)明
類(lèi)似其他常見(jiàn)數(shù)據(jù)集匯總工作,我們?yōu)槊總€(gè)數(shù)據(jù)集提供了名稱(chēng),下載鏈接,簡(jiǎn)介,數(shù)據(jù)量等信息。除了這些基本信息,我們還涵蓋了一些任務(wù)型對(duì)話(huà)數(shù)據(jù)的特有的研究?jī)?nèi)容,例如:
Multi or single turn:對(duì)話(huà)數(shù)據(jù)是多輪還是單輪是任務(wù)型對(duì)話(huà)數(shù)據(jù)的重要屬性,單輪對(duì)話(huà)數(shù)據(jù)往往用于自然語(yǔ)言理解任務(wù),多輪對(duì)話(huà)數(shù)據(jù)往往用于端到端任務(wù)、對(duì)話(huà)策略學(xué)習(xí)、對(duì)話(huà)狀態(tài)跟蹤。
Task detail:數(shù)據(jù)適用于什么應(yīng)用情景也是一個(gè)獨(dú)特的關(guān)鍵信息,通過(guò)這個(gè)信息,研究者可以快速理解數(shù)據(jù),開(kāi)展 Multi-domain 或 Domain-transfer 研究。
2. 實(shí)驗(yàn)結(jié)果Leaderboard
對(duì)于一些研究常用數(shù)據(jù),我們提供了上面的一些 State-of-the-art 實(shí)驗(yàn)結(jié)果,并以 Leaderboard 的形式呈現(xiàn),具體包括內(nèi)容如下:
▲?表2. Leaderboard內(nèi)容及說(shuō)明
其中我們的模型名稱(chēng)采用出處論文中的表述,分?jǐn)?shù)的評(píng)價(jià)指標(biāo)以具體的任務(wù)而定。實(shí)驗(yàn)結(jié)果列表配合上論文鏈接,可以讓讀者快速地了解一個(gè)任務(wù)。
此項(xiàng)信息內(nèi)容仍在完善中。
數(shù)據(jù)集匯總內(nèi)容樣例
1. 數(shù)據(jù)集介紹樣例
數(shù)據(jù)集的匯總目前以表格的形式,收錄了 17 個(gè)數(shù)據(jù)的細(xì)節(jié)信息。讀者可以在 Github 項(xiàng)目中 Excel 文件或者 Readme 中直接查看。數(shù)據(jù)的格式如圖 4 所示。
▲?圖4. 數(shù)據(jù)細(xì)節(jié)樣例
2. Leaderboard 樣例
我們以 Leaderboard 的形式展示了語(yǔ)義槽抽取(Slot filling),用戶(hù)意圖識(shí)別(Intent detection),對(duì)話(huà)狀態(tài)跟蹤(Dialogue state tracking)三個(gè)任務(wù)上的一些領(lǐng)先結(jié)果。具體形式如圖 5 所示。
▲?圖5. Leaderboard的樣例
關(guān)于內(nèi)容補(bǔ)充的邀請(qǐng)
我們歡迎各種形式的內(nèi)容完善,包括但不限于:
直接提交 Pull Request
向我們發(fā)送新數(shù)據(jù)
向我們發(fā)送新的實(shí)驗(yàn)結(jié)果(已發(fā)表論文)
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
Airbnb實(shí)時(shí)搜索排序中的Embedding技巧
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
F-Principle:初探理解深度學(xué)習(xí)不能做什么
自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法
兩行代碼玩轉(zhuǎn)Google BERT句向量詞向量
AI Challenger 2018 機(jī)器翻譯參賽總結(jié)
Google BERT應(yīng)用之紅樓夢(mèng)對(duì)話(huà)人物提取
深度長(zhǎng)文:NLP的巨人肩膀(上)
NLP的巨人肩膀(下):從CoVe到BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的为新研究准备好一块用武之地:最全任务型对话数据调研的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: PaperWeekly给您拜年啦!
- 下一篇: 能量视角下的GAN模型:GAN=“挖坑”