CrossWOZ,一个大规模跨领域中文任务导向对话数据集
2018?年,任務(wù)導(dǎo)向?qū)υ挃?shù)據(jù)集?MultiWOZ?橫空出世,并被評為當(dāng)年?EMNLP?最佳資源論文。由于其大規(guī)模多領(lǐng)域的特點(diǎn),引發(fā)了任務(wù)導(dǎo)向?qū)υ掝I(lǐng)域新的一輪發(fā)展熱潮。
為了進(jìn)一步推動(dòng)多領(lǐng)域(特別是跨領(lǐng)域)的研究以及填補(bǔ)中文任務(wù)導(dǎo)向?qū)υ挃?shù)據(jù)的空白,清華大學(xué)計(jì)算機(jī)系、人工智能研究院 CoAI 小組構(gòu)建了 CrossWOZ,一個(gè)大規(guī)模跨領(lǐng)域中文任務(wù)導(dǎo)向?qū)υ挃?shù)據(jù)集。論文已被 Transactions of the Association for Computational Linguistics (TACL) 接收。
論文鏈接:https://arxiv.org/abs/2002.11893
數(shù)據(jù)和代碼:https://github.com/thu-coai/CrossWOZ
▲?CrossWOZ的一個(gè)對話片段,具體酒店名字被A,B,C替代
相比于之前的任務(wù)導(dǎo)向?qū)υ挃?shù)據(jù)集(特別是MultiWOZ),CrossWOZ有三大特點(diǎn):?
1. 在對話中,用戶在某個(gè)領(lǐng)域的選擇可能會(huì)影響到與之相關(guān)的領(lǐng)域的選擇。如上面的這個(gè)例子,用戶選擇了北京歡樂谷作為景點(diǎn)領(lǐng)域的結(jié)果,那么之后選擇的酒店就要在它附近。不同的景點(diǎn)選擇會(huì)對酒店產(chǎn)生不同的約束。這種跨領(lǐng)域約束隨著對話的進(jìn)行而具體化,需要對話雙方都能對上下文有更好的理解,因而更具有挑戰(zhàn)性。
2. 這是第一個(gè)中文大規(guī)模多領(lǐng)域任務(wù)導(dǎo)向?qū)υ挃?shù)據(jù)集,包含 6K 個(gè)對話,102K 個(gè)句子,涉及 5 個(gè)領(lǐng)域(景點(diǎn)、酒店、餐館、地鐵、出租)。平均每個(gè)對話涉及 3.2 個(gè)領(lǐng)域,遠(yuǎn)超之前的多領(lǐng)域?qū)υ挃?shù)據(jù)集,增添了對話管理的難度。?
3. 標(biāo)注信息全面,可以用于研究任務(wù)導(dǎo)向?qū)υ捪到y(tǒng)中各個(gè)方面。除了提供對話雙方的對話意圖、系統(tǒng)端的對話狀態(tài)這些信息之外,還額外提供了每輪用戶端的對話狀態(tài)。用戶端狀態(tài)記錄了目標(biāo)的完成情況,每輪根據(jù)系統(tǒng)回復(fù)動(dòng)態(tài)更新,可用于研究用戶模擬器的搭建。
數(shù)據(jù)收集過程
收集數(shù)據(jù)時(shí)模擬的對話場景是一名游客向系統(tǒng)咨詢北京的旅游信息,分為以下幾個(gè)步驟:?
1. 領(lǐng)域數(shù)據(jù)庫構(gòu)建:從網(wǎng)絡(luò)上爬取了北京的景點(diǎn)、酒店、餐館信息,以及這些地點(diǎn)的鄰近關(guān)系。同時(shí)這些地點(diǎn)附近的地鐵站組成了地鐵數(shù)據(jù)庫。出租領(lǐng)域無需數(shù)據(jù)庫。
▲?數(shù)據(jù)庫統(tǒng)計(jì)信息
2. 用戶目標(biāo)生成:通過隨機(jī)采樣的方式生成各領(lǐng)域的目標(biāo)。如下表,有值的表示約束條件,沒有值的表示需求信息,粗體的表示跨領(lǐng)域的約束,用占位符表示。這個(gè)例子里用戶要找一個(gè)免費(fèi)的景點(diǎn)及其附近一家提供叫醒服務(wù)的酒店,并預(yù)訂一輛從景點(diǎn)到酒店的出租。
▲?用戶目標(biāo)示例
3. 對話數(shù)據(jù)收集:雇傭人員在線匹配進(jìn)行實(shí)時(shí)對話。用戶端以用戶目標(biāo)作為初始狀態(tài),通過對話獲取信息,每輪更新用戶狀態(tài),填寫需求的信息和替換跨領(lǐng)域的約束。并選擇本輪要表達(dá)的約束或者要詢問的信息。系統(tǒng)端每輪維護(hù)各個(gè)領(lǐng)域的查詢表單作為系統(tǒng)狀態(tài),根據(jù)查詢結(jié)果回復(fù)用戶。?
4. 數(shù)據(jù)處理:使用一些規(guī)則根據(jù)用戶和系統(tǒng)的狀態(tài)推導(dǎo)出對話意圖。經(jīng)過三個(gè)專家對少量對話的核驗(yàn),數(shù)據(jù)標(biāo)注質(zhì)量較高。
數(shù)據(jù)統(tǒng)計(jì)
將對話分成五種類型:單領(lǐng)域 S,多領(lǐng)域 M,多領(lǐng)域加交通 M+T,跨領(lǐng)域 CM,跨領(lǐng)域加交通 CM+T。交通代表了地鐵和出租領(lǐng)域,M 和 CM 的區(qū)別是有沒有跨領(lǐng)域的約束。
統(tǒng)計(jì)信息如下表。可以發(fā)現(xiàn)含有跨領(lǐng)域約束的對話 (CM,CM+T) 會(huì)導(dǎo)致更多的系統(tǒng)多次查找 (Multi-query)、找不到結(jié)果 (NoOffer)、用戶自主修改目標(biāo) (Goal change) 的情況。
基線模型
由于豐富的標(biāo)注信息,CrossWOZ 數(shù)據(jù)集可用于多種任務(wù)的研究。依托于 ConvLab-2 對話平臺(tái),我們提供了 NLU、DST、Policy、NLG 的基線模型以及 user simulator,部分結(jié)果如下表。實(shí)驗(yàn)說明跨領(lǐng)域的約束對各個(gè)任務(wù)都有挑戰(zhàn)性。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
深度學(xué)習(xí)預(yù)訓(xùn)練模型可解釋性概覽
如何使用知識(shí)圖譜增強(qiáng)信息檢索模型?
AAAI 2020?| 可建模語義分層的知識(shí)圖譜補(bǔ)全
淺談Knowledge-Injected BERTs
BERT+知識(shí)圖譜:知識(shí)賦能的K-BERT模型
從 Word2Vec 到 BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CrossWOZ,一个大规模跨领域中文任务导向对话数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 预授信是什么意思?
- 下一篇: 报告称拼多多 Temu 8 月 App