最新综述:对话式检索数据集汇总
?PaperWeekly 原創(chuàng) ·?作者?|?金金
單位?|?阿里巴巴研究實(shí)習(xí)生
研究方向?|?推薦系統(tǒng)
簡介
對話式檢索近年來成為了信息檢索中的研究熱點(diǎn),但是該研究領(lǐng)域一直存在數(shù)據(jù)資源缺乏的問題,一方面沒有現(xiàn)有的對話式檢索系統(tǒng)收集真實(shí)場景的數(shù)據(jù),另一方面用戶實(shí)驗(yàn)?zāi)M產(chǎn)生的數(shù)據(jù)集規(guī)模不足以支撐深度學(xué)習(xí)模型的訓(xùn)練,本文首先講介紹以下兩種數(shù)據(jù)集:
用戶實(shí)驗(yàn)數(shù)據(jù)集:通過人來扮演 machine agent,從而研究對話式檢索的特點(diǎn);
單一任務(wù)數(shù)據(jù)集:規(guī)模較大、但是只能完成對話式檢索中一個(gè)子任務(wù)的數(shù)據(jù)集。
最后我們將介紹今年 SIGIR 上提出的第一個(gè)可以完整訓(xùn)練對話式檢索整個(gè)流程的數(shù)據(jù)集 WISE。
用戶實(shí)驗(yàn)數(shù)據(jù)集
為了確定我們是否需要對話式檢索及其特征,研究人員進(jìn)行了不同的用戶研究。
2.1 MISC
MISC [1] 是人類“seeker”與“agent”之間口頭對話的記錄集。它旨在支持對以下問題的研究:人類 agent 是否表現(xiàn)出與 seeker 滿意度相關(guān)的行為?seeker 是否顯示我們可以用作在線指標(biāo)基線的,適合于對話 agent 的行為?禮貌或其他對話規(guī)范起什么作用?我們在尋求信息的對話中看到了哪些策略,特定的結(jié)構(gòu)是否有助于或阻礙進(jìn)步或滿意度?MISC 已用于未出版的有關(guān)這些問題,對話風(fēng)格,多式聯(lián)運(yùn)和下面描述的對話結(jié)構(gòu)的工作。
具體來說,任務(wù)被分配給“seeker”,該“seeker”負(fù)責(zé)收集信息并確定最終答案。它們通過音頻鏈接連接到“agent”,后者代表未來的軟件代理。agent 可以不受限制地訪問網(wǎng)絡(luò),包括搜索引擎。作者錄制了兩位參與者的視頻和音頻。具體的實(shí)驗(yàn)流程如下所示。
MISC 數(shù)據(jù)包括音頻和視頻信號;搜索記錄;韻律和語言信號;有關(guān)人口統(tǒng)計(jì)和個(gè)性的入門問題;以及關(guān)于情緒,參與和努力的任務(wù)后調(diào)查。屏幕記錄以及情感和生理信號數(shù)據(jù)也可提供。
2.2 SCSData
SCSdata [2] 包含兩個(gè)參與者之間口頭信息搜索過程的話語轉(zhuǎn)錄。SCSdata 是在此實(shí)驗(yàn)設(shè)置中創(chuàng)建的第一個(gè)數(shù)據(jù)集。這也是第一個(gè) SCS 數(shù)據(jù)集,標(biāo)注了動(dòng)作或話語的標(biāo)簽,盡管僅在前三輪中。
創(chuàng)建 SCSdata 的目的是調(diào)查兩個(gè)參與者之間的交互行為,包括幫助我們理解諸如以下的問題;純音頻交互對搜索有何影響?信息密集型文檔如何在純音頻設(shè)置中傳輸?通過音頻進(jìn)行信息尋求過程的組成部分或動(dòng)作是什么,以及查詢復(fù)雜性對口語對話搜索中的交互作用和交互作用有什么影響?SCSdata 已用于數(shù)據(jù)集的創(chuàng)建者發(fā)表的研究中,并且最近也已被更廣泛的 IR 社區(qū)用于研究中。
具體來說,數(shù)據(jù)包括音頻信號的轉(zhuǎn)錄,代碼簿和前三輪對話的標(biāo)簽,以及設(shè)置中使用的背景故事。由于道德規(guī)范,其他數(shù)據(jù)(例如音頻,視頻,任務(wù)前和任務(wù)后調(diào)查表)不可用。
2.3 Conversational Legal Case Retrieval
近年來,類案法律案例檢索在 IR 研究界引起了很多關(guān)注。它旨在針對給定的查詢案例檢索支持案例,并為更好的法律體系做出貢獻(xiàn)。使用法律案件檢索系統(tǒng)時(shí),用戶通常難以構(gòu)造準(zhǔn)確的查詢來表達(dá)他們的信息需求,尤其是當(dāng)他們?nèi)狈ψ銐虻念I(lǐng)域知識時(shí)。由于對話搜索已得到廣泛滿足,可以滿足用戶的復(fù)雜性和探索性信息需求。
因此,在 SIGIR 21 中,本文 [3] 作者調(diào)查了是否可以采用對話式檢索范式來改善用戶的類案檢索體驗(yàn)。作者設(shè)計(jì)了一個(gè)用戶實(shí)驗(yàn),以收集用戶的互動(dòng)行為和明確的反饋信號,同時(shí)使用傳統(tǒng)的和 agent 中介的對話式類案檢索系統(tǒng)。根據(jù)收集的數(shù)據(jù),作者比較這兩種不同類型的交互范例的搜索行為和結(jié)果。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的案例檢索系統(tǒng)相比,用戶可以獲得更好的檢索性能。此外,對話系統(tǒng)還可以節(jié)省用戶制定查詢和檢查結(jié)果的工作量。
單一任務(wù)數(shù)據(jù)集
3.1 CAsT
該語料庫 [4] 是來自 TREC 綜合答案檢索(CAR)和 Microsoft 機(jī)器閱讀理解(MARCO)數(shù)據(jù)集的 38426252 個(gè)段落,包含八十個(gè)信息需求的對話(三十個(gè)用于訓(xùn)練,五十個(gè)用于測試),平均包含 9 到 10 個(gè)問題。對話可以廣泛地探討主題,也可以深入探討子主題。問題中包含省略號,隱含的上下文,輕微的話題轉(zhuǎn)移以及人類對話的其他特征,這些特征可能會(huì)阻止他們被孤立地理解。
具體來說,CAsT 給定自然語言問題,返回可以呈現(xiàn)給人或傳遞給下游語言處理任務(wù)。信息需求(主題)是根據(jù)以前的 TREC 主題(例如,Common Core 和 Session Track),MS MARCO 會(huì)話和普遍感興趣的主題構(gòu)建的。信息需求被設(shè)計(jì)成復(fù)雜的(需要多輪詳細(xì)說明),多樣的(不同的信息類別),開放域(不需要專家知識來訪問)并且易于回答(集合中有足夠的覆蓋面)。主題被設(shè)計(jì)為具有信息性,不需要時(shí)空或外部背景,不包括個(gè)人或主觀決定,避免敏感或有爭議的主題,下面給出的是一個(gè)例子。
3.2?MIMICS
最近,由于其在搜索引擎中的應(yīng)用,澄清搜索已引起了廣泛的關(guān)注。它也被認(rèn)為是對話式搜索系統(tǒng)中的主要組成部分。盡管它很重要,但研究界仍然感到缺乏用于研究搜索澄清各個(gè)方面的大規(guī)模數(shù)據(jù)。MIMICS 是從 Bing 查詢?nèi)罩局胁蓸拥挠糜趯?shí)際 Web 搜索查詢的搜索澄清數(shù)據(jù)集的集合。MIMICS [5] 中的每個(gè)澄清都是由 Bing 生成算法生成的,并且由一個(gè)澄清問題和最多五個(gè)候選答案組成。?
MIMICS 包含三個(gè)數(shù)據(jù)集:(1)MIMICS-Click 包含超過 40 萬個(gè)唯一查詢,其相關(guān)的澄清窗格以及相應(yīng)的匯總用戶交互信號。(2)MIMICS-ClickExplore 是一個(gè)探索數(shù)據(jù),其中包括針對 6 萬多個(gè)唯一查詢的聚合用戶交互信號,每個(gè)查詢都有多個(gè)澄清窗格。
(3)MIMICS-Manual 包含超過 2k 的唯一實(shí)際搜索查詢。該數(shù)據(jù)集中的每個(gè)查詢-澄清對均已由至少三個(gè)訓(xùn)練有素的注釋者手動(dòng)標(biāo)記。它包含用于澄清問題的分級質(zhì)量標(biāo)簽,候選答案集以及每個(gè)候選答案的到達(dá)結(jié)果頁面。研究人員研究了許多與搜索澄清相關(guān)的任務(wù),包括澄清生成和選擇,用于澄清的用戶參與預(yù)測,用于澄清的點(diǎn)擊模型,以及與搜索澄清一起分析用戶交互。
WISE
對話式信息搜尋(CIS)在將人們與信息聯(lián)系起來方面發(fā)揮著越來越重要的作用。由于缺乏合適的資源,以前對 CIS 的研究僅限于概念框架的研究,基于實(shí)驗(yàn)室的用戶研究或 CIS 的特定方面(例如,提出明確的問題)。?
在這項(xiàng)工作 [6] 中,作者為促進(jìn)對 CIS 的研究做出了三個(gè)主要貢獻(xiàn):(1)為 CIS 制定了一個(gè)包含六個(gè)子任務(wù)的流程:意圖檢測,關(guān)鍵詞提取,動(dòng)作預(yù)測,查詢選擇,段落選擇和響應(yīng)生成。(2)發(fā)布了一個(gè)基準(zhǔn)數(shù)據(jù)集,稱為搜索引擎向?qū)?#xff08;WISE),它可以對 CIS 的各個(gè)方面進(jìn)行全面而深入的研究。
(3)設(shè)計(jì)了一種能夠?qū)α鶄€(gè)子任務(wù)進(jìn)行聯(lián)合和分別訓(xùn)練和評估的神經(jīng)體系結(jié)構(gòu),并設(shè)計(jì)了一種預(yù)訓(xùn)練/微調(diào)學(xué)習(xí)方案,可以充分利用 WISE 的規(guī)模,從而降低其需求可用數(shù)據(jù)。
具體來說,首先,作者從商業(yè)搜索引擎的搜索日志中收集了一組 1196 個(gè)搜索意圖。每個(gè)搜索意圖均基于特定的搜索會(huì)話。要求工作人員根據(jù)自己的想象力推斷其背后的搜索意圖,并寫下描述。然后生成對話流程如下。
搜索者隨機(jī)地選擇搜索意圖,并從直接問問題或說出問候開始。發(fā)送消息時(shí),要求搜索者選擇一個(gè)最能描述消息意圖的標(biāo)簽。
每當(dāng) agent 接收到來自搜索者的消息時(shí),他/她就需要從會(huì)話歷史中提取關(guān)鍵字短語,這些關(guān)鍵字短語用于從搜索引擎獲取結(jié)果。然后,他/她必須選擇一個(gè)標(biāo)簽,以反映他/他將要采取的行動(dòng)。在那之后,他/她需要選擇相關(guān)的查詢和/或文檔,基于這些查詢和/或文檔來制定響應(yīng)。
重復(fù)對話,直到搜索者結(jié)束聊天為止(每次至少 7 輪對話之后)。對于每個(gè)回合,搜索者和 agent 都可以通過單擊“發(fā)送另一條消息”選項(xiàng)一次發(fā)送多條消息。
建立數(shù)據(jù)集花了 24 個(gè)參與者 3 個(gè)月的時(shí)間。收集的最終數(shù)據(jù)集由 1905 個(gè)會(huì)話組成,這些會(huì)話包含 1956 個(gè)搜索意圖中的 37956 輪對話。數(shù)據(jù)集總共包含 12 個(gè)不同的 Intent 和 23 個(gè)不同的 Action,涵蓋了各種對話主題,例如文學(xué),娛樂,藝術(shù)等。每個(gè)對話包含 7 到 42 輪。每個(gè)對話的平均輪數(shù)為 19.9。每輪平均有 27.3 個(gè)字。
作者將數(shù)據(jù)分為 705 個(gè)對話進(jìn)行訓(xùn)練,200 個(gè)對話進(jìn)行驗(yàn)證和 1000 個(gè)對話進(jìn)行測試。測試集分為兩個(gè)子集,即 test(seen)和 test(unseen)。test(seen) 數(shù)據(jù)集包含 442 個(gè)和訓(xùn)練集重疊的搜索意圖。test(unseen)由 500 個(gè)搜索意圖組成,這些意圖在訓(xùn)練或驗(yàn)證中從未見過。
總結(jié)
經(jīng)過幾年的發(fā)展,對話式搜索的工作流程已經(jīng)被比較好的總結(jié)出來,并且可以完整訓(xùn)練模型的數(shù)據(jù)集已經(jīng)誕生,但是數(shù)據(jù)量和模型效果仍然有限,這需要研究者們進(jìn)一步獲取更大的數(shù)據(jù)集和開發(fā)更適合該場景的模型。
參考文獻(xiàn)
[1] Paul Thomas, Daniel McDuff, Mary Czerwinski, and Nick Craswell. 2017. MISC: A data set of information-seeking conversations. In Proc. Int. Workshop on Con- versational Approaches to Information Retrieval.
[2] Johanne R.Trippas,Damiano Spina,Lawrence Cavedon,Hideo Joho,and Mark Sanderson. 2018. Informing the design of spoken conversational search: Perspective paper. In Proc. ACM SIGIR Conf. on Human Information Interaction and Retrieval. 32–41.
[3] https://github.com/BulouLiu/Conversational-vs-Traditional-Legal-Case-Retrieval
[4] Jeffrey Dalton, Chenyan Xiong, and Jamie Callan. 2020. TREC CAsT 2019: The Conversational Assistance Track Overview. arXiv preprint arXiv:2003.13624 (2020).
[5] Zamani H, Lueck G, Chen E, et al. Mimics: A large-scale data collection for search clarification[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 3189-3196.
[6] https://github.com/PengjieRen/CaSE_WISE
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識真正流動(dòng)起來。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時(shí)聯(lián)系方式(微信),以便我們在稿件選用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的最新综述:对话式检索数据集汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度借钱额度一般多少 根据用户资信综合
- 下一篇: 支付宝知芝分有什么用