SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集
?PaperWeekly 原創 ·?作者?|?金金
單位?|?阿里巴巴研究實習生
研究方向?|?推薦系統
簡介
自然語言對話系統最近引起了極大的關注。由于許多對話模型是數據驅動的,因此高質量的數據集對這些系統至關重要。在本文中,作者介紹了 Pchatbot,這是一個大規模對話數據集,包含分別從微博和司法論壇收集的兩個子集。
為了使原始數據集適應對話系統,作者通過匿名化、重復數據刪除、分割和過濾等過程精心標準化原始數據集。Pchatbot 的規模明顯大于現有的中文數據集,這可能有利于數據驅動模型。
此外,當前個性化聊天機器人的對話數據集通常包含多個角色句子或屬性。與現有數據集不同,Pchatbot 為帖子和回復提供匿名用戶 ID 和時間戳。這使得個性化對話模型的開發能夠直接從用戶的對話歷史中學習隱含的用戶個性。
本文的初步實驗研究對幾種最先進的對話模型進行了基準測試,以便為未來的工作提供比較。
論文標題:
Pchatbot: A Large-Scale Dataset for Personalized Chatbot
論文來源:
SIGIR 2021
論文鏈接:
https://arxiv.org/abs/2009.13284
數據集構造
本文的兩個數據子集主要是通過爬取微博和司法論壇上的公開 post-response 數據,并按照如下的步驟進行處理:
匿名化:作者使用基于規則的方法或信息提取模型用占位符替換數據中的私人信息。具體來說,作者使用正則表達式來識別電子郵件、電話號碼和帳號等文本,并使用 NER 模型來提取名稱和地址等實體。
過濾敏感詞:敏感詞是通過匹配方法與精煉的敏感詞表進行檢測。由于敏感詞在語義方面也很重要,簡單地用占位符替換它們會破壞句子的完整性。因此,作者直接過濾掉所有帶有敏感詞的(post、response)對。
按長度過濾對話:作者清理長度小于 5 或大于 200 的對話,因為短話語往往包含有限的信息,而長話語通常有噪音。
分詞:對于中文分詞,作者使用 jieba 工具包。由于 jieba 是針對一般中文分詞實現的,作者引入了一個法律術語列表作為 PchatbotL 中增強的額外詞典。
通過一系列處理,和已有的數據集相比,本文的數據集具有顯著更大的規模。
以下是具體的兩個數據子集的統計信息。
基準實驗
在此基礎上,作者給出了基于檢索和基于生成的對話模型的基準效果,為后續實驗提供支持。
作者進一步分析了對話長度和訓練數據多少的影響,發現對話的長度增加的確有利于模型效果的提升,而過多的訓練數據可能會導致模型傾向于生成更類似的回復。
結論
在本文中,作者介紹了 Pchatbot 數據集,它分別具有開放域和司法域的兩個子集,即 PchatbotW 和 PchatbotL。Pchatbot 中的所有帖子和回復都附有用戶 ID 和時間戳,這極大地擴展了個性化聊天機器人的潛力。此外,Pchatbot 數據集的規模明顯大于以前的數據集,這進一步增強了智能對話代理的能力。作者用幾個基線模型評估 Pchatbot 數據集,實驗結果證明了用戶 ID 和大規模觸發的巨大優勢。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 公积金提取额度已满怎么办
- 下一篇: 捷信分期的东西能退吗