ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集
?PaperWeekly 原創 ·?作者?|?徐葉琛
單位?|?字節跳動
研究方向?|?NLP語義理解、問答系統
自然語言處理語義解析子任務 Text2SQL 旨在將用戶的自然語言轉換為 SQL 序列,繼而完成數據庫查詢工作,打破了人與結構化數據庫之間的壁壘,具有廣泛的研究&應用價值。
?
近日,微軟亞洲研究院聯合北航和西安交大,發布了全新跨領域多輪交互 Text2SQL 中文數據集 CHASE,相關論文已被 ACL 2021 接收。
?
本文從現有 Text2SQL 數據集、CHASE 主要特點、解決方案測評等角度來講解這篇頂會論文。隨同數據集發布的還有同名公開榜單。
?
論文標題:
CHASE: A Large-Scale and Pragmatic Chinese Dataset for Cross-Database Context-Dependent Text-to-SQL
論文鏈接:
https://xjtu-intsoft.github.io/chase/
Text2SQL任務和數據集
典型的 Text2SQL 任務是給定一張表格 ,用戶輸入自然語言問句 ,模型自動生成相應SQL序列 ,相當于對文本和結構化表格同時建模:。
▲ 任務示例
?
自從上世紀 90 年代提出該任務以來,Text2SQL 在 NLP 和數據庫社區吸引了眾多科研人員的關注,學術界和工業界相繼發布了一些大規模數據集。從單領域、單輪到跨領域、多輪,任務難度逐漸提升。
▲ 現有的Text2SQL數據集
?
在實際場景,用戶往往會圍繞一個感興趣的問題持續發問,直到從數據庫中獲得想要的信息。而以往的 Text2SQL 多輪數據集沒有中文,僅有的英文數據集? Sparc [1] 和 CoSQL?[2] 又包含了很多上下文獨立的樣本,且部分數據存在標注混亂。
CHASE簡介
鑒于以上不足,微軟亞洲研究院聯合北航和西安交大,發布了最新的 Text2SQL 數據集 CHASE,它有以下特點:
?
1)跨領域,包含 280 個不同領域的數據庫,且 train/dev/test 不重復;
?
2)大規模,包含 5459 個多輪問題組成的列表,一共 17940 個<query, SQL>二元組;
?
3)多輪交互,同一個列表的問題之間會有實體省略等交互現象,類似于 SParc 和 CoSQL;
?
4)中文數據集,問題和數據庫表名、列名、其中的元素都是中文,相比之下,CSpider 只是將表名、列名字段翻譯為中文。
?
5)標注信息豐富,除了 query 和 SQL,CHASE 額外標注了(1)上下文依賴關系,包括 Coreference 共指、Ellipsis 省略;(2)模式鏈接關系,對于 query 中提到的表名和列名信息進行了標記。
?
下圖是 CHASE 中問題列表的實際例子。
用戶的第一個輸入“哪所大學培養了最多 MVP 球員”屬于獨立問題,沒有可參考的上下文;緊接著第二個問題“狀元呢”直接省略了主語“大學”,完整的問題應該是“哪所大學培養了最多狀元”,模型需要結合歷史信息才能生成正確 SQL。第三個問題同樣類似。
完整的 CHASE 數據集由 CHASE-C 和 CHASE-T 兩部分組成。
CHASE-C
CHASE-C 收集了百度去年發布的 DuSQL [3] 單輪中文數據集中的 120 個高質量數據庫,包含了運動、教育、娛樂等 60 個子領域;并修復了其中的一些錯誤(例如重復列、缺少的外鍵約束等等)。
?
隨后,作者安排了 12 位中國大學生從頭開始標注具有上下文依賴的問題列表,以及上文介紹的兩種依賴關系,
CHASE-T
CHASE-T 翻譯自 Sparc 數據集公開的 train/dev 部分。作者讓參與翻譯的學生修改那些與上下或主題無關的 query 和 SQL,使問題序列更加連貫和自然。
在構建過程中,CHASE-T 發現并修復了 SParC 中 150 個不正確的 SQL 查詢,并調整了 1470 個 SQL 查詢,使最終的問題序列更加連貫。
下表統計了 CHASE 和其他多輪 Text2SQL 數據集的對比信息,可以發現 CHASE 規模最大,且標注信息最豐富。
?
現有 SOTA 模型效果評測
在實驗部分,作者選取了 IGSQL [4]、RAT-SQL [5]、EditSQL [6] 3種當前? Text2SQL 領域的 SOTA 方法進行對比,采用問題匹配度 Question Match(QM) 和交互匹配度 Interaction Match(IM)兩種評測指標。
?
最終得到了 4 個觀察結論:
?
1)當前 CHASE 上最優模型 IGSQL 的 QM 僅為40.4%,相比之下 Sparc 和 CoSQL 上的最高 QM 分別是 60.1% 和 50.8%,表明 CHASE 對未來的研究提出了重大挑戰;
?
2)SOTA 方法在 CHASE-C 上的 QM 和 IM 結果均低于 CHASE-T,證明從頭創建的問題序列更具挑戰性;
?
3)SOTA 方法在 CHASE-T 的表現要比 Sparc 差,原因來自兩方面:(1)CHASE 修復了 Sparc 中的一些 badcase,使得前者更具挑戰性;(2)現有方法只針對英文,在處理中文輸入時可能表現的不那么穩定;
?
4)盡管 RAT-SQL 在 Sparc 和 CoSQL 上達到了 SOTA 性能,卻在 CHASE 上遠落后于 EditSQL 和 IGSQL,原因在于 RAT-SQL 采用了一種基于字符串匹配的方法來尋找數據庫模式和 query 提及之間的聯系;然而,當許多模式在問題中沒有被準確提及時(例如涉及語義推理),這種方法就會陷入困境;CHASE 中的模式鏈接標注信息為未來解決這一問題提供了幫助。
▲ 實驗對比
總結
CHASE 是最新的 Text2SQL 高質量多輪交互數據集,通過人工標注和 review 豐富了問題的多樣性和凝聚力,貼近實際應用場景的同時增大了 Text2SQL 任務的難度。
?
現有的 SOTA 方法在 CHASE 公開榜單上最高 QM 準確率只有 43.7%,還有巨大的提升空間,對語義理解感興趣的同學不妨來試試刷榜!
?
最后,我在 Github 上整理了一個 Text2SQL 資源倉庫,包含數據集、解決方案、paper、落定應用等信息,可以幫助你快速了解 Text2SQL 領域的研究現狀,鏈接:
https://github.com/yechens/NL2SQL
?
參考文獻
[1] Tao Yu, Rui Zhang, et al. 2019b. SParC: Cross-domain semantic parsing in context. In Proceedings of the 57th Annual Meeting of the ACL, pages 4511–4523.
[2] Tao Yu, Rui Zhang, et al. 2019a. CoSQL: A conversational text-to-SQL challenge towards crossdomain natural language interfaces to databases. In Proceedings of the 2019 Conference on EMNLP and the 9th IJCNLP, pages 1962–1979.
[3] Lijie Wang, Ao Zhang, et al. 2020c. DuSQL: A large-scale and pragmatic Chinese text-to-SQL dataset. In Proceedings of the 2020 Conference on EMNLP, pages 6923–6935. Association for Computational Linguistics.
[4] Yitao Cai and Xiaojun Wan. 2020. IGSQL: Database schema interaction graph based neural model for context-dependent text-to-SQL generation. In Proceedings of the 2020 Conference on EMNLP) pages 6903–6912.
[5] Bailin Wang, Richard Shin, et al. 2020a. RATSQL: Relation-aware schema encoding and linking for text-to-SQL parsers. In Proceedings of the 58th Annual Meeting of the ACL, pages 7567–7578.
[6] Rui Zhang, Tao Yu, et al. 2019. Editing-based SQL query generation for cross-domain context-dependent questions. In Proceedings of the 2019 Conference on EMNLP and the 9th IJCNLP, pages 5338–5349.
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACL 2021|CHASE: 首个跨领域多轮Text2SQL中文数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云峰北街和铁西广场哪个适合租房
- 下一篇: 泾阳花园酒店附近租房子两室一厅多少钱?