别再用假任务做小样本学习实验了!来试试这个全新基准数据集
?PaperWeekly?·?作者|侯宇泰
學校|哈爾濱工業大學博士生
研究方向|自然語言處理
NLP 小樣本研究往往使用人為構造的 N 分類任務來評價模型性能。然而,一方面,這些人造的簡單任務不能反映真實世界 NLP 問題的復雜性;另一方面,現有 NLP 小樣本研究缺乏一個統一的 benchmark,導致實驗效率低下。
為此,我們標注了全新的小樣本聯合學習基準數據集 FewJoint,并基于該數據集組織了 SMP2020-ECDT 小樣本對話語言理解評測,同時提供了適配 FewJoint 的全新小樣本工具平臺 MetaDialog。
數據集論文:
https://arxiv.org/abs/2009.08138
數據集下載地址:
https://atmahou.github.io/attachments/FewJoint.zip
小樣本工具平臺主頁地址:
https://github.com/AtmaHou/MetaDialog
本文主要內容:
1. FewJoint 基準數據集介紹
2. SMP2020-ECDT 小樣本對話理解評測介紹
3. 小樣本平臺工具 MetaDialog
4. 相關鏈接
FewJoint 基準數據集介紹
1.1 簡介
小樣本學習(Few-shot Learning)旨在像人一樣只用幾個樣本學習新的任務,近年來已經成為受到整個機器學習社區關注的熱點問題,并被看作是讓機器智能接近人類智能的關鍵方向。
▲圖1:小樣本學習旨在讓機器像人一樣用幾個樣本進行學習
Few-shot Learning 在計算機視覺領域和理論領域快速發展,但在 NLP 領域的進展卻相對緩慢。造成這種差異性的一個主要原因是缺少公共的評價基準(benchmark)。
已有的 Few-shot NLP 研究多是在自己構造的數據集上進行實驗,研究者經常需要復現前人工作而不同論文的結果也往往不是直接可比較的。這種低效的實驗方式極大地影響了研究效率,也阻礙了方法的累積進步。
為此,我們推出了一個全新的小樣本基準數據集 – FewJoint,基于該數據集,我們還組織了 SMP 2020 的小樣本對話語言理解評測。不同于過往的 NLP 小樣本研究使用人為構造的簡單文本分類任務,我們引入了包含 59 個真實領域的對話語言理解任務(Spoken Language Understanding,SLU)。
SLU任務在簡單文本分類(Intent Detection)之外,還涵蓋了序列標注(Slot Filling)與多任務聯合學習(Joint Learning)。這些更高級且真實的任務使得 FewJoint 能比現有的簡單文本分類任務更好地反映真實世界 NLP 任務的難度和復雜性。
FewJoint 基準數據集主要有如下幾個特點:
包含 59 個真實 domain,目前 domain 最多的對話數據集之一,可以避免構造模擬 domain,非常適合小樣本和元學習方法評測。
反映真實 NLP 任務難度,打破目前 Few-shot NLP 只做文本分類等簡單人造任務的局限性。
完全公開,提供易用的 NLP Few-shot Learning Benchmark。
提供配套 N LP few-shot learning 工具平臺——MetaDialog,方便快速開展實驗。
1.2?數據集構造
我們選取了訊飛 AIUI 開放平臺上的 59 個真實對話機器人 API 作為我們的領域。用戶語料的來源主要包括兩部分:
(1)來自平臺真實用戶語料
(2)領域專家人工構造的語料
兩個數據來源的數據比例大概為 3:7。
在對每一條數據進行用戶意圖和語義槽標注后,我們將所有 59 個 domain 分成 3 個部分:45 個訓練 domain,5 個開發 domain,9 個測試 domain。我們將測試和開發 domain 數據重構為小樣本學習形式:每個 domain 包含一個人工構造的 K-shot ?支持集(support set),以及一個由剩余其他數據組成的查詢集(query set)。
▲圖2 FewJoint 小樣本數據樣例
如圖 2 所示,在 FewJoint 上實驗時,模型先在訓練 domain 上學習通用的先驗知識。然后在每個測試 domain 上,模型根據少量 support set 中的樣例,預測查詢集中的樣本的用戶意圖(Intent)和語義槽(Slot)。
1.3?數據集統計
表1是我們收集的原始用戶語料信息以及相應的語義框架標注信息。
統計內容 | 統計值 | ||
語料總句子數 | 6,694 | ||
平均句子長度 | 9.9 | ||
總領域數 | 59 | ||
訓練領域數 | 45 | ||
開發領域數 | 5 | ||
測試領域數 | 9 | ||
總意圖類別數 | 143 | ||
平均每個領域意圖數 | 2.42 | ||
總語義槽類別數 | 205 | ||
平均每個領域語義槽數 | 3.47 |
▲表1 FewJoint 原始數據統計
表 2 是我們重構后的小樣本評測集信息,我們提供 4 種 shot 設置:1,3,5,10。其中,3-shot 是我們所推薦的主設置。
Few-shot設置 | 支持集大小 | 查詢集大小 | |
1-shot | Dev | 22 | 556 |
Test | 77 | 1,624 | |
3-shot | Dev | 66 | 511 |
Test | 213 | 1,572 | |
5-shot | Dev | 108 | 470 |
Test | 341 | 1,439 | |
10-shot | Dev | 192 | 389 |
Test | 668 | 1,120 | |
_ | _ | 平均支持 集意圖數 | 平均支持 集語義槽數 |
1-shot | Dev | 1.4 | 1.7 |
Test | 1.3 | 2.0 | |
3-shot | Dev | 4.1 | 4.1 |
Test | 3.7 | 4.6 | |
5-shot | Dev | 6.8 | 6.5 |
Test | 6.0 | 7.3 | |
10-shot | Dev | 12 | 11.4 |
Test | 11.7 | 15.0 | |
▲表2 小樣本數據統計信息
1.4?實驗結果
這里我們給出基于該數據集的 baseline 結果,在Prototypical Network (SepProto)[1] 基礎上,我們嘗試了兩種常用的 trick:
(1) Joint:聯合學習 Intent 和 Slot。
(2) Finetune: 在目標 domain 精調 Metric 函數。
實驗結果如表 3 所示,可以看到 JointProto 明顯地優于 SepProto,這體現出了聯合學習 Intent 和 slot 的必要性。同時 Finetune 的結果提升也顯示出了通過精調來適應目標領域的重要性。
Model | Intent Acc. | Slot F1 | Sentence Acc. |
SepProto | 72.30 | 34.11 | 16.40 |
JointProto | 78.46 | 40.37 | 23.65 |
JointProto+Finetune | 73.82 | 61.79 | 38.97 |
▲ 表3 主要Baseline實驗結果
SMP2020-ECDT小樣本對話理解評測介紹
2.1 比賽概況
ECDT 中文人機對話技術評測(The Evaluation of Chinese Human-Computer Dialogue Technology)是 SMP 全國社會媒體處理大會的評測項目之一,我們在今年的評測中首次引入了小樣本對話語言理解技術任務。
經過近 4 個月的激烈角逐,來自招行 AI Lab、上海交通大學、北京大學、香港中文大學等隊伍獲得了獎項。完整的獲獎名單如下:
_ | 獲獎隊伍 | 隊員 | |
一等獎 | 招行AI Lab CC | 文俊杰、鄭桂東、劉沛奇、段旭歡、劉奕君 | |
二等獎 | 上海交通大學 SpeechLab | 俞凱、朱蘇、陳露、曹瑞升、李杰宇、楊晨宇 | |
北京大學 | 鄒月嫻、周培林、侯曉龍、徐偉元 | ||
三等獎 | 香港中文大學-高可信工程實驗室 | 馮沛璋、王鴻儒、劉常健 | |
Coca-Dialog | 陳凱、張小童、牛萌、楊魯鋒 | ||
來也科技小組 | 段沛宸、于孟萱 | ||
1STEP.AI | 顧夏輝、李偉、劉威 | ||
▲表4 評測獲獎名單
2.2 參賽方法
在采用的比賽方法方面,參賽隊基本都使用了 Finetuning 和 Joint Learning 的技巧,前幾名的方法都使用了基于 Metric Learning 的小樣本學習框架,并采用了 Collapse Dependency Transfer [2] 策略處理小樣本下的序列標注問題。
第一名的解決方案的模型主體構建于本基準數據集提供的平臺 MetaDialog,在語義槽識別中還引入了 L-TapNet 模型 [2]。在解決意圖識別上,參賽隊主要 Finetune 簡單的分類器,或者利用原型網絡 Prototypical Network。其中,前者展示出更好的效果。
Collapsed Dependency Transfer 和 L-TapNet 是 A CL 2020 長文 Few-shot Slot Tagging [1] 中提出的方法。具體的,為了建模標簽之間的依賴關系(Transition Score),該工作提出了一種跨領域建模標簽依賴關系的方法——坍縮依賴遷移(Collapsed Dependency Transfer, CDT)。
CDT 首先從數據充足的源域(Source Domain)學習抽象標簽依賴關系,并在小樣本的目標域中泛化學到的依賴關系來輔助標簽序列的預測。
為了在小樣本情形下得到每個詞的標簽概率(Emission Score),該工作還提出了 L-TapNet,來基于每個詞和不同標簽表示的相似度計算屬于不同標簽的概率。L-TapNet 在計算時利用了 label 名字中的語義信息,并通過線性偏差消除法(Linear-error Nulling)構造映射空間來將不同標簽類別在 embedding 空間有效分開。
▲圖3 在比賽中大量使用的基于CDT的CRF架構
小樣本平臺工具MetaDialog
我們為 FewJoint 數據集提供了一個完全適配的自然語言小樣本工具平臺——MetaDialog。它為兩種主要的自然語言任務(文本分類和序列標注)提供 Few-shot Learning 下的解決方案。該平臺的主要特點如下:
(1)SOTA 解決方案
支持CDT [2] 用于序列標記任務的 Few-shot Learning。
支持使用標簽名稱或標簽描述中的語義信息。
支持與 huggingface/transformers 兼容的各種深度預訓練詞表示,例如 BERT 和 Electra。
支持成對嵌入表示機制(Pair-wise Embedding)[2] [3]。
(2)易用且靈活的架構
提供通用的 Train & Testing 工具。
支持具有統一接口的各種小樣本模型,例如 ProtoNet 和 TapNet。
支持多種可以快速切換的相似性度量方式和 logits 縮放方法。
提供元學習風格的小樣本數據生成工具。
相關鏈接:
數據集論文:
https://arxiv.org/abs/2009.08138
數據集下載地址:
https://atmahou.github.io/attachments/FewJoint.zip
小樣本工具平臺主頁地址:
https://github.com/AtmaHou/MetaDialog
參考文獻
[1] Jake Snell, Kevin Swersky, and Richard Zemel. 2017. Prototypical networks for few-shot learning. In NIPS, pages 4077–4087.
[2] Yutai Hou, Wanxiang Che, Yongkui Lai, Zhihan Zhou, Yijia Liu, Han Liu, and Ting Liu. 2020. Few-shot slot tagging with collapsed dependency transfer and label-enhanced task-adaptive projection network. In Proc. of the ACL.
[3] Gao T, Han X, Zhu H, Liu Z, Li P, Sun M, Zhou J. FewRel 2.0: Towards more challenging few-shot relation classification. arXiv preprint arXiv:1910.07124. 2019 Oct 16.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的别再用假任务做小样本学习实验了!来试试这个全新基准数据集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 平仓的难度在于心理素质,心理素质不强影响
- 下一篇: 知识库问答中的关系识别研究回顾