论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset
摘要
過去的難點:
過去的都是粗粒度的;
Few-NERD:
一個大規模的人類注釋的小樣本NERD數據集,它具有8種粗粒度和66種細粒度實體類型的層次結構。Few-NERD由來自維基百科的188238個句子組成,包含4601160個單詞,每個單詞都被標注為上下文或兩級實體類型的一部分。
Introduction
Few-NERD粗細粒度在下圖中展示,其中內圈表示的是粗粒度,外圈是細粒度:
就與NERD數據集的劃分類型是需要專業的人士的。而命名實體的少鏡頭學習研究工作主要面臨兩個挑戰:第一,用于少樣本學習的大多數數據集只有418種粗粒度實體類型,使得構建足夠多的“N-way”元任務和學習相關特征變得困難。事實上,我們觀察到大多數看不見的實體都是細粒度的。其次,由于缺乏基準數據集,不同作品的設置不一致,導致不清楚的比較。
該數據由188.2k個從維基百科文章中提取的句子組成,491.7k個實體;對于基準設置,我們設計了三個基于少量NERD的任務,包括一個標準監督任務(少量NERD(SUP))和兩個少量快照任務(少量NERD-INTRA)和FEWNRTD(INTER));
問題定義
NER
輸入: 一個句子x=x1,x2,...,xtx = {x_1, x_2,...,x_t}x=x1?,x2?,...,xt?
輸出:對于每個xix_ixi?分配yi∈Yy_i\in{Y}yi?∈Y來指明標記是命名實體的一部分或者不屬于任何實體(用O來表示) YYY是預定義的實體類別
Few-shot NER
Few-shot learning
在少樣本的場景下,樣本被按照批次(episode)組織成N-way-K-shot形式的數據。每個批次的數據又被組織成兩個集合,support set 支持集Strain={x(i),y(i)}i=1N?KS_{train} = \{x^{(i)}, y^{(i)}\}_{i=1}^{N*K}Strain?={x(i),y(i)}i=1N?K? 和 query set 查詢集Qtrain={x(j),y(j)}j=1N?KQ_{train} = \{x^{(j)}, y^{(j)}\}_{j=1}^{N*K}Qtrain?={x(j),y(j)}j=1N?K?,并且S∩Q=?S\cap{Q} = \emptysetS∩Q=?。其中support set用于學習,query set用于預測。其含義是,在每一批(episode)的support set中含有N種類型的實體,每種類型有K個實體,query set含有與support set同類型的實體。在測試過程中,所有類在訓練階段都是不可見的,并且通過使用支持集StestS_{test}Stest?的少數標記示例,few-shot學習系統需要預測未標記的查詢集Qtest(S∩Q=?)Q_{test}(S\cap{Q}=?)Qtest?(S∩Q=?)。模型通過對support set的學習,來預測query set的標簽。
采樣策略
由于NER是一個跟語境強相關的任務,采樣通常在句子層面進行。又由于一句話中可能含有多個類型的多個實體,一般很難通過句子級別的采樣嚴格滿足N-way-K-shot的場景設定。因此,我們設計了基于貪心策略的更為寬松的采樣方法。該采樣方法能夠將每個實體類型的數量限制在K~2K之間,即每次隨機抽樣一句話加入集合,計算當前集合中的實體類型數量和每個實體類型的實例數量,若它們超過N或2K,則舍棄這句話;否則,將這句話加入集合中,直到滿足N個實體類型,每個類型至少K個實體為止。
數據分析
數據集大小和分布
Few-NERD是第一個為Few-shot場景設計的數據集,同時也是最大的人工標注的NER數據集之一,相關的統計如表2所示。可以看出,Few-NERD包含了18萬余條句子,49萬余個標注的實體,460余萬個字符,并且有66個類別,顯著超越了之前的基準數據集。因此,Few-NERD不光可以做Few-shot NER任務,在標準的監督學習NER任務上同樣具有挑戰性(見實驗章節)。
總結
以上是生活随笔為你收集整理的论文阅读笔记(四)【ACL 2021】FEW-NERD: A Few-shot Named Entity Recognition Dataset的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode之无重复字符的最长子串
- 下一篇: 手机内部零件名称图解_旧手机回收后都干嘛