[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations
生活随笔
收集整理的這篇文章主要介紹了
[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1 介紹
- 2 span-relation representations
- 2.1未涉及句子級任務
- 3.span-relation model
- 3.1 span representation
- 3.2 span and relation label prediction
- 3.3 應用到不同任務
- 3.5 多任務學習MTL
- 4 GLAD Benchmark基準 and Results
- 4.1 實驗
- 4.2 證明通用模型有效
- 4.3 MTL
- 4.3.2 任務之間的關系分析
- 4.3.3 相似和區別
- 4.3.4 MTL under different settings
- 4.4.4 模型復雜度
1 介紹
-
nlp任務
- span標記
- span之間的關系標記
-
希望用統一的框架處理nlp任務
-
假設:人類可以用相同的格式標注數據,機器也可以
- 人類標注:已經有統一的標準BRAT
-
貢獻
- span標記和span之間的關系標記聯合模型
- 已經有端到端的共指消解模型(Lee et al. (2017))–本文對它進行少量修改
- 預訓練一個上下文的模型(Bert,Elmo)
- 驗證單一模型的適用性和通用性
- 在10個任務上
- named entity recognition(NER),
- relation extraction (RE),
- coreference resolution (Coref.),
- open information extraction (OpenIE),
- part-of-speech tagging (POS),
- dependency parsing (Dep.),
- constituency parsing (Consti.),
- semantic role labeling (SRL),
- aspect based sentiment analysis (ABSA),
- and opinion role labeling (ORL)
- 功能:
- 一個模型可以處理多個任務
- MTL:很方便,可以幫助數據量少的相關模型(相互協助)
- 有的任務會互相幫助
- 也有的任務會相互阻礙:因為不同的任務表現出不同的注意模式(attention)
- 在10個任務上
- span標記和span之間的關系標記聯合模型
-
預訓練模型
- 使用相同的表示,通過預訓練的embedding
-
本文
- 完全統一的模型,去處理所有任務
2 span-relation representations
- 解釋BRAT如何標注大量任務
- span標注–span-oriented tasks
- relation標注 --relation-oriented tasks
2.1未涉及句子級任務
- 注意
- 未涉及句子級別的任務(情感分類。。)
- 可以將整個句子當作一個span
- 但因為之前的通用模型中已經有很好的表現了,就不做了
- 通用模型(Lan and Xu, 2018)、
- 多任務學習 (Devlin et al.,2019; Liu et al., 2019)
- 未涉及句子級別的任務(情感分類。。)
3.span-relation model
- base(Lee et al., 2017)–一個端到端的共指消解模型,span標注
- 擴展到其他任務
- 模型核心:用一個任意長度的向量表示span–用以預測label或span-pair的label
3.1 span representation
- 條件:可以任意長度
- 內容表示zicz_i^czic?
- 邊界表示ziuz_i^uziu?
- 句子的tokenw1,w2,...,wnw_1,w_2,...,w_nw1?,w2?,...,wn?
- span:si=[(bbi,bbi+1,...,bei]s_i=[(b_{b_i},b_{b_i+1},...,b_{e_i}]si?=[(bbi??,bbi?+1?,...,bei??]
- c1,c2,...,cn=TokenRepr(w1,w2,...,wn)u1,u2,...,un=BiLSTM(c1,c2,...,cn)zic=SelfAttn(cbi,cbi+1,...,cei)ziu=[ubi;uei]zi=[zic;ziu]c_1,c_2,...,c_n=TokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_n=BiLSTM(c_1,c_2,...,c_n)\\ z_i^c=SelfAttn(c_{b_i},c_{b_i+1},...,c_{e_i})\\ z_i^u=[u_{b_i};u_{e_i}]\\ z_i=[z_i^c;z_i^u]c1?,c2?,...,cn?=TokenRepr(w1?,w2?,...,wn?)u1?,u2?,...,un?=BiLSTM(c1?,c2?,...,cn?)zic?=SelfAttn(cbi??,cbi?+1?,...,cei??)ziu?=[ubi??;uei??]zi?=[zic?;ziu?]
- tokenRepr:Glove or Bert
3.2 span and relation label prediction
- invalid label
- NEG_SPAN
- NEG_REL
- Model
- 預測所有的span(長度<l):MLP(多層感知機)softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}softmax(MLPspan(zi?))∈Δ∣L∣
- 剪枝:保留前K=n?τK=n\cdot \tauK=n?τ個span,剩下的為NEG_SPAN(閾值τ\tauτ低,則剪枝更多)
- 預測關系的感知機MLP:ojk=MLPrel([zj;zk;zj?zk])∈R∣R∣o_{jk}=MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}ojk?=MLPrel([zj?;zk?;zj??zk?])∈R∣R∣
3.3 應用到不同任務
-
最大化真實關系的概率
-
具體到不同任務上需求不同
- 關心前后順序:關系抽取
- 不關心順序:
- eg:共指消解:
- 連接相同概念的span–cluster
- 多個也只要連上了就好
- eg:共指消解:
-
為此,提供兩種loss–最大化
- pairwise loss:softmax(ojk)rjk,rjk是實際答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexessoftmax(ojk?)rjk??,rjk?是實際答案的indexes–其他所有任務
- 預測一對
- head loss:Σk∈head(sj)softmax([oj1,oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1},o_{j1},...,o_{jK})_kΣk∈head(sj?)?softmax([oj1?,oj1?,...,ojK?)k?–用于共指消解
- 預測一堆
- (?多元關系?怎么樣)
- pairwise loss:softmax(ojk)rjk,rjk是實際答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexessoftmax(ojk?)rjk??,rjk?是實際答案的indexes–其他所有任務
-
這兩個loss,僅在如何normalize時有區別,其他并無區別
-
test
- 共指消解:把span連接到得分最高的前件上e (Lee et al., 2017)
- consti:constituency parsing:貪婪的從上到下的解碼,去產生有效的解析樹
- dep:依賴解析:每個詞鏈接到一個父節點(最高關系得分的)
- other:對每對實體預測關系,沒關系的預測為NEG_REL
-
核心觀點
- 我們的模型任務無關
- 只要能建模為span標注任務和span關系預測任務即可
- 我們的模型任務無關
3.5 多任務學習MTL
- SpanRel實現MTL
- 共享參數,除了MLPs的
- 問題:
- 不同的任務,關注點不同(在語言方面)
- 所以對于所有任務不是獲得相同的增益的、
- 在相關任務上聯合訓練是增益的
- 而不相關的任務是hurt
- 如何選擇任務?
- 任務數目多時,手動選擇難
- 解決:
- SpanRel提供了一個系統的方式/基于attetion的方式–選擇任務對(互相有增益的)–4.3
4 GLAD Benchmark基準 and Results
- 提出GLAD基準和evaluation metrics
- 證明SpanRel
- 有效
- 對MTL有益
4.1 實驗
- metrics
- F1,P,R–for span and relation
- token representation:Glove,ELMo,Span-Bert,Bert
- BiLSTM 256 hidden\
- MLP:2 layers,128hidden
4.2 證明通用模型有效
- 在相同條件下與SOTA模型相比較
- token representation(Bert or Glove…)相同
- settings
- 通用模型有效
- 和sota差不多
- 和sota差不多
4.3 MTL
- MTL和STL(單任務學習),FT(finetune)
- 有Bert好于沒有Bert
- 有Finetune好于無FT
- 下降的比較多:
- 大多數任務數據稀疏
- 不同的任務關注點不同,相互之間可能有助益也有阻礙
4.3.2 任務之間的關系分析
- 假設:語言模型預訓練在理論上與MTL正交,實際上benefit是重疊的
- 分析
- (1)對于OpenIE和ORL來說,使用SRL進行多任務學習可以顯著提高性能,而其他任務的提高則很少或根本沒有。
- (2)依賴解析和SRL是對大多數目標任務有益的通用源任務。
- SpanREL可以很容易地進行MTL,并且看出誰是有益的源任務
4.3.3 相似和區別
- 證明SpanRel提供分析不同任務相似性和區別的平臺
- 猜測,與attention有關
- attention反應內部焦點
- 公式:simk(t,t′)=?1∣Xt∣Σx∈Xt∣∣Akt(x)?Akt′(x)∣∣F′Akt(x)是第k個頭的attentionmapsim_k(t,t')=-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t'}(x)||_{F'}\\A_k^t(x)是第k個頭的attention mapsimk?(t,t′)=?∣Xt?∣1?Σx∈Xt??∣∣Akt?(x)?Akt′?(x)∣∣F′?Akt?(x)是第k個頭的attentionmap
- 下圖證明這個公式確實反映了相似度
- 猜測,與attention有關
4.3.4 MTL under different settings
-
token representation 越強大,improvement越少
- MTL和預訓練模型都傾向于學習通用表達,benefit重疊了
- 5中glove訓練了所有模型,所以效果差了–超出能力范圍
-
數據稀疏的時候模型有用
4.4.4 模型復雜度
- 主要在bert
- span O(l?n)O(l\cdot n)O(l?n)
- relation O(K2)=O(τ2?n2)O(K^2)=O(\tau^2\cdot n^2)O(K2)=O(τ2?n2)
總結
以上是生活随笔為你收集整理的[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图的遍历——深度优先搜索+广度优先搜索
- 下一篇: Linux安装MySQL的完整步骤并有关