當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations

發布時間：2024/7/5 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 [ACL2020]Generalizing Natural Language Analysis through Span-relation Representations 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 介紹
2 span-relation representations
- 2.1未涉及句子級任務
3.span-relation model
- 3.1 span representation
- 3.2 span and relation label prediction
- 3.3 應用到不同任務
- 3.5 多任務學習MTL
4 GLAD Benchmark基準 and Results
- 4.1 實驗
- 4.2 證明通用模型有效
- 4.3 MTL
- - 4.3.2 任務之間的關系分析
  - 4.3.3 相似和區別
  - 4.3.4 MTL under different settings
  - 4.4.4 模型復雜度

解釋BRAT如何標注大量任務
- span標注–span-oriented tasks
- relation標注 --relation-oriented tasks

base(Lee et al.， 2017)–一個端到端的共指消解模型，span標注
- 擴展到其他任務
- 模型核心：用一個任意長度的向量表示span–用以預測label或span-pair的label

條件：可以任意長度
內容表示 $z_i^c$
邊界表示 $z_i^u$
句子的token $w_1,w_2,...,w_n$
span: $s_i=[(b_{b_i},b_{b_i+1},...，b_{e_i}]$
$c_1,c_2,...,c_n=TokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_n=BiLSTM(c_1,c_2,...,c_n)\\ z_i^c=SelfAttn(c_{b_i},c_{b_i+1},...，c_{e_i})\\ z_i^u=[u_{b_i};u_{e_i}]\\ z_i=[z_i^c;z_i^u]$
- tokenRepr:Glove or Bert

invalid label
- NEG_SPAN
- NEG_REL
Model
預測所有的span（長度<l）:MLP(多層感知機） $softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}$
剪枝：保留前 $K=n?τK=n\cdot \tau$ 個span,剩下的為NEG_SPAN(閾值 $τ\tau$ 低，則剪枝更多)
預測關系的感知機MLP: $ojk=MLPrel([zj;zk;zj?zk])∈R∣R∣o_{jk}=MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}$

最大化真實關系的概率
具體到不同任務上需求不同
- 關心前后順序：關系抽取
- 不關心順序：
  - eg:共指消解：
    - 連接相同概念的span–cluster
    - 多個也只要連上了就好
為此，提供兩種loss–最大化
- pairwise loss: $softmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexes$ –其他所有任務
  - 預測一對
- head loss： $Σk∈head(sj)softmax([oj1，oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1}，o_{j1},...,o_{jK})_k$ –用于共指消解
  - 預測一堆
  - (?多元關系？怎么樣）
這兩個loss，僅在如何normalize時有區別，其他并無區別
test
- 共指消解：把span連接到得分最高的前件上e (Lee et al., 2017)
- consti:constituency parsing：貪婪的從上到下的解碼，去產生有效的解析樹
- dep:依賴解析：每個詞鏈接到一個父節點（最高關系得分的）
- other：對每對實體預測關系，沒關系的預測為NEG_REL
核心觀點
- 我們的模型任務無關
  - 只要能建模為span標注任務和span關系預測任務即可

假設：語言模型預訓練在理論上與MTL正交，實際上benefit是重疊的
分析
- (1)對于OpenIE和ORL來說，使用SRL進行多任務學習可以顯著提高性能，而其他任務的提高則很少或根本沒有。
- (2)依賴解析和SRL是對大多數目標任務有益的通用源任務。
- SpanREL可以很容易地進行MTL,并且看出誰是有益的源任務

證明SpanRel提供分析不同任務相似性和區別的平臺
- 猜測，與attention有關
  - attention反應內部焦點
  - 公式： $simk(t,t′)=?1∣Xt∣Σx∈Xt∣∣Akt(x)?Akt′(x)∣∣F′Akt(x)是第k個頭的attentionmapsim_k(t,t')=-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t'}(x)||_{F'}\\A_k^t(x)是第k個頭的attention map$
  - 下圖證明這個公式確實反映了相似度

token representation 越強大，improvement越少
- MTL和預訓練模型都傾向于學習通用表達，benefit重疊了
- 5中glove訓練了所有模型，所以效果差了–超出能力范圍
數據稀疏的時候模型有用

以上是生活随笔為你收集整理的[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。