CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(关系抽取,ACL2020,重叠关系)
生活随笔
收集整理的這篇文章主要介紹了
CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(关系抽取,ACL2020,重叠关系)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1.介紹
- 2.相關工作
- 3.The CASREL Framework
- 3.1 Bert
- 3.2 cascade decoder
- 4.實驗
- 5.結果
- 參考
1.介紹
-
做重疊關系的少
-
重疊關系:
- Zeng et al. (2018) :seq2seq+強化學習改善提取順序
- Fu et al. (2019):(GraphRel)GCNs將文本建模為關系圖
-
以前的做法
- 將關系當做離散的標簽分配給實體對—這個做法對機器學習來說很難
- 問題
- 類別分布不平衡
- 多數提取出來的實體對之間無關系
- 同一實體參與多個有效關系(重疊三元組),分類器可能會混淆
- 如果沒有足夠的訓練樣例,分類器難以區分(!!有的多標簽分類難以工作就是因為這個)
改變f(s,o)→rf(s,o) \rightarrow rf(s,o)→r(原來的做法)到fr(s)→of_r(s)\rightarrow ofr?(s)→o
- f(s,o)→rf(s,o) \rightarrow rf(s,o)→r:實體對找關系
- fr(s)→of_r(s)\rightarrow ofr?(s)→o:現在,學習關系函數下,給定頭實體,預測尾實體
- 如果不存在尾實體,則無此關系
本文做法CASREL
- 編碼器:Bert
- 序列標注:抽出頭實體
- 關系特定的尾實體標注:對每一個頭實體,針對其可能的關系抽取其尾實體fr(s)→of_r(s)\rightarrow ofr?(s)→o
效果
- Bert不預訓練,效果也最好
- 預訓練了當然更好
- 有豐富的先驗知識
貢獻
一個疑問:對于大多數的頭實體和關系而言,尾實體應該是不存在的?也存在一個類別不平衡問題
2.相關工作
- pipeline:有傳遞誤差
- 聯合模型
- 以前:傳統的特征工程,手工流程多
- 神經模型:
- Miwa and Bansal, 2016
- 共享實體、關系模型的參數實現聯合,無聯合解碼、流程上仍然是把實體對pipeline到關系抽取中
- (也有共用解碼器的)
- –并沒有學習到實體、關系之間的依賴
- Zheng et al. (2017)
- 共用解碼器,以統一的模式解碼關系和實體
- 序列到序列的標注問題
- 以上進展很好,但不能解決重疊關系抽取
- Miwa and Bansal, 2016
- 重疊關系
- Zeng et al. (2018) :
- seq2seq+強化學習改善提取順序
- 通過拷貝機制解決
- Fu et al. (2019):(GraphRel)
- GCNs將文本建模為關系圖
- Zeng et al. (2018) :
3.The CASREL Framework
-
在三元組層面上建模
- 以前的工作都沒有:都是單獨定義關系和實體,沒有在三元組層次上集成
-
最大化的目標函數
-
公式2:概率的鏈式法則
-
公式3:利用了一個事實,所有與s相關的關系必然有o,而其他關系則無o。
-
該公式的優點
- 該似然是開始于三元組級別的,優化也是在三元組級別上
- 對于復數三元組如何在句中共享實體沒有假設,通過設計來處理三元組問題
- 公式3分解而來的啟發:先得到s,再對關系r,找到其對應的o
- 這種模式:允許一次性提取多個三元組
- the subject tagger:找到所有的頭實體s
- relation-specific
object taggers:先再對每一個s,特定于關系,尋找對應關系下,s所對應的o - 這兩個模塊,可以任意替代,但本文中是Bert+binary taggers
3.1 Bert
- 因為輸入單句,所以沒有sementation embedding
- 輸入
- 輸入嵌入分別是token embeddings(WsW_sWs?), segmentation embeddings 和position embeddings(WpW_pWp?) 的總和
- 輸入
3.2 cascade decoder
- Cascade Decoder
- a subject tagger:抽取頭實體
- a set of relation specific object taggers:對于特定關系,抽取頭實體所對應的尾實體fr(s)→of_r(s)\rightarrow ofr?(s)→o
- vsubkv_{sub}^kvsubk?由實體包含詞的token平均獲得
4.實驗
5.結果
- 處理重疊關系上表現優異
- 從f(s,o)→o轉變到fr(s)→of(s,o)\rightarrow o轉變到f_r(s)\rightarrow of(s,o)→o轉變到fr?(s)→o
- 在處理句內多關系上表現優秀
- 實驗效果好
參考
code
論文
總結
以上是生活随笔為你收集整理的CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(关系抽取,ACL2020,重叠关系)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最小生成树——普里姆算法和克鲁斯卡尔算法
- 下一篇: 论文阅读课1-Attention Gui