论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意
文章目錄
- abstract
- 1.introduction
- 2.相關工作
- 2.1 關系提取
- 2.2 KG embedding
- 2.3 GCNN
- 3. 方法
- 3.1符號
- 3.2框架
- 3.2.1 Instance Encoder
- 3.4 Relational Knowledge Learning through KG Embeddings and GCNs.
- 3.5 knowledge-aware attention
- 4.實驗
- 4.1 數據集
- 4.3 result
- 4.4 長尾關系的處理
- 4.5 ablation
Zhang, N., et al. (2019). Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks. NAACL.
大概是本文code
abstract
我們提出了一種用于長尾不平衡數據的遠程監督關系提取方法。這里的挑戰是為類分布尾部的類學習精確的few-shot模型,因為這些類的可用數據很少。受在尾巴的數據和在頂部的數據之間豐富的語義關聯的啟發,我們利用分布頂部數據豐富的類的知識來提高尾部數據貧乏類的性能。首先,我們提出利用知識圖嵌入的類標簽間的隱式關系知識,利用圖卷積網絡學習顯式關系知識。其次,通過粗到細的知識感知注意機制,將關聯知識集成到關聯抽取模型中。我們展示了一個大型基準數據集的結果,它表明我們的方法明顯優于其他基線,特別是在長尾關系方面。
- 用于:長尾不平衡數據
- long-tail:指的是類似正態分布的尾巴那一部分,也就是可用數據少
- 方法:遠程監督
- 挑戰:
- long-tail的可用數據少
- 目前的遠程監督方法都忽略了這個,所以難以從文本中提取全面的信息
- long-tail不容忽略:NYT中70%都是(Riedel et al., 2010; Lei et al., 2018)
- 如何在訓練實例有限的情況下來學習?
- long-tail的可用數據少
- 啟發:long-tail數據和分布頂部的數據之間有豐富的語義關聯
- 解決:可以用頂部數據來提高尾部數據的performance
- 如果語義上相似,就可以轉換
- 這樣可以增強RE,縮小潛在的搜索空間,減少關系之間的不確定性(Ye et al., 2017)
- eg:如果一對實體包含/人/死者/死亡地點(多),很有可能包含/人/死者/埋葬地點(少)。
- 存在兩個問題
- 關系知識的學習:也可能導致負遷移
- 利用關系知識:
- 將關系知識集成到現有的RE模型也是一個挑戰
- 做法
- 編碼器(Instance Encoder):
- 首先使用CNN(Zeng et al。,2014,2015)編碼
- 輸入:一個實例及其實體提及對
- 語義編碼為一個向量
- 關系知識學習(Relation Knowledge Learning):
- 預訓練的嵌入:以知識圖譜的嵌入來學習隱式關系知識
- (Yang et al。,2015):語義相近,嵌入相近
- 使用 TransE (Bordes et al., 2013)
- 將通用的消息傳遞推理算法與神經網絡的對應算法進行同化–>得到更好的嵌入
- 利用圖卷積網絡學習顯式關系知識
- KGs:有多對一關系,數據稀疏–無足夠的關系信號
- 用GCN來學習
- 輸出:concate(GCN輸出,KG embedding)
- 預訓練的嵌入:以知識圖譜的嵌入來學習隱式關系知識
- knowledge-aware attention
- 以從粗到細的注意力機制將關系知識和編碼句子注入到model中
- 目標:選擇與信息圈圈匹配的最informative instance
- 編碼器(Instance Encoder):
- 好處
- 關系知識:
- 為關系預測提供了更多信息
- 為attention提供參考–提高long-tail的性能
- 關系知識:
1.introduction
關系抽取是信息抽取中的一項重要工作,其目的是根據兩個給定實體之間的相關上下文提取它們之間的關系。由于能夠提取文本信息,并使許多NLP應用程序(如信息檢索、對話生成和問題回答)受益,因此重新吸引了許多研究人員。
- 傳統的監督模型在這項任務中得到了廣泛的探索(Zelenko et al., 2003;Zeng等,2014);然而,他們的表現在很大程度上取決于培訓數據的規模和質量。
- 遠程監督方法(Distant supervision,DS)
- 用于:構架大規模數據
- (Mintz et al., 2009)提出
- KGs與文本對齊,來自動標記訓練實例
- (Wu et al., 2017;Feng等,2018)
為了構建大規模的數據,(Mintz et al., 2009)提出了一種新的遠程監控(distance supervision, DS)機制,通過將現有的知識圖(knowledge graphs, KGs)與文本對齊,來自動標記訓練實例。DS使RE模型能夠在大型培訓語料庫上工作,因此成為RE最近的主要方法(Wu et al., 2017;馮等,2018)。雖然這些DS模型在公共關系上取得了良好的效果,但當某些關系的訓練實例較少時,其性能仍然會急劇下降。從經驗上看,DS可以自動標注足夠數量的訓練數據;然而,這些數據通常只覆蓋關系的有限部分。許多關系都是長尾關系,數據仍然不足。目前的DS模型忽略了長尾關系問題,難以從純文本中提取出全面的信息。
- 目前的遠程監督方法都忽略了long-tail,所以難以從文本中提取全面的信息
- long-tail不容忽略:NYT中70%都是(Riedel et al., 2010; Lei et al., 2018)
處理長尾非常困難,因為可用的訓練示例很少。因此,將知識從數據豐富且語義相似的頭類轉移到數據貧乏的尾類是很自然的(Wang et al., 2017)。例如,長尾關系/人/死者/埋葬地和頭關系/人/死者/死亡地屬于同一分支/人/死者/*,如圖2所示。它們在語義上是相似的,利用head關系知識并將其轉換為長尾關系是有益的,從而提高了總體性能。換句話說,一個實體元組的長尾關系可以有類關系和頭關系,在預測未知關系時,可以利用這類關系增強RE,縮小潛在的搜索空間,減少關系之間的不確定性(Ye et al., 2017)。如果一對實體包含/人/死者/死亡地點,很有可能包含/人/死者/埋葬地點。如果能將兩種關系之間的關系知識結合起來,提取出頭部關系,將為長尾關系的預測提供依據。
- 分布頂部的關系–>long-tail的關系
- 如果語義上相似,就可以轉換
- 這樣可以增強RE,縮小潛在的搜索空間,減少關系之間的不確定性(Ye et al., 2017)
- eg:如果一對實體包含/人/死者/死亡地點(多),很有可能包含/人/死者/埋葬地點(少)。
- 存在兩個問題
- 關系知識的學習:也可能導致負遷移
- 利用關系知識:
- 將關系知識集成到現有的RE模型也是一個挑戰
- 如何做
- 利用KGembedding->提取隱式
- (Yang et al。,2015):語義相近,嵌入相近
- 和GCN->明確的關系表示
- KGs:有多對一關系,數據稀疏–無足夠的關系信號
- 用GCN來學習
- 利用KGembedding->提取隱式
然而,存在兩個問題:(1)關系知識的學習:語義相似的類可能包含更多的關系信息,促進遷移,而不相關的類(如/location/location/contains和/people/family/country)通常包含較少的關系信息,可能導致負遷移。(2)利用關系知識:將關系知識集成到現有的RE模型是一個挑戰。
為了解決學習關系知識的問題,如(Lin et al。,2016; Ye et al。,2017)所示,我們使用類嵌入來表示關系類,并利用KG嵌入和圖卷積網絡(GCN)來提取隱式和明確的關系知識。具體而言,之前的研究(Yang et al。,2015)已經表明,語義相似關系的嵌入在潛在空間中彼此靠近。例如,關系/人/人/地方生活和/人/人/國籍更相關,而關系/人/人/職業與前兩個關系的相關性較小。因此,利用KG的這些知識是很自然的。但是,由于KGs內存在多對一關系,因此每個班級的相關資料可能會分散。換句話說,類之間可能沒有足夠的關系信號。因此,我們利用GCN來學習明確的關系知識。
為了解決利用關系知識的問題,我們首先使用卷積神經網絡(Zeng et al。,2014,2015)來編碼句子;然后引入粗略到知識的關注機制,將關系知識與編碼句子結合到包表示向量中。關系知識不僅為關系預測提供了更多信息,而且為關注模塊提供了更好的參考信息,以提高長尾類的性能。
2.相關工作
2.1 關系提取
- 關系提取。
- 監督模型
- 監督的RE模型(Zelenko等人,2003; GuoDong等人,2005; Mooney和Bunescu,2006)需要足夠數量的注釋數據用于訓練,這是耗時的。
- 遠程監督模型
- (Mintz等,2009)提出了DS來自動標記數據。DS不可避免地伴隨著錯誤的標簽問題。
- 為了緩解噪聲問題,(Riedel等人,2010; Hoffmann等人,2011)提出了多實例學習(MIL)機制。
- 最近,神經模型已被廣泛用于RE;
- 這些模型可以準確地捕獲文本關系,而無需進行明確的語言分析(Zeng等,2015; Lin等,2016; Zhang等,2018a)。
- 為了進一步提高性能,一些研究將外部信息(Zeng等人,2017年;Ji等人,2017年; Han等,2018)和先進的培訓策略(Ye等,2017年;劉等人。 2017; Huang和Wang,2017; Feng等,2018; Zeng等,2018; Wu等,2017; Qin等,2018)結合起來。
- 這些工作主要采用DS制作大規模數據集,降低DS引起的噪聲,不論長尾關系的影響如何。
- 考慮long-tail的:
- (Gui等,2016; Lei等,2018; Han等,2018b)。
- Gui et al。,2016)提出了一種基于解釋的方法,
- (Lei et al。,2018)則使用了外部知識(邏輯規則)。
- 這些研究孤立地處理每個關系,而不管關系之間的豐富語義相關性。
- (Han et al。,2018b)提出了RE的分層關注方案,特別是對于長尾關系。
- Zhang, N., et al. (2019):與這些方法不同,我們利用來自KG和GCN的隱式和顯式關系知識,而不是數據驅動的學習參數空間,其中類似關系可能具有不同的參數,阻礙了長尾類的泛化。
- (Gui等,2016; Lei等,2018; Han等,2018b)。
- 監督模型
2.2 KG embedding
- 知識圖嵌入。
- 最近,已經提出了幾種KG嵌入模型。
- 這些方法學習實體和關系的低維矢量表示(Bordes等,2013; Wang等,2014; Lin等,2015)。
- TransE(Bordes等,2013)是最廣泛使用的模型之一,它將關系視為在同一低維超平面上從頭部實體到尾部實體的轉換。
- 受到KGs豐富知識的啟發,最近的作品(Han et al。,2018a; Wang et al。,2018; Lei et al。,2018)在KGs的指導下擴展了DS模型。
- 然而,這些作品忽視了關系之間的豐富關聯。
- 已經研究了關系結構(關系知識)對于KG完成非常有效(Zhang等,2018b)。
- Zhang, N., et al. (2019):據我們所知,這是第一次考慮使用KGs for RE的類(關系)的關系知識。
2.3 GCNN
-
GCNN
- GCN將CNN泛化到高維空間中(超出二維和一維空間)。
- (Defferrard等,2016)開發了光譜方法來執行有效的圖形卷積。
- (Kipf和Welling,2016)假設圖形結構在輸入實例上是已知的,并且將GCN應用于半監督學習。
- 通過(Schlichtkrull等,2018)將GCN應用于關系數據(例如,鏈接預測)。
- GCN還在其他NLP任務中取得了成功,例如
- 語義角色標記(Marcheggiani和Titov,2017),
- 依賴性解析(Strubell和McCallum,2017)和
- 機器翻譯(Bastings等,2017)。
-
兩項相似的工作
- (Chen et al。,2017)在結構化標簽空間上使用GCN。然而,他們的實驗不處理長尾標簽并且沒有引入attention,而是使用平均字向量來表示每個文檔。
- (Rios和Kavuluru,2018)通過利用帶有GCN的結構化標簽空間提出了一種few-shot和zero-shot文本分類方法。但是,他們在標簽圖中使用了GCN,而我們在標簽的層次結構圖中使用了GCN。
-
few-shot:少樣本學習
-
zero-shot:0樣本學習
3. 方法
3.1符號
- 遵循MIL,分為多個實體對包
- 每個包Shi,ti=s1,s2,...包含多個實例(都是hi,ti這倆提及對的)s=w1,w2,...S_{h_i,t_i}={s_1,s_2,...}包含多個實例(都是h_i,t_i這倆提及對的)\\ s={w_1,w_2,...}Shi?,ti??=s1?,s2?,...包含多個實例(都是hi?,ti?這倆提及對的)s=w1?,w2?,...
3.2框架
3.2.1 Instance Encoder
給定實例提到兩個實體,我們將原始實例編碼為連續的低維向量x,其由嵌入層和編碼層組成。嵌入圖層。嵌入層用于將實例中的離散單詞映射到連續輸入嵌入中。給定實例s,我們將實例中的每個單詞映射到嵌入的實值預訓練Skip-Gram(Mikolov等,2013)。我們采用以下位置嵌入(Zeng et al。,2014)。對于每個單詞,我們將它與兩個實體的相對距離嵌入到兩個維向量中。然后,我們將單詞嵌入和位置嵌入連接起來,以實現每個單詞的最終輸入嵌入,并收集實例中的所有輸入嵌入。因此,我們獲得了為編碼層準備好的嵌入序列。
- Instance Encoder
- 輸入:實例s={w1,w2,…}和他的兩個提及hi,ti
- 輸出:連續的低緯向量x
- 嵌入層
- 給定實例s
- word embedding:
- 每個單詞,映射到skip-gram的嵌入上(Mikolov et al., 2013)
- position embedding
- (Zeng et al。,2014)
- 每個單詞:它與兩個實體的相對距離嵌入到兩個dp維的想兩種
- 兩個嵌入連接起來–>每個單詞的最終輸入
- 編碼層
- 輸入:上面得到的嵌入
- 方法(兩個):
- CNN(Zeng et al。,2014)
- PCNN(Zeng et al。,2015)
- 其他也可,但卷積效果最好
- 輸出:嵌入的組合–實例嵌入
編碼層。編碼層旨在將給定實例的輸入嵌入組合成其對應的實例嵌入。在這項研究中,我們選擇兩個卷積神經架構CNN(Zeng et al。,2014)和PCNN(Zeng et al。,2015)將輸入嵌入編碼到實例嵌入中。其他神經架構,如遞歸神經網絡(Zhang和Wang,2015)也可以用作句子編碼器。由于之前的工作表明卷積和循環體系結構都可以實現可比較的最先進性能,因此我們在本研究中選擇了卷積體系結構。請注意,我們的模型獨立于編碼器選擇,因此可以很容易地適應其他編碼器架構。
3.4 Relational Knowledge Learning through KG Embeddings and GCNs.
- 給定:
- 預先訓練的KG嵌入
- 預定義的類(關系)層次結構,
- 我們首先
- 利用KGs得到隱式關系知識
- 初始化層次結構標簽圖;
- KG的基本關系(葉子)
- 其向量表示,可由TransE的KG嵌入來初始化
- 也可用其他
- 其向量表示,可由TransE的KG嵌入來初始化
- 泛化得到更高級的關系集合(通常包含多個子關系(在基本幾何中的))
- 非葉子的向量:可用所有子節點的向量平均得到
- 樹結構的
- 生成過程:遞歸
- 父節點:虛擬的
- 方法:k-means,層次聚類
- KG的基本關系(葉子)
- GCN:
- 由于KG中的一對多關系和不完整性,KG嵌入每個標簽所獲得的隱含相關信息是不夠的。
- 然后我們應用兩層GCN來學習標簽空間中明確的細粒度關系知識。
- 輸入:KGs的預訓練關系嵌入vimplicitv^{implicit}vimplicit
- 第i個標簽:組合其父母和子女的標簽得到
- vi1=f(W1vi+Σj∈pWp1vj∣p∣+Σj∈cWc1vj∣c∣+bg1)v_i^1=f(W^1v_i+\Sigma_{j\in p}\frac{W_p^1v_j}{|p|}+\Sigma_{j\in c}\frac{W_c^1v_j}{|c|}+b_g^1)vi1?=f(W1vi?+Σj∈p?∣p∣Wp1?vj??+Σj∈c?∣c∣Wc1?vj??+bg1?)
- 第二層同上,得到vexplicit,vimplicitv^{explicit},v^{implicit}vexplicit,vimplicit
- 輸出:qr=vexplicit∣∣vimplicitq_r=v^{explicit}||v^{implicit}qr?=vexplicit∣∣vimplicit–concate–>每一層的,每個節點都有一個q
3.5 knowledge-aware attention
傳統上,PCNN / CNN的輸出層將學習通過交叉熵損失優化的標簽特定參數。然而,標簽特定參數空間對于每個關系是唯一的,與長尾相關聯的矩陣在訓練期間只能暴露于非常少的事實,導致不良的泛化。相反,我們的方法嘗試將句子向量與其對應的類嵌入進行匹配,而不是學習標簽特定的注意參數。實質上,這成為一個檢索問題。類嵌入的相關信息包含標簽之間長尾的有用關系知識。
- 問題:
- CNN,loss=交叉熵–ok
- 但long-tail,所以泛化不良
- 解決
- 將句子向量與對應的類嵌入匹配
- 成為檢索問題
- 根據他們的類型來組合這些class embedding(依據層次圖)
- 得到關系表示公式:ek=Ws(tanh[sk;qri])+bs;[sk;qri]是垂直鏈接αki=exp(ek)Σj=1mexp(ej)rh,ti=ATT(qri,s1,s2,...,sm)e_k=W_s(tanh[s_k;q_{r^i}])+b_s;[s_k;q_{r^i}]是垂直鏈接\\ \alpha_k^i=\frac{exp(e_k)}{\Sigma_{j=1}^m exp(e_j)}\\ r_{h,t}^i=ATT(q_r^i,{s1,s2,...,sm})ek?=Ws?(tanh[sk?;qri?])+bs?;[sk?;qri?]是垂直鏈接αki?=Σj=1m?exp(ej?)exp(ek?)?rh,ti?=ATT(qri?,s1,s2,...,sm)
- 然后,我們需要在不同層上組合關系表示–還是注意力機制
- gi=Wgtanh(rh,t)βi=exp(gi)Σj=0L?1exp(gj)rh,r=Concat(β0rh,t0,...,βL?1rh,tL?1)g_i=W_gtanh(r_{h,t})\\ \beta_i=\frac{exp(g_i)}{\Sigma_{j=0}^{L-1}exp(g_j)}\\ r_{h,r}=Concat(\beta_0r_{h,t}^0,...,\beta_{L-1}r_{h,t}^{L-1})gi?=Wg?tanh(rh,t?)βi?=Σj=0L?1?exp(gj?)exp(gi?)?rh,r?=Concat(β0?rh,t0?,...,βL?1?rh,tL?1?)
- 概率:P(r∣h,t,Sh,t)=exp(Mrh,t)Σr′∈Rexp(Mrh,t′)P(r|h,t,S_{h,t})=\frac{exp(Mr_{h,t})}{\Sigma_{r'\in R}exp(Mr'_{h,t})}P(r∣h,t,Sh,t?)=Σr′∈R?exp(Mrh,t′?)exp(Mrh,t?)?
4.實驗
4.1 數據集
- NYT
- 數據集有53個關系,包括N A關系,表示實例關系不可用。訓練集有522611個句子,281270個實體對和18252個關系事實。在測試集中,有172448個句子,96678個實體對和1950個關系事實。在訓練和測試集中,我們將超過120個單詞的句子截斷為120個單詞。
- evaluation
- P-R曲線
- precision@N
- 應用dropout
4.3 result
- 比對
- +KATT :OpenNRE
- +HATT:分層注意力方法(Han et al。,2018b)
- +ATT:(Lin et al。,2016)一般的加注意力方法
- +ATT + ADV是通過在實例嵌入中添加小的對抗擾動來降噪的注意方法(Wu et al。,2017),
- +而+ ATT + SL是使用軟件的基于注意力的模型 - 標簽方法,以減輕實體對層面錯誤標簽問題的副作用(Liu et al。,2017)。
- 結果
- 如圖所示,我們的方法在所有基于注意力的模型中實現了最佳結果。
- 即使與采用復雜的去噪方案和額外信息的PCNN + HATT,PCNN + ATT + ADV和PCNN + ATT + SL相比,我們的模型仍然更有優勢。
- 這表明我們的方法可以利用KG和GCN之間豐富的關系,從而提高性能。我們相信,通過采用對抗性培訓和強化學習等其他機制,我們的模型可以進一步提高,這將成為我們未來工作的一部分
4.4 長尾關系的處理
從表1中顯示的結果,我們觀察到對于CNN和PCNN模型,我們的模型優于普通注意模型和HATT模型。盡管與普通ATT方法和HATT方法相比,我們的KATT方法在長尾關系方面取得了更好的結果,但所有這些方法的結果仍然遠遠不能令人滿意。這表明遠程監督的RE模型仍然受到長尾關系問題的困擾,這可能需要額外的方案和額外的信息來解決這個問題。
- 并不能完全解決這個問題
4.5 ablation
w / o hier是沒有粗略關注的方法(僅利用層次標簽圖的底部節點嵌入),這意味著沒有從其更高級別類別的知識轉移;
沒有GCN的方法沒有GCN,這意味著沒有明確的關系知識;
Word2vec是使用預訓練SkipGram(Mikolov等,2013)嵌入來初始化節點的方法;
并且沒有KG是使用隨機嵌入來初始化節點的方法,這意味著沒有來自KG的先前關系知識。
- 從表2中的評估結果可以看出,在沒有粗略注意的情況下性能略有下降,這證明來自較高節點的知識轉移是有用的。我們還注意到,如果沒有KG或使用字嵌入,性能會略有下降,而且當我們刪除GCN時性能會顯著下降。這是合理的,因為GCN可以在關系標簽之間學習更明確的相關性,從而提高長尾關系的性能。
總結
以上是生活随笔為你收集整理的论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 面向区块链的高效物化视图维护和可信查询
- 下一篇: 2021-11-06深度学习