论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)
文章目錄
- abstract
- 1.introduction
- 1.1 dense connection+GCN
- 1.2 效果突出
- 1.3 contribution
- 2.Attention Guided GCNs
- 2.1 GCNs
- 2.2 Attention Guided Layer
- 2.3 Densely Connected Layer
- 2.4 線性層
- 2.5 AGGCN for RE
- 3.實(shí)驗(yàn)
- 3.1 數(shù)據(jù)集
- 3.2 設(shè)置
- 3.3 n-ary
- 3.4 句子級(jí)
- 4.ablation Study
- 4.相關(guān)工作
- 4.1RE
- 4.2GCN
- 5.結(jié)論
Guo, Z., et al. (2019). Attention Guided Graph Convolutional Networks for Relation Extraction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
原文code,基于pytorch
abstract
依賴樹(shù)傳遞豐富的結(jié)構(gòu)信息,這些信息對(duì)于提取文本中實(shí)體之間的關(guān)系非常有用。然而,如何有效利用相關(guān)信息而忽略依賴樹(shù)中的無(wú)關(guān)信息仍然是一個(gè)具有挑戰(zhàn)性的研究問(wèn)題。現(xiàn)有的方法使用基于規(guī)則的硬剪枝策略來(lái)選擇相關(guān)的部分依賴結(jié)構(gòu),可能并不總是產(chǎn)生最佳結(jié)果。在這項(xiàng)工作中,我們提出了注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs),這是一種直接以全依賴樹(shù)作為輸入的新模型。我們的模型可以理解為一種軟修剪方法,自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)關(guān)系提取任務(wù)有用的相關(guān)子結(jié)構(gòu)。在包括跨句n元關(guān)系提取和大規(guī)模句子級(jí)關(guān)系提取在內(nèi)的各種任務(wù)上的大量結(jié)果表明,我們的模型能夠更好地利用全依賴樹(shù)的結(jié)構(gòu)信息,其結(jié)果顯著優(yōu)于以前的方法。
- 以前:
- 已經(jīng)證明依賴樹(shù)有用
- 挑戰(zhàn):如何有效利用相關(guān)信息而忽略依賴樹(shù)中的無(wú)關(guān)信息
- 硬剪枝策略:不能得到最優(yōu)結(jié)果
-
- 基于規(guī)則的硬剪枝會(huì)消除樹(shù)中的部分重要的信息。
-
- 我們:AGGCNs(注意引導(dǎo)圖卷積網(wǎng)絡(luò))
- 輸入:全依賴樹(shù)( full dependency trees
- 特點(diǎn)
- 端到端
- ≈\approx≈軟剪枝方法
- 基于規(guī)則的硬剪枝會(huì)消除樹(shù)中的部分重要的信息。
- 給所有邊分配權(quán)重,權(quán)重以端到端的形式學(xué)習(xí)得到–>自動(dòng)學(xué)習(xí)剪枝
- 自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)re有用的相關(guān)子結(jié)構(gòu)。
- 效果好
- 可并行地用于依賴樹(shù)
- tips
- GCN+dense connection
- 目的:對(duì)一個(gè)大的全連通圖進(jìn)行編碼
- 可得到局部和非局部依賴信息
- 2層GCN效果最好(經(jīng)驗(yàn))
- 可以學(xué)到更好的圖形表示
- GCN+dense connection
- 可用于
- n元關(guān)系提取
- 大規(guī)模句子級(jí)別語(yǔ)料
- 效果更好
1.introduction
- 圖中是一個(gè)依賴樹(shù)
- 關(guān)系抽取用于
- biomedical knowledge discovery (Quirk and Poon, 2017),
- knowledge base population (Zhang et al., 2017)
- question answering (Yu et al., 2017).
為了進(jìn)一步提高性能,本文還提出了多種裁剪策略來(lái)提取依賴信息。
Xu等人(2015b,c)只在全樹(shù)實(shí)體之間的最短依賴路徑上應(yīng)用神經(jīng)網(wǎng)絡(luò)。
Miwa和Bansal(2016)將整個(gè)樹(shù)縮減為實(shí)體的最低共同祖先**(LCA)**之下的子樹(shù)。
Zhang等(2018)將graph convolutional networks **(GCNs) (**Kipf and Welling, 2017)模型應(yīng)用于修剪過(guò)的樹(shù)。這棵樹(shù)包含從LCA子樹(shù)的依賴路徑到K的標(biāo)記。
然而,基于規(guī)則的修剪策略可能會(huì)消除整個(gè)樹(shù)中的一些重要信息。圖1顯示了一個(gè)跨句n元關(guān)系提取的例子,如果模型只考慮修剪樹(shù),那么鍵標(biāo)記部分響應(yīng)將被排除。理想情況下,模型應(yīng)該能夠?qū)W會(huì)如何在全樹(shù)中包含和排除信息之間保持平衡。
在本文中,我們提出了一種新的注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs),它直接作用于全樹(shù)。直觀地,我們開(kāi)發(fā)了一種軟修剪策略,將原始依賴樹(shù)轉(zhuǎn)換為完全連接的邊加權(quán)圖。這些權(quán)重可以被視為節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度,可以通過(guò)使用自我注意機(jī)制以端到端的方式學(xué)習(xí)(Vaswani et al., 2017)。
- 硬剪枝:
- 基于規(guī)則的修剪策略可能會(huì)消除整個(gè)樹(shù)中的一些重要信息
- 所以提出自動(dòng)學(xué)習(xí)的軟剪枝
- 關(guān)系抽取的模型可以分為兩類
- sequence-based(基于序列的)
- 只對(duì)單詞序列進(jìn)行操作(Zeng et al.,2014; Wang et al., 2016)
- dependency-based(基于依賴的)
- 然而基于依賴的模型將依賴樹(shù)合并到模型中(Bunescu和Mooney, 2005;Peng等人,2017)
- 依賴樹(shù)+剪枝
- 比較:與基于順序的模型相比,基于依賴的模型能夠捕獲僅從表面形式難以理解的非局部句法關(guān)系(Zhang et al., 2018)。
- eg:
- AGGCNs(軟剪枝)
- 剪枝策略(硬剪枝)
- Xu等人(2015b,c)只在全樹(shù)實(shí)體之間的最短依賴路徑上應(yīng)用神經(jīng)網(wǎng)絡(luò)。
- Miwa和Bansal(2016)將整個(gè)樹(shù)縮減為實(shí)體的最低共同祖先(LCA)之下的子樹(shù)。
- Zhang等(2018)將 (GCNs) (Kipf and Welling, 2017)模型應(yīng)用于修剪過(guò)的樹(shù)。
- 這棵樹(shù)包含從LCA子樹(shù)的依賴路徑到K的標(biāo)記。
- sequence-based(基于序列的)
1.1 dense connection+GCN
目的:對(duì)一個(gè)大的全連通圖進(jìn)行編碼
我們接下來(lái)將稠密連接(Huang et al., 2017)引入GCN模型(Guo et al.,2019)
對(duì)于GCNs,L層將被需要為了捕獲L跳躍離開(kāi)到達(dá)的鄰居的信息。淺層的GCN模型可能無(wú)法捕獲大型圖的非局部交互。有趣的是,雖然較深的GCNs可以捕獲圖的更豐富的鄰域信息,但從經(jīng)驗(yàn)上可以觀察到,使用2層模型可以獲得最佳性能(Xu et al., 2018)。在密集連接的幫助下,我們能夠?qū)ι疃鹊腁GGCN模型進(jìn)行訓(xùn)練,允許捕獲豐富的局部地和非局部依賴信息。
- 2層GCNs最好
- dense connnection幫助下可以對(duì)深度AGGCN進(jìn)行訓(xùn)練
- 可得到局部和非局部依賴信息
1.2 效果突出
實(shí)驗(yàn)表明,該模型能夠較好地完成各種任務(wù)。對(duì)于跨句關(guān)系提取任務(wù),我們的模型在多類三元關(guān)系和二元關(guān)系提取方面分別比現(xiàn)有模型的準(zhǔn)確率高出8%和6%。對(duì)于大型句子級(jí)提取任務(wù)(TACRED數(shù)據(jù)集),我們的模型也始終優(yōu)于其他模型,這表明了該模型在大型訓(xùn)練集上的有效性
1.3 contribution
我們提出了一種新穎的AGGCNs,它以端到端的方式學(xué)習(xí)一種“軟修剪”策略,學(xué)習(xí)如何選擇和丟棄信息。結(jié)合密集連接,我們的AGGCN模型能夠?qū)W習(xí)更好的圖形表示。
我們的模型在不增加額外的計(jì)算量的情況下與以前的GCNs相比獲得了最新的結(jié)果。與樹(shù)結(jié)構(gòu)模型(如TreeLSTM (Tai et al., 2015))不同,它可以有效地并行地應(yīng)用于依賴樹(shù)。
2.Attention Guided GCNs
- AGGCN模型顯示了一個(gè)示例語(yǔ)句及其依賴樹(shù)。
- 它由M個(gè)相同的塊組成,每個(gè)塊有三種層,如圖所示。
- 注意引導(dǎo)層
- 密集連接層
- 線性組合層
- 輸入:每個(gè)塊以表示圖的節(jié)點(diǎn)嵌入和鄰接矩陣作為輸入。
- 注意引導(dǎo)層:multi-head attention:然后利用左下所示的多頭注意構(gòu)造N個(gè)注意引導(dǎo)鄰接矩陣。
- 原始的依賴樹(shù)被轉(zhuǎn)換成N個(gè)不同的完全連接的邊加權(quán)圖(為了簡(jiǎn)化,省略了自循環(huán))。
- 靠近邊的數(shù)字表示矩陣中的權(quán)值。
- 密集連接層得到的矩陣被送入N個(gè)單獨(dú)的dense connection的層,產(chǎn)生新的表示。
- 左上角顯示了一個(gè)密集連接層的例子,其中子層的數(shù)量(L)是3 (L是超參數(shù))。
- 每個(gè)子層將所有前面的輸出連接起來(lái)作為輸入。
- 線性組合層:最后,應(yīng)用線性組合將N個(gè)緊密連接的層的輸出組合成隱藏的表示。
- 基本組件
- GCNs
- Attention Guided Layer
2.1 GCNs
- GCNs是直接作用于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(Kipf和Welling, 2017)。
- 工作原理
- 圖:給出一個(gè)有n個(gè)節(jié)點(diǎn)的圖,我們可以用一個(gè)n×n鄰接矩陣A來(lái)表示圖。
- 加方向:使得GCNs對(duì)依賴樹(shù)進(jìn)行編碼。(Marcheggiani和Titov(2017))
- 它們?yōu)闃?shù)中的每個(gè)節(jié)點(diǎn)添加一個(gè)自循環(huán)。
- 還包括一個(gè)依賴弧的反方向,即
- 邊i->j:
- 有則Aij=1andAji=1A_{ij}=1 and A_{ji}=1Aij?=1andAji?=1
- 無(wú)則Aij=0andAji=0A_{ij}=0 and A_{ji}=0Aij?=0andAji?=0
- 邊i->j:
- l層節(jié)點(diǎn)i的卷積運(yùn)算
- 輸入:h(l?1)h^{(l-1)}h(l?1)
- 輸出:hi(l)h^{(l)}_ihi(l)?
- 公式:hi(l)=ρ(Σj=1nAijW(l)hj(l?1)+b(l))ρ?激活函數(shù)(如,relu)hi(0)是xi(d維向量)h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})\\ \rho-激活函數(shù)(如,relu)\\ h_i^{(0)}是x_i(d維向量)hi(l)?=ρ(Σj=1n?Aij?W(l)hj(l?1)?+b(l))ρ?激活函數(shù)(如,relu)hi(0)?是xi?(d維向量)
- 表示全連接圖的鄰接矩陣的大小和原始樹(shù)的大小一樣
2.2 Attention Guided Layer
- 如前:硬剪枝的缺點(diǎn)
- 硬剪枝->硬-attention
正如我們?cè)诘?節(jié)中討論的,大多數(shù)現(xiàn)有的修剪策略都是預(yù)定義的。他們將整棵樹(shù)修剪成一個(gè)子樹(shù),并在此基礎(chǔ)上構(gòu)造鄰接矩陣。事實(shí)上,這樣的策略也可以被視為一種硬注意的形式(Xu et al., 2015a),其中連接不在結(jié)果子樹(shù)上的節(jié)點(diǎn)的邊將被直接分配零權(quán)重(無(wú)人值守)。這樣的策略可能會(huì)從原始依賴樹(shù)中刪除相關(guān)信息。
我們沒(méi)有使用基于規(guī)則的剪枝,而是在注意引導(dǎo)層開(kāi)發(fā)了一種“軟剪枝”策略,它為所有邊緣分配權(quán)重。這些權(quán)重可以由模型以端到端方式學(xué)習(xí)。
- 我們:軟剪枝
- 給所有邊分配權(quán)重,權(quán)重以端到端的形式學(xué)習(xí)得到
- 實(shí)現(xiàn)自動(dòng)學(xué)習(xí)剪枝
- 原:樹(shù)
- 注意力引導(dǎo)層:將一個(gè)樹(shù)->多個(gè)全連接有權(quán)圖
- 從第二個(gè)塊開(kāi)始有這層
- 方法:構(gòu)造注意引導(dǎo)鄰接矩陣A~\tilde{A}A~
- self-attention mechanism (Cheng et al., 2016)來(lái)得到A~\tilde{A}A~
- 可以捕獲單個(gè)序列的任意位置之間的交互。
- 本文:用multi-head attention 計(jì)算
- 它允許模型聯(lián)合處理來(lái)自不同表示子空間的信息。
- 計(jì)算:包括一個(gè)查詢和一組鍵值對(duì)。
- 輸出:計(jì)算為值的加權(quán)和,其中的
- 權(quán)重:由具有相應(yīng)鍵的查詢函數(shù)計(jì)算。
- 公式A~(t)=softmax(QWiQ×(KWiK)Td)VQ,K:等于AGGCN的h(l?1)t:第t個(gè)attentionhead,共有N個(gè)(超參數(shù))\tilde{A}^{(t)}=softmax(\frac{QW_i^Q\times (KW_i^K)^T}{\sqrtze8trgl8bvbq})V\\ Q,K:等于AGGCN的h^{(l-1)}\\ t:第t個(gè)attention head,共有N個(gè)(超參數(shù))A~(t)=softmax(d?QWiQ?×(KWiK?)T?)VQ,K:等于AGGCN的h(l?1)t:第t個(gè)attentionhead,共有N個(gè)(超參數(shù))
- self-attention mechanism (Cheng et al., 2016)來(lái)得到A~\tilde{A}A~
- A~(1)?>G(1)\tilde{A}^{(1)}->G^{(1)}A~(1)?>G(1)
- A~\tilde{A}A~和A尺寸相同
- 所以沒(méi)有增加計(jì)算消耗
- 關(guān)鍵思想
- 使用注意力來(lái)誘導(dǎo)節(jié)點(diǎn)之間的關(guān)系,
- 特別是那些通過(guò)間接的多跳路徑連接的節(jié)點(diǎn)。
- 圖卷積層(在其后):
- 輸入:A~\tilde{A}A~
圖2給出了將原始鄰接矩陣轉(zhuǎn)換為多個(gè)注意引導(dǎo)鄰接矩陣的示例。因此,輸入依賴樹(shù)被轉(zhuǎn)換成多個(gè)完全連接的邊緣加權(quán)圖。在實(shí)踐中,我們將原始鄰接矩陣作為初始化處理,以便在節(jié)點(diǎn)表示中捕獲依賴項(xiàng)信息,以便以后進(jìn)行注意計(jì)算。注意力引導(dǎo)層從第二個(gè)塊開(kāi)始。
2.3 Densely Connected Layer
- 優(yōu)點(diǎn)
- 我們將稠密連接(Huang et al., 2017)引入AGGCN模型,
- 目的:在大圖上捕獲更多的結(jié)構(gòu)信息。
- 在密集連接的幫助下,我們能夠訓(xùn)練更深的模型,
- 允許捕獲豐富的局部和非局部信息,從而學(xué)習(xí)更好的圖表示。
- 做法:
- 直接連接從任何層引入到它前面的所有層。
- gj(l)=[xj;hj(1);...;hj(l?1)]g_j^{(l)}=[x_j;h_j^{(1)};...;h_j^{(l-1)}]gj(l)?=[xj?;hj(1)?;...;hj(l?1)?]
- 超參數(shù)L:L個(gè)子層
- 子層的維度:輸入維度d和L共同決定dhidden=d/Ld_{hidden}=d/Ldhidden?=d/L
- 輸入維度:d->h_j的維度
- 子層是什么?
- 輸出:每個(gè)子層的輸出又會(huì)被連接起來(lái)->仍是d維
- 隨子層數(shù)增加而縮小隱層size–>提高效率
與隱藏維度大于或等于輸入維度的GCN模型不同,AGGCN模型隨著層數(shù)的增加而縮小隱藏維度,以提高與DenseNets類似的參數(shù)效率(Huang et al., 2017)。
- N個(gè)注意力頭–>N個(gè)分離的densely connection
- 原來(lái)GCN:hi(l)=ρ(Σj=1nAijW(l)hj(l?1)+b(l))h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})hi(l)?=ρ(Σj=1n?Aij?W(l)hj(l?1)?+b(l))
- 計(jì)算變?yōu)?span id="ze8trgl8bvbq" class="katex--inline">hti(l)=ρ(Σj=1nA~ij(t)Wt(l)gj(l?1)+bt(l))Wt(l),bt(l)與A~(t)有關(guān)Wt(l):(dhidden,d(l)),d(l)=d+dhidden×(l?1)??g的維度h_{ti}^{(l)}=\rho(\Sigma_{j=1}^n\tilde{A}^{(t)}_{ij}W^{(l)}_tg_j^{(l-1)}+b_t^{(l)})\\ W^{(l)}_t,b_t^{(l)}與\tilde{A}^{(t)}有關(guān)\\ W^{(l)}_t:(d_{hidden},d^{(l)}),d^{(l)}=d+d_{hidden}\times(l-1)--g的維度hti(l)?=ρ(Σj=1n?A~ij(t)?Wt(l)?gj(l?1)?+bt(l)?)Wt(l)?,bt(l)?與A~(t)有關(guān)Wt(l)?:(dhidden?,d(l)),d(l)=d+dhidden?×(l?1)??g的維度
2.4 線性層
hcomb=Wcombhout+bcombWcomb:(d×N,d)hout=[h(1);...;h(N)]h_{comb}=W_{comb}h_{out}+b_{comb}\\ W_{comb}:(d\times N,d)\\ h_out=[h^{(1)};...;h^{(N)}]hcomb?=Wcomb?hout?+bcomb?Wcomb?:(d×N,d)ho?ut=[h(1);...;h(N)]
2.5 AGGCN for RE
在依賴樹(shù)上應(yīng)用AGGCN模型之后,我們獲得了所有令牌的隱藏表示。根據(jù)這些表示,關(guān)系提取的目標(biāo)是預(yù)測(cè)實(shí)體之間的關(guān)系。接下來(lái)(Zhang et al., 2018),我們將句子表示和實(shí)體表示連接起來(lái),得到最終的分類表示。
- 首先,我們需要獲得hsenth_{sent}hsent?句子表示。它可以被計(jì)算為
- hsent=f(hmask)=f(AGGCN(x))f:(d×n)??>(d×1),max?poolingfunctionh_{sent}=f(h_{mask})=f(AGGCN(x))\\ f:(d\times n)-->(d\times 1),max-pooling functionhsent?=f(hmask?)=f(AGGCN(x))f:(d×n)??>(d×1),max?poolingfunction
- 相似地得到實(shí)體表示
- hei=f(hei′),hei′:第i個(gè)實(shí)體的隱層表示h_{e_i}=f(h_{e_i}'),h_{e_i}':第i個(gè)實(shí)體的隱層表示hei??=f(hei?′?),hei?′?:第i個(gè)實(shí)體的隱層表示
- 最終:
- 由前饋神經(jīng)網(wǎng)絡(luò)得到最終表示(連接實(shí)體表示和句子表示)
- hfinal=FFNN([hsent;he1;...;hei]h_{final}=FFNN([h_{sent};h_{e_1};...;h_{e_i}]hfinal?=FFNN([hsent?;he1??;...;hei??]
- 最終表示輸入到logistic regression classifier分類器中做預(yù)測(cè)。
3.實(shí)驗(yàn)
3.1 數(shù)據(jù)集
我們?cè)u(píng)估了該模型在兩個(gè)任務(wù)上的性能,即
- 跨句n元關(guān)系提取
- PubMed
- 句子級(jí)關(guān)系提取
- TACRED數(shù)據(jù)集(收費(fèi))
- (Zhang et al., 2018)
- Semeval-10 Task 8
- (Hendrickx et al., 2010)
- TACRED數(shù)據(jù)集(收費(fèi))
3.2 設(shè)置
我們根據(jù)開(kāi)發(fā)集的結(jié)果調(diào)整超參數(shù)。對(duì)于跨句nary關(guān)系提取任務(wù),我們使用與(Song et al., 2018b)4相同的數(shù)據(jù)分割,而對(duì)于句子級(jí)關(guān)系提取任務(wù),我們使用與(Zhang et al., 2018)5相同的開(kāi)發(fā)集。
- n-ary
- 與(Song et al., 2018b)4相同的數(shù)據(jù)分割
- 句子級(jí)
- (Zhang et al., 2018)相同的開(kāi)發(fā)集
- embedding:840B-300d-glove
- 超參數(shù)
- N(attention head數(shù)目)
- {1,2,3,4}
- L(densely connected中每層的維度)
- {2,3,4,5,6}
- M(塊數(shù))
- {1,2,3}
- N(attention head數(shù)目)
- 測(cè)試得到最好的超參數(shù):
- cross-sentence n-ary
- {N=2,M=2,L=5,d_{hidden}=340}
- {N=3,M=2,L=5,d_{hidden}=300}
- cross-sentence n-ary
- 度量
- 和(Song et al., 2018b; Zhang et al., 2018).一樣
- n-ary
- test:5-fold cross validation
- 句子
- micro-F1 score
- TACRED
- SemEval
- micro-F1 score
3.3 n-ary
- 三種模型
- a feature-based classifier (Quirk and Poon, 2017) based on shortest dependency paths between all entity pairs,
- Graph-structured LSTM methods,
- including Graph LSTM (Peng et al., 2017),
- bidirectional DAG LSTM (Bidir DAG LSTM) (Song et al., 2018b) and
- Graph State LSTM (GS GLSTM) (Song et al., 2018b).
- These methods extend LSTM to encode graphs constructed from input sentences with dependency edges,
- Graph convolutional networks (GCN) with pruned trees, which have shown efficacy on the relation extraction task (Zhang et al., 2018)
- the tree-structured LSTM method (SPTree) (Miwa and Bansal, 2016) on drug-mutation binary relation extraction.
- 本文結(jié)果好,因?yàn)?
- 能用圖卷積從樹(shù)中得到更多信息:AGGCN is able to extract more information from the underlying graph structure to learn a more expressive representation through graph convolutions
- 比GCN好,因?yàn)?
- densely connection
- 使之可在大圖中信息傳遞
- 使之可有效地學(xué)習(xí)到長(zhǎng)距離依賴
- attention
- 可篩去噪音,得到相關(guān)信息
- 本文的模型可從全樹(shù)中得到更好的表達(dá)
- densely connection
3.4 句子級(jí)
- model
- dependency-based models,
- the logistic regression classifier (LR) (Zhang et al., 2017),
- Shortest Path LSTM (SDPLSTM) (Xu et al., 2015c),
- Tree-structured neural model (Tree-LSTM) (Tai et al., 2015),
- GCN
- Contextualized GCN (C-GCN) (Zhang et al., 2018).
- (Both GCN and C-GCN models use the pruned trees.)
- sequence-based models
- Position Aware LSTM (PA-LSTM) (Zhang et al., 2017).–最新成果
- dependency-based models,
- TACRED
表2所示,logistic回歸分類器(LR)的精度得分最高。我們假設(shè)這背后的原因是由于數(shù)據(jù)不平衡的問(wèn)題。這種基于特征的方法傾向于預(yù)測(cè)一個(gè)頻繁出現(xiàn)的標(biāo)簽之間的關(guān)系(例如,“per:title”)。因此,它具有較高的查全率,但查全率相對(duì)較低。另一方面,神經(jīng)模型能夠更好地平衡精度和回憶分?jǐn)?shù)。
由于GCN和C-GCN已經(jīng)顯示出它們相對(duì)于其他基于依賴的模型和PA-LSTM的優(yōu)越性,我們主要將我們的AGGCN模型與它們進(jìn)行比較。我們可以觀察到AGGCN比GCN多1.1個(gè)F1點(diǎn)。我們推測(cè)這種有限的改進(jìn)是由于缺乏有關(guān)詞序或消歧的上下文信息。
- 比GCN好
- GCN:這種有限的改進(jìn)是由于缺乏有關(guān)詞序或消歧的上下文信息。
與C-GCN類似(Zhang et al., 2018),我們使用雙向LSTM網(wǎng)絡(luò)擴(kuò)展AGGCN模型,以捕獲隨后被送入AGGCN層的上下文表示。我們將修改后的模型稱為C-AGGCN。我們的C-AGGCN模型F1得分為69.0,比目前最先進(jìn)的C-GCN模型高出2.6分。我們也注意到AGGCN和C-AGGCN分別比GCN和C-GCN獲得更好的精確度和回憶分?jǐn)?shù)。
- 經(jīng)驗(yàn)表明,AGGCN模型能夠更好地區(qū)分相關(guān)和不相關(guān)信息,從而獲得更好的圖表示。
- SemEval
我們還在與(Zhang et al., 2018)相同的設(shè)置下,在SemEval數(shù)據(jù)集上評(píng)估我們的模型(Zhang et al., 2018)。結(jié)果如表3所示。這個(gè)數(shù)據(jù)集比TACRED小得多(僅為TACRED的1/10)。我們的C-AGGCN模型(85.7)始終優(yōu)于C-GCN模型(84.8),具有良好的泛化能力。
4.ablation Study
- 各組件的貢獻(xiàn)
- AG>DG>FF
- AG,DG更重要
- 這兩層可以幫助GCNs更好地學(xué)習(xí)信息聚合,產(chǎn)生更好的圖形表示
燒蝕研究。
我們使用TACRED數(shù)據(jù)集上性能最好的C-AGGCN模型,研究了兩個(gè)主要組件的貢獻(xiàn),即密集連接層和注意力引導(dǎo)層。表4顯示了結(jié)果。我們可以觀察到添加注意力引導(dǎo)層或者密集連接的層提高了模型的性能。這表明,這兩層可以幫助GCNs更好地學(xué)習(xí)信息聚合,產(chǎn)生更好的圖形表示,其中注意力引導(dǎo)層似乎發(fā)揮了更重要的作用。我們也注意到前饋層在我們的模型中是有效的。沒(méi)有前饋層,結(jié)果下降到F1得分67.8。
- 自己相比較AGGCN
- 軟修剪”策略在充分利用樹(shù)信息方面優(yōu)于硬修剪策略。
修剪樹(shù)木的表現(xiàn)。
表5顯示了使用修剪樹(shù)的C-AGGCN模型的性能,其中K表示修剪后的樹(shù)包含距離LCA子樹(shù)中的依賴路徑K以內(nèi)的標(biāo)記。我們可以看到,所有具有不同K值的C-AGGCN模型都能夠超越最先進(jìn)的C-GCN模型(Zhang et al., 2018)(見(jiàn)表2)F1成績(jī)1.5分。這說(shuō)明,在密集連接層和注意力引導(dǎo)層的結(jié)合下,C-AGGCN可以比C-GCN更好地學(xué)習(xí)下游任務(wù)的圖形表示。此外,我們注意到全樹(shù)的C-AGGCN性能優(yōu)于所有修剪過(guò)的C-AGGCNs。這些結(jié)果進(jìn)一步證明了“軟修剪”策略在充分利用樹(shù)信息方面優(yōu)于硬修剪策略。
- C-AGGCN可以從更大的圖(全樹(shù))中獲益更多。
句子長(zhǎng)度的性能。
圖4顯示了三個(gè)模型在不同句子長(zhǎng)度下的F1得分。我們將句子長(zhǎng)度劃分為5類(< 20,[20,30],[30,40),[40,50),50)。一般來(lái)說(shuō),在不同的句子長(zhǎng)度下,有完整樹(shù)的C-AGGCN比有修剪過(guò)的樹(shù)的C-AGGCN和C-GCN表現(xiàn)更好。我們還注意到,在大多數(shù)情況下,經(jīng)過(guò)修剪的C-AGGCN比C-GCN表現(xiàn)得更好。此外,C-AGGCN對(duì)修剪后的樹(shù)的改進(jìn)效果隨著句子長(zhǎng)度的增加而減弱。這種性能下降可以通過(guò)使用全樹(shù)來(lái)避免,全樹(shù)提供了有關(guān)底層圖結(jié)構(gòu)的更多信息。直觀地說(shuō),隨著句子長(zhǎng)度的增加,包含的節(jié)點(diǎn)越多,依賴關(guān)系圖就越大。
- 我們的模型在使用訓(xùn)練資源方面更加有效。
性能與訓(xùn)練數(shù)據(jù)大小的對(duì)比。圖3顯示了C-AGGCN和C-GCN在不同訓(xùn)練設(shè)置下的性能,訓(xùn)練數(shù)據(jù)量不同。我們考慮五種培訓(xùn)設(shè)置(20%、40%、60%、80%、100%的培訓(xùn)數(shù)據(jù))。C-AGGCN持續(xù)優(yōu)于C-GCN
當(dāng)訓(xùn)練數(shù)據(jù)量增加時(shí),我們可以觀察到績(jī)效差距變得更加明顯。具體來(lái)說(shuō),使用80%的訓(xùn)練數(shù)據(jù),C-AGGCN模型可以獲得66.5的F1分,高于完整訓(xùn)練集上訓(xùn)練的C-GCN。這些結(jié)果表明,我們的模型在使用訓(xùn)練資源方面更加有效。
4.相關(guān)工作
4.1RE
- 早期的研究工作是基于統(tǒng)計(jì)方法。
- 研究了基于樹(shù)的內(nèi)核(Zelenko et al., 2002)和
- 基于依賴路徑的內(nèi)核(Bunescu and Mooney, 2005),以提取這種關(guān)系。
- McDonald等人(2005)構(gòu)建最大的實(shí)體團(tuán)來(lái)預(yù)測(cè)關(guān)系。
- Mintz等人(2009)在統(tǒng)計(jì)分類器中包含語(yǔ)法特征。
- 基于序列的模型利用不同的神經(jīng)網(wǎng)絡(luò)來(lái)提取關(guān)系,包括
- 卷積神經(jīng)網(wǎng)絡(luò)(Zeng et al., 2014;Nguyen和Grishman, 2015年;(Wang et al., 2016),
- 遞歸神經(jīng)網(wǎng)絡(luò)(Zhou et al., 2016;Zhang et al., 2017)
- 兩者的結(jié)合(Vu et al., 2016)和
- transformer (Verga et al., 2018)。
- 基于依賴的方法還試圖將結(jié)構(gòu)信息合并到神經(jīng)模型中。
- Peng et al.(2017)首先將依賴關(guān)系圖分成兩個(gè)dag,
- 然后將樹(shù)LSTM模型(Tai et al., 2015)擴(kuò)展到這兩個(gè)圖上進(jìn)行n元關(guān)系提取。
- Song等人(2018b)使用圖遞歸網(wǎng)絡(luò)(Song等人,2018a)直接對(duì)整個(gè)依賴圖編碼,而不破壞它。
- AGGCN:和他們的模型的對(duì)比讓人聯(lián)想到CNN和RNN的對(duì)比。
- 為了進(jìn)一步提高性能,還提出了各種各樣的裁剪策略來(lái)提取依賴信息。
- Xu等(2015b,c)采用神經(jīng)模型編碼最短依賴路徑。
- Miwa和Bansal(2016)將LSTM模型應(yīng)用于兩個(gè)實(shí)體的LCA子樹(shù)。Liu等(2015)將最短依賴路徑與依賴子樹(shù)相結(jié)合。
- Zhang等人(2018)采用了一種以路徑為中心的修剪策略。
- AGGCNs:與這些在預(yù)處理中去除邊緣的策略不同,我們的模型以端到端的方式學(xué)會(huì)給每個(gè)邊緣分配不同的權(quán)重
- Peng et al.(2017)首先將依賴關(guān)系圖分成兩個(gè)dag,
4.2GCN
- Gori等人(2005)布魯納(2014)介紹了嘗試擴(kuò)展神經(jīng)網(wǎng)絡(luò)以處理任意結(jié)構(gòu)圖的早期工作。
- 隨后的工作通過(guò)局部譜卷積技術(shù)提高了計(jì)算效率(Henaff et al., 2015;Defferrard等人,2016)。
- AGGCN:與GCNs (Kipf和Welling, 2017)密切相關(guān),GCNs將過(guò)濾器限制在每個(gè)節(jié)點(diǎn)周圍的一階鄰域上運(yùn)行。
- Velickovic等人(2018)提出了圖形注意網(wǎng)絡(luò)(GATs),利用掩蔽的自注意層來(lái)總結(jié)鄰域狀態(tài)(Vaswani等人,2017)。
- 與AGGCN相比,他們的動(dòng)機(jī)和網(wǎng)絡(luò)結(jié)構(gòu)是不同的。
- 特別地,GATs中的每個(gè)節(jié)點(diǎn)只關(guān)心它的鄰居,而AGGCNs則度量所有節(jié)點(diǎn)之間的關(guān)聯(lián)性。
- GATs中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)保持不變,而AGGCNs中將構(gòu)建完全連接的圖,以捕獲長(zhǎng)期的語(yǔ)義交互。
- 與AGGCN相比,他們的動(dòng)機(jī)和網(wǎng)絡(luò)結(jié)構(gòu)是不同的。
5.結(jié)論
介紹了一種新的注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs)。實(shí)驗(yàn)結(jié)果表明,AGGCNs在各種關(guān)系提取任務(wù)上都取得了較好的效果。與以前的方法不同,AGGCNs直接對(duì)整個(gè)樹(shù)進(jìn)行操作,并學(xué)習(xí)以端到端方式從其中提取有用的信息。未來(lái)的工作有多個(gè)場(chǎng)所。我們想要問(wèn)的一個(gè)很自然的問(wèn)題是,如何利用所提出的框架對(duì)與圖相關(guān)的任務(wù)執(zhí)行改進(jìn)的圖表示學(xué)習(xí)(Bastings et al., 2017)。
總結(jié)
以上是生活随笔為你收集整理的论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: CASREL:A Novel Casca
- 下一篇: 基于深度学习的IRS辅助MIMO通信系统