论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)
文章目錄
- abstract
- 1 introduction
- 2.方 法
- 2.1實(shí)體關(guān)系表(Figure-2)
- 2.2 The Table Filling Multi-Task RNN Model
- 2.3 Context-aware TF-MTRNN model
- 2.4 Piggybacking for Entity-Relation Label Dependencies
- 2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)
- 3.Model training
- 3.1 端到端關(guān)系抽取
Gupta, P., et al. (2016). Table filling multi-task recurrent neural network for joint entity and relation extraction. Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers.
abstract
摘要提出了一種新的基于詞的語(yǔ)義組合的上下文感知聯(lián)合實(shí)體和詞級(jí)關(guān)系提取方法,提出了一種多任務(wù)遞歸神經(jīng)網(wǎng)絡(luò)(TF-MTRNN)模型,將實(shí)體識(shí)別和關(guān)系分類任務(wù)簡(jiǎn)化為表格填充問(wèn)題,并對(duì)它們之間的相關(guān)性進(jìn)行了建模。該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠在不知道句子中對(duì)應(yīng)關(guān)系參數(shù)的情況下對(duì)多個(gè)關(guān)系實(shí)例進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,一種利用候選實(shí)體對(duì)關(guān)聯(lián)實(shí)體之間的標(biāo)簽依賴關(guān)系進(jìn)行建模的簡(jiǎn)單方法可以提高性能。我們?cè)贑oNLL04數(shù)據(jù)集上展示了最新的結(jié)果,實(shí)體識(shí)別和關(guān)系分類分別提高了2.0%和2.7%。
- 簡(jiǎn)化為表格填充問(wèn)題
- 多任務(wù)RNN
- 對(duì)相關(guān)性建模
- 多關(guān)系
1 introduction
關(guān)系分類的任務(wù)是預(yù)測(cè)帶注釋的名詞對(duì)(也稱為關(guān)系參數(shù))之間的語(yǔ)義關(guān)系。這些注釋,例如參與關(guān)系的命名實(shí)體對(duì),通常很難獲得。傳統(tǒng)方法通常是基于兩個(gè)獨(dú)立的子任務(wù)的管道:實(shí)體識(shí)別(ER1)和關(guān)系分類(RC),首先檢測(cè)命名實(shí)體,然后執(zhí)行關(guān)系分類檢測(cè)實(shí)體提到,因此忽略了潛在的相互依賴關(guān)系和傳播錯(cuò)誤分類實(shí)體識(shí)別的關(guān)系。這兩個(gè)子任務(wù)一起稱為端到端關(guān)系提取。
關(guān)系分類是一個(gè)句子層次的多類分類問(wèn)題,它通常假定句子中只有一個(gè)關(guān)系實(shí)例。通常認(rèn)為實(shí)體識(shí)別影響關(guān)系分類,但關(guān)系分類不影響實(shí)體識(shí)別。在這里,我們用實(shí)驗(yàn)證據(jù)來(lái)證明后者是不正確的。例如,在圖1中,PER和ORG實(shí)體之間存在關(guān)系Work For, ORG和LOC之間存在ORGBased,而LOC和LOC實(shí)體之間存在ORGBased。相反,對(duì)于具有關(guān)聯(lián)關(guān)系的給定單詞,可以檢測(cè)候選實(shí)體類型。例如,在圖2中,對(duì)于給定的關(guān)系,假設(shè)位于,候選實(shí)體對(duì)是(LOC, LOC)。因此,這兩個(gè)任務(wù)是相互依賴的,通過(guò)提出的子任務(wù)聯(lián)合建模和簡(jiǎn)單的piggybacking方法,優(yōu)化單一網(wǎng)絡(luò),ER和RC對(duì)候選實(shí)體對(duì)的相互依賴關(guān)系進(jìn)行建模,并實(shí)現(xiàn)相應(yīng)的關(guān)系。
聯(lián)合學(xué)習(xí)方法(Roth和Yih, 2004;Kate和Mooney, 2010)在復(fù)雜的多個(gè)獨(dú)立模型上為子任務(wù)建立聯(lián)合模型。(Miwa和Sasaki, 2014)提出了一種聯(lián)合實(shí)體和關(guān)系提取方法,使用基于歷史的結(jié)構(gòu)化學(xué)習(xí)和表表示;然而,它們明確地合并實(shí)體關(guān)系標(biāo)簽的相互依賴性,使用復(fù)雜的特性和搜索啟發(fā)式來(lái)填充表。此外,其最先進(jìn)的方法是結(jié)構(gòu)化預(yù)測(cè),而不是基于神經(jīng)網(wǎng)絡(luò)框架。然而,遞歸和卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法(Zeng et al., 2014;張,王,2015;Nguyen和Grishman, 2015)對(duì)待關(guān)系分類是一個(gè)句子級(jí)的多類分類,依賴于句子中提供的關(guān)系參數(shù)。因此,它們不能在一個(gè)句子中處理多個(gè)關(guān)系實(shí)例,并且不能檢測(cè)到參與檢測(cè)到的關(guān)系的相應(yīng)的實(shí)體提及對(duì)。
- 以前NN的方法沒(méi)有多關(guān)系
- 本文貢獻(xiàn)
- 提出了一種新的表格填充多任務(wù)遞歸神經(jīng)網(wǎng)絡(luò)
- 減少了搜索啟發(fā)式和顯式實(shí)體和關(guān)系標(biāo)簽依賴
- 多關(guān)系
- 使用一種簡(jiǎn)單的方法為單詞(從每個(gè)單詞的關(guān)聯(lián)類型派生而來(lái))附帶候選命名實(shí)體,從而對(duì)標(biāo)簽依賴關(guān)系進(jìn)行建模
- 共享模型參數(shù)和表示
- 提出了一種新的表格填充多任務(wù)遞歸神經(jīng)網(wǎng)絡(luò)
本文提出了一種基于上下文感知的RNN框架的詞對(duì)合成的句子級(jí)關(guān)聯(lián)學(xué)習(xí)方法。我們的方法相對(duì)于最先進(jìn)的方法,如CNN和RNN,在關(guān)系分類上有顯著的優(yōu)勢(shì),因?yàn)槲覀儾恍枰獦?biāo)記的名詞性,并且可以在一個(gè)句子中建模多個(gè)關(guān)系實(shí)例。
2.方 法
2.1實(shí)體關(guān)系表(Figure-2)
我們采用Miwa和Sasaki(2014)提出的表結(jié)構(gòu)作為模型的主干,如表1所示。這種結(jié)構(gòu)允許對(duì)聯(lián)合實(shí)體和關(guān)系提取進(jìn)行優(yōu)雅的形式化處理,因?yàn)閷?shí)體和關(guān)系標(biāo)簽都定義為句子中單詞wi和wj之間的二元關(guān)系實(shí)例。實(shí)體標(biāo)簽是這樣一個(gè)二元關(guān)系的i=j,即對(duì)角線上的單元格。對(duì)于i!=j來(lái)說(shuō),關(guān)系標(biāo)簽是這樣一種二元關(guān)系,即,非對(duì)角單元格。為了消除冗余,我們規(guī)定對(duì)(wi, wj)的正確標(biāo)簽是關(guān)系標(biāo)簽r,當(dāng)且僅當(dāng)i !=j, wi=ei,wj=命名實(shí)體ej,r(ei, ej)為真。我們引入無(wú)關(guān)系的特殊符號(hào)⊥,即這兩個(gè)詞之間沒(méi)有關(guān)系。
除了為實(shí)體和關(guān)系標(biāo)簽提供了一個(gè)通用的框架之外,表結(jié)構(gòu)的另一個(gè)優(yōu)點(diǎn)是每個(gè)句子都可以免費(fèi)建模多個(gè)關(guān)系。它只是對(duì)應(yīng)于幾個(gè)(多個(gè))用對(duì)應(yīng)關(guān)系標(biāo)記的非對(duì)角單元格。
2.2 The Table Filling Multi-Task RNN Model
在形式上,對(duì)于長(zhǎng)度為n的句子,我們的任務(wù)是標(biāo)記(n+1)n/2個(gè)空。挑戰(zhàn)在于標(biāo)簽的決定是高度相互依賴的。我們采用深度學(xué)習(xí)方法,因?yàn)樯疃葘W(xué)習(xí)模型最近已經(jīng)成功地在NLP中建模了復(fù)雜的依賴關(guān)系。更具體地說(shuō),我們應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs) (Elman, 1990;喬丹,1986;由于他們成功地完成了復(fù)雜的NLP任務(wù),如機(jī)器翻譯和推理。
為了應(yīng)用RNNs,我們將表的單元格按圖4所示的順序排列,并使用(標(biāo)記或填充)按順序依次填充單元格。我們將這種方法稱為表填充。
更具體地說(shuō),我們使用雙向架構(gòu)(Vu et al., 2016b),前向RNN和后向RNN來(lái)填充每個(gè)單元(i, j),如圖3所示。前向RNN提供了歷史的表示w1,…wi。反向網(wǎng)絡(luò)提供了下文的表示wj,…w |s |。圖中顯示了如何計(jì)算關(guān)聯(lián)的命名實(shí)體標(biāo)記。正向RNN如下圖所示。hfi是歷史的表現(xiàn),hbj是下文內(nèi)容的表達(dá)。兩者都被輸入到hi j中,然后hi j預(yù)測(cè)標(biāo)簽L-ORG。在這種情況下,i =j。關(guān)系標(biāo)簽的預(yù)測(cè)是相似的,除了i!= j時(shí)刻。
- i=j:實(shí)體標(biāo)簽
- i!=j:關(guān)系標(biāo)簽
- 方法:雙向RNN
- -> 前向,前文
- <-后向,后文
我們提出的基于RNN的框架通過(guò)共享模型參數(shù)和表示形式,將實(shí)體和關(guān)系提取任務(wù)聯(lián)合建模,以學(xué)習(xí)它們之間的相關(guān)性。如圖3所示,我們使用兩個(gè)獨(dú)立的輸出節(jié)點(diǎn)和權(quán)重矩陣分別進(jìn)行實(shí)體和關(guān)系分類。實(shí)體標(biāo)簽賦值給一個(gè)詞,關(guān)系賦值給一個(gè)詞對(duì);因此,只有來(lái)自前向和后向網(wǎng)絡(luò)的相同單詞組成時(shí)才會(huì)執(zhí)行EE。
- 通過(guò)共享參數(shù)和表示–聯(lián)合–》學(xué)習(xí)他們之間的相關(guān)性。
2.3 Context-aware TF-MTRNN model
在圖3中,我們觀察到,當(dāng)單詞Association和Va的隱藏表示被組合在一起時(shí),中間的上下文,即在單詞對(duì)組合中出現(xiàn)的所有單詞之間的序列被遺漏了。因此,我們?cè)诰W(wǎng)絡(luò)中引入了缺少的上下文的第三個(gè)方向(圖5)(即在Alexandria中),將完整的上下文累積在組合的隱藏向量中(hi,j)。
- 前面只有上文和下文,沒(méi)有實(shí)體之間的context,這里加上。
2.4 Piggybacking for Entity-Relation Label Dependencies
- 有命名實(shí)體標(biāo)簽對(duì)于發(fā)現(xiàn)它們之間的關(guān)系類型是非常有用的,反之亦然,有命名實(shí)體標(biāo)簽之間的關(guān)系類型可以減輕命名實(shí)體標(biāo)簽的問(wèn)題。在圖6的端到端關(guān)系提取過(guò)程中,我們對(duì)這些標(biāo)簽的相互依賴關(guān)系進(jìn)行了建模,其中時(shí)間步長(zhǎng)t的輸入向量為
其中CRE是對(duì)實(shí)體依賴關(guān)系建模的計(jì)數(shù)向量,EER是預(yù)測(cè)實(shí)體對(duì)實(shí)體依賴關(guān)系建模的一個(gè)熱點(diǎn)向量,Wemb是詞嵌入向量。因此,在每個(gè)時(shí)間步長(zhǎng)的輸入向量t是這三個(gè)向量的串聯(lián)。
為了將實(shí)體建模為關(guān)系依賴,TF-MTRNN模型(圖6)首先計(jì)算實(shí)體類型,實(shí)體類型由實(shí)體-關(guān)系表的對(duì)角條目表示。將每個(gè)預(yù)測(cè)實(shí)體類型EER(填充的藍(lán)色方框)與對(duì)應(yīng)的詞嵌入向量Wemb連接,然后輸入相同的模型M進(jìn)行關(guān)系分類。
為了對(duì)實(shí)體依賴關(guān)系進(jìn)行建模,我們派生了一個(gè)候選實(shí)體標(biāo)記列表,除了K個(gè)關(guān)系類型之外,每個(gè)詞都參與了一個(gè)關(guān)系。與關(guān)系類型相關(guān)的每個(gè)單詞都是由關(guān)系分類(RC)步驟確定的(圖6)。圖7展示了給定句子中每個(gè)單詞的實(shí)體類型計(jì)數(shù)向量(圖1)。例如,單詞Alexandria參與了關(guān)系類型:ORGBased in和locate in??赡艿膶?shí)體類型是{U-ORG, L-ORG, U-LOC, L-LOC}用于ORGBased In,而{U-LOC, L-LOC}用于locate In。然后我們從這些可能的實(shí)體類型計(jì)算一個(gè)計(jì)數(shù)向量CRE。因此,U-LOC和L-LOC的出現(xiàn)次數(shù)分別為2,U-ORG和L-ORG的出現(xiàn)次數(shù)分別為1(圖7)。將每個(gè)單詞的count vector (filledyellow color box)作為候選實(shí)體類型,通過(guò)將其與對(duì)應(yīng)的單詞嵌入向量Wemb連接起來(lái),作為實(shí)體學(xué)習(xí)的M。這種承載候選實(shí)體計(jì)數(shù)向量的簡(jiǎn)單方法允許從關(guān)系到實(shí)體學(xué)習(xí)標(biāo)簽依賴關(guān)系,以改進(jìn)實(shí)體提取。此外,通過(guò)共享參數(shù)和在統(tǒng)一網(wǎng)絡(luò)中調(diào)整共享嵌入實(shí)現(xiàn)多任務(wù)處理,可以實(shí)現(xiàn)學(xué)習(xí)標(biāo)簽的相互依賴性。
- 計(jì)算實(shí)體類型(對(duì)角線上)EER
- EER+Wemb
- 關(guān)系分類
- 候選實(shí)體標(biāo)記列表
- 共享參數(shù)
2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)
排名損失被用于神經(jīng)架構(gòu)(多斯桑托斯et al ., 2015)和(Vu et al ., 2016 b)處理人工類。在我們的實(shí)驗(yàn)中,對(duì)于一個(gè)給定的句子x類標(biāo)簽y +,競(jìng)爭(zhēng)類c-是選擇得分最高的在所有競(jìng)爭(zhēng)類在SGD步驟?;驹硎菍W(xué)習(xí)真正的標(biāo)簽之間的距離最大化y +最好的競(jìng)爭(zhēng)力標(biāo)簽c-對(duì)于一個(gè)給定的數(shù)據(jù)點(diǎn)x。我們使用排名處理兩個(gè)人工類即損失。O和⊥,分別在實(shí)體和關(guān)系類型。排名目標(biāo)函數(shù)的定義是
- set γ+=2,m+=2.5,m?=0.5\gamma^+=2,m^+=2.5,m^-=0.5γ+=2,m+=2.5,m?=0.5
3.Model training
3.1 端到端關(guān)系抽取
在CoNLL04中,超過(guò)99%的單詞對(duì)屬于無(wú)關(guān)系類。因此,在關(guān)系學(xué)習(xí)中,要求命名實(shí)體考生選擇候選詞對(duì)。在圖6和圖9中,我們演示了用于端到端關(guān)系提取的聯(lián)合和管道方法
在圖6中,通過(guò)過(guò)濾掉非實(shí)體對(duì)來(lái)選擇候選關(guān)系對(duì)。因此,在實(shí)體-關(guān)系表中,我們沒(méi)有為非實(shí)體對(duì)插入任何關(guān)系標(biāo)簽,并且RC沒(méi)有被執(zhí)行。注意,RC選擇了一個(gè)詞對(duì),其中至少有一個(gè)詞是實(shí)體。它允許模型M通過(guò)攜帶候選命名實(shí)體(圖7)在NER中糾正自身錯(cuò)誤。然而,在圖9中,兩個(gè)獨(dú)立的模型M1和M2分別為NER和RC進(jìn)行了訓(xùn)練。在管道方法中,唯一的候選關(guān)系是具有(U-, U-)、(L-, L-)或(U-, L-)實(shí)體類型的單詞對(duì)。因此,在RC子任務(wù)中,只有w1和w5是按照單詞序列在M2中組成的。
-
大多無(wú)關(guān)系
-
生成候選詞對(duì)
- 過(guò)濾掉非實(shí)體對(duì)
-
word embedding
- 50-d預(yù)訓(xùn)練詞向量(7-gram)
多任務(wù)訓(xùn)練是通過(guò)在一組訓(xùn)練步驟中切換多個(gè)任務(wù)來(lái)執(zhí)行的。然而,我們執(zhí)行開(kāi)關(guān)ER和RC子任務(wù)之間基于每一個(gè)任務(wù)的性能共同驗(yàn)證設(shè)置和更新學(xué)習(xí)速率只有當(dāng)任務(wù)從RC轉(zhuǎn)向ER(圖8)。ER是多任務(wù)的任務(wù)開(kāi)始和ER / RC切換在接下來(lái)的訓(xùn)練步驟,當(dāng)他們ValidF1分?jǐn)?shù)并不比BestValidF1分?jǐn)?shù)的前面的步驟驗(yàn)證集。
- (i)我們提出的所有模型元素(POS、CF、CTX、piggybacking、ensemble)都提高了性能,特別是CTX和piggybacking提供了很大的改進(jìn)。
- (ii)毫不奇怪,能夠訪問(wèn)NER分類的管道RE模型比單獨(dú)的RE模型表現(xiàn)得更好。
- (iii)聯(lián)合模型比單獨(dú)和流水線模型的性能更好,表明聯(lián)合訓(xùn)練和解碼對(duì)聯(lián)合NER和RE更有優(yōu)勢(shì)。
- Word pair Compositions (T-SNE):我們觀察到,具有共同關(guān)系類型的實(shí)體提及對(duì)在語(yǔ)義實(shí)體關(guān)系空間中形成對(duì)應(yīng)于每個(gè)關(guān)系的簇
總結(jié)
以上是生活随笔為你收集整理的论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Typora用法教程小结
- 下一篇: MySql笔记:Can't create