论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型
文章目錄
- abstract
- 1.introduction
- 2. 相關(guān)工作
- 2.1 命名實(shí)體識(shí)別
- 2.2 關(guān)系抽取
- 2.3 實(shí)體關(guān)系聯(lián)合抽取模型
- 3.聯(lián)合模型
- 3.1 Embedding層
- 3.2 bilstm--編碼層
- 3.3 命名實(shí)體識(shí)別
- 3.4 多頭選擇的關(guān)系抽取模型
- 3.5. Edmonds’ algorithm
Joint entity recognition and relation extraction as a multi-head selection problem
code
abstract
聯(lián)合實(shí)體識(shí)別和關(guān)系提取的最新模型嚴(yán)重依賴外部自然語言處理(NLP)工具,如詞性標(biāo)記器和依賴解析器。因此,這種聯(lián)合模型的性能取決于從這些NLP工具中獲得的特征的質(zhì)量。然而,這些特性對(duì)于不同的語言和上下文并不總是準(zhǔn)確的。在本文中,我們提出了一個(gè)聯(lián)合神經(jīng)模型,它可以同時(shí)進(jìn)行實(shí)體識(shí)別和關(guān)系提取,不需要任何手動(dòng)提取的特征或使用任何外部工具。具體地,我們使用CRF(條件隨機(jī)域)層將實(shí)體識(shí)別任務(wù)和關(guān)系提取任務(wù)建模為一個(gè)多頭選擇問題。,可能為每個(gè)實(shí)體標(biāo)識(shí)多個(gè)關(guān)系)。我們提出了一個(gè)廣泛的實(shí)驗(yàn)設(shè)置,以證明我們的方法的有效性使用數(shù)據(jù)集從不同的上下文(即。、新聞、生物醫(yī)學(xué)、房地產(chǎn))和語言(即、英語、荷蘭)。我們的模型優(yōu)于之前使用自動(dòng)提取特征的神經(jīng)模型,而它在基于特征的神經(jīng)模型的合理范圍內(nèi)執(zhí)行,甚至超過了它們
- 轉(zhuǎn)化為多頭選擇問題
- 同時(shí)實(shí)體識(shí)別和關(guān)系識(shí)別
- 多重關(guān)系
1.introduction
- 管道模型(分開進(jìn)行)
- 這個(gè)問題傳統(tǒng)上是作為兩個(gè)獨(dú)立的子任務(wù)處理的,即(i)命名實(shí)體識(shí)別(NER) (Nadeau &Sekine, 2007)和(ii)關(guān)系提取(RE) (Bach &Badaskar, 2007),在一個(gè)管道設(shè)置中。管道模型的主要限制是:(i)組件之間的錯(cuò)誤傳播(即(ii)來自一個(gè)任務(wù)的可能有用的信息不會(huì)被另一個(gè)任務(wù)利用(例如,識(shí)別一個(gè)關(guān)聯(lián)的工作可能有助于NER模塊檢測(cè)兩個(gè)實(shí)體的類型,即。, PER, ORG,反之亦然)。另一方面,最近的研究建議使用聯(lián)合模型來檢測(cè)實(shí)體及其關(guān)系,以克服上述問題并實(shí)現(xiàn)最先進(jìn)的性能。
- 問題
- 組件之間錯(cuò)誤傳播
- 來自一個(gè)任務(wù)的有用信息不一定會(huì)被使用
以前的聯(lián)合模式嚴(yán)重依賴手工制作的特征。神經(jīng)網(wǎng)絡(luò)的最新進(jìn)展緩解了手工特征工程的問題,但其中一些仍然依賴于NLP工具(如POS標(biāo)記器、依賴解析器)。
- 關(guān)系抽取
- Miwa&Bansal(2016)提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的聯(lián)合模型,該模型使用雙向順序LSTM (Long - Short - Term Memory,長(zhǎng)短時(shí)記憶)對(duì)實(shí)體進(jìn)行建模,并使用一種考慮依賴樹信息的樹-LSTM對(duì)實(shí)體之間的關(guān)系進(jìn)行建模。依賴項(xiàng)信息是使用外部依賴項(xiàng)解析器提取的。
- 依賴于依賴解析器,依賴解析器在特定語言(英語)和上下文(即、新聞)上表現(xiàn)得特別好——泛化性弱。
- 同樣,Li等人(2017)在生物醫(yī)學(xué)文本的實(shí)體和關(guān)系提取中,采用了同樣使用樹- lstms的模型來提取依賴信息。
- Gupta等人(2016)提出了一種依賴于RNNs的方法,但是使用了大量手工制作的特性和額外的NLP工具來提取諸如posr -tag等特性。
- (注意,前面的工作是檢查實(shí)體對(duì)的關(guān)系提取,而不是直接對(duì)整個(gè)句子建模。)
- Adel,Schutze(2017)使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)復(fù)制實(shí)體周圍的上下文。這意味著同一句子中其他對(duì)實(shí)體的關(guān)系(可能有助于決定關(guān)系類型為特定的一對(duì))不考慮
- Katiyar,Cardie(2017)提出了一種基于LSTMs的神經(jīng)聯(lián)合模型,他們一次對(duì)整個(gè)句子進(jìn)行建模,但仍然沒有一個(gè)處理多重關(guān)系的原則性方法。
- Bekoulis等人(2018)引入了一個(gè)二次評(píng)分層來同時(shí)對(duì)兩個(gè)任務(wù)進(jìn)行建模。該方法的局限性在于只能將單個(gè)關(guān)系分配給一個(gè)token,而實(shí)體識(shí)別任務(wù)的時(shí)間復(fù)雜度與線性復(fù)雜度的標(biāo)準(zhǔn)方法相比有所增加
- Miwa&Bansal(2016)提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的聯(lián)合模型,該模型使用雙向順序LSTM (Long - Short - Term Memory,長(zhǎng)短時(shí)記憶)對(duì)實(shí)體進(jìn)行建模,并使用一種考慮依賴樹信息的樹-LSTM對(duì)實(shí)體之間的關(guān)系進(jìn)行建模。依賴項(xiàng)信息是使用外部依賴項(xiàng)解析器提取的。
- 本文貢獻(xiàn)
- (i)我們的模型不依賴于外部NLP工具還是手工功能,
- (ii)實(shí)體和關(guān)系在同一文本片段(通常是一個(gè)句子)同時(shí)提取,
- (3)一個(gè)實(shí)體可以參與多個(gè)關(guān)系
- 與Miwa比,本文想要開發(fā)一個(gè)能在各種設(shè)置中很好概括的模型,因此只使用在訓(xùn)練中學(xué)習(xí)到的自動(dòng)提取的特性。——不同的上下文下也用相同的模型,得到了改進(jìn)。
- 與Adel和Schutze(2017)相比,我們通過一次建模所有實(shí)體和句子之間的關(guān)系來訓(xùn)練我們的模型。這種類型的推理有助于獲得關(guān)于相鄰實(shí)體和關(guān)系的信息,而不是每次只檢查一對(duì)實(shí)體。
- 最后,我們解決了Katiyar &Cardie(2017)和Bekoulis等人(2017),他們本質(zhì)上假定類(即關(guān)系)是互斥的:我們通過將關(guān)系提取組件描述為一個(gè)多標(biāo)簽預(yù)測(cè)問題來解決這個(gè)問題
2. 相關(guān)工作
2.1 命名實(shí)體識(shí)別
在我們的工作中,為了解決端到端關(guān)系提取問題,NER是我們首先要解決的任務(wù)。許多不同的方法來ner任務(wù)提出了
- 基于手工的特性,如
- CRFs(拉弗蒂et al ., 2001),
- 最大利潤(rùn)率馬爾可夫網(wǎng)絡(luò)(Taskar et al ., 2003)和
- 對(duì)結(jié)構(gòu)化輸出(Tsochantaridis et al ., 2004)的支持向量機(jī)(svm),等等。
- 基于CNN和rnn模型的深度學(xué)習(xí)方法與CRF損失函數(shù)相結(jié)合(Collobert et al., 2011;黃等,2015;Lample等人,2016;馬,霍維,2016)。
- 這些方法在不依賴手工特性的情況下,在公開可用的NER數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
2.2 關(guān)系抽取
- 我們將關(guān)系提取作為聯(lián)合模型的第二個(gè)任務(wù)。關(guān)系提取的主要方法
- 依賴于手工特征(Zelenko et al., 2003;Kambhatla, 2004)或神經(jīng)網(wǎng)絡(luò)(Socher et al., 2012;曾等,2014)。
- 基于特征的方法側(cè)重于獲得有效的手工特征,例如
- 定義kernel函數(shù)(Zelenko et al., 2003;Culotta,Sorensen, 2004)和
- 設(shè)計(jì)詞匯、句法、語義特征等(Kambhatla, 2004;Rink&Harabagiu, 2010)。
- 神經(jīng)網(wǎng)絡(luò)模型已經(jīng)被提出來克服手工設(shè)計(jì)的問題,從而提高性能。
- CNN-(Zeng等,2014;徐等,2015a;dos Santos等人,2015)和
- rnn-based (Socher等人,2013;張,王,2015;Xu等人,2015b)引入了模型來自動(dòng)提取詞匯和句子級(jí)特征,從而更深入地理解語言。
- Vu等人(2016)使用集成方案將CNNs和RNNs結(jié)合起來,以獲得最先進(jìn)的結(jié)果。
2.3 實(shí)體關(guān)系聯(lián)合抽取模型
- Feature-based joint models (Kate & Mooney, 2010; Yang & Cardie, 2013; Li & Ji,2014; Miwa & Sasaki, 2014)提出了同時(shí)解決實(shí)體識(shí)別和關(guān)系提取(RE)子任務(wù)的方法。這些方法依賴于NLP工具(如POS標(biāo)記器)或手工設(shè)計(jì)的特性的可用性,因此
- (i)需要額外的數(shù)據(jù)預(yù)處理工作,
- (ii)在NLP工具不可靠的不同應(yīng)用程序和語言設(shè)置中表現(xiàn)較差
- (iii)增加計(jì)算復(fù)雜度。
- 在本文中,我們引入一個(gè)聯(lián)合神經(jīng)網(wǎng)絡(luò)模型來克服上述問題,并自動(dòng)執(zhí)行端到端的關(guān)系提取,而不需要任何手動(dòng)的特征工程或使用額外的NLP組件
- 神經(jīng)網(wǎng)絡(luò)方法已經(jīng)被考慮在聯(lián)合設(shè)置(端到端關(guān)系提取)中解決這個(gè)問題,
- 通常包括使用RNNs和CNNs (Miwa & Bansal, 2016; Zheng et al., 2017; Li et al., 2017)。
- 特別的,Miwa & Bansal(2016)提出使用雙向樹結(jié)構(gòu)的RNNs來捕獲依賴樹信息(其中使用最先進(jìn)的依賴解析器來提取解析樹),這已被證明對(duì)關(guān)系提取是有益的(Xu et al., 2015a,b)。
- Li等人(2017)將Miwa &Bansal的工作應(yīng)用于生物醫(yī)學(xué)文本,報(bào)告了兩個(gè)生物醫(yī)學(xué)數(shù)據(jù)集的最新性能。
- Gupta等人(2016)提出在RNNs的同時(shí)使用大量手工制作的功能。
- Adel,Schutze(2017)解決了實(shí)體分類任務(wù)(與NER不同,因?yàn)樵趯?shí)體分類中,實(shí)體的邊界是已知的,只需要預(yù)測(cè)實(shí)體的類型)和關(guān)系提取問題,使用了全局規(guī)范化目標(biāo)的近似值(即:它們復(fù)制句子的上下文(實(shí)體的左右部分),每次向CNN提供一個(gè)實(shí)體對(duì),以提取關(guān)系。因此,他們不會(huì)在同一句話中同時(shí)推斷出其他潛在的實(shí)體和關(guān)系。
- Katiyar,Cardie(2017)和Bekoulis等人(2018)研究了RNNs,注意在不使用任何依賴解析樹特征的情況下提取實(shí)體提及之間的關(guān)系。
- 我們不一樣:
- 不同于Katiyar &Cardie(2017)在這項(xiàng)工作中我們將該問題定義為一個(gè)多頭選擇問題,通過使用sigmoid損失來獲得多個(gè)關(guān)系,并為NER組件使用CRF損失。通過這種方式,我們能夠獨(dú)立地預(yù)測(cè)不互斥的類,而不是在標(biāo)記之間分配相等的概率值。
- 我們克服了額外的時(shí)間復(fù)雜度增加問題(由Bekoulis等人(2018)通過將損失函數(shù)分為NER和關(guān)系提取組件造成的)。此外,我們可以處理多個(gè)關(guān)系,而不只是預(yù)測(cè)單個(gè)關(guān)系,正如Bekoulis等人(2018)在結(jié)構(gòu)化房地產(chǎn)廣告中的應(yīng)用中所描述的那樣。
3.聯(lián)合模型
在本節(jié)中,我們將給出如圖1所示的多頭關(guān)節(jié)模型。模型能夠同時(shí)識(shí)別實(shí)體(即以及它們之間所有可能的關(guān)系。我們將該問題描述為一個(gè)擴(kuò)展了以前工作的多頭選擇問題(Zhang et al., 2017;(Bekoulis et al., 2018)如2.3節(jié)所述。所謂多頭,我們的意思是任何特定的實(shí)體都可能涉及到與其他實(shí)體的多種關(guān)系。模型的基本層如下圖1所示:
(i)embedding層,
(ii)雙向序列LSTM (BiLSTM)層,
(iii) CRF層,
(iv) sigmoid評(píng)分層。
- Embedding層
- 輸入:句子的token(單詞
- 輸出:詞向量
- BiLSTM層能夠?yàn)槊總€(gè)通過RNN結(jié)構(gòu)合并上下文的單詞提取更復(fù)雜的表示。
- 然后CRF和sigmoid層就能夠生成這兩個(gè)任務(wù)的輸出。
- 每個(gè)token的輸出(例如,史密斯)是雙重的:
- (i)一個(gè)實(shí)體識(shí)別標(biāo)簽(如I-PER,表示命名實(shí)體的類型)和
- (2)一組元組組成的頭標(biāo)記實(shí)體和它們之間的關(guān)系的類型(例如,{(中心工作),(住在亞特蘭大)})。
- 由于我們假設(shè)了基于標(biāo)記的編碼,所以我們只將實(shí)體的最后一個(gè)標(biāo)記作為另一個(gè)標(biāo)記的頭部,從而消除了冗余關(guān)系。例如,有一個(gè)關(guān)于實(shí)體約翰·史密斯和疾病控制中心之間工作關(guān)系。我們只連接Smith和Center,而不連接實(shí)體的所有令牌。同樣,對(duì)于沒有關(guān)系的情況,我們引入N標(biāo)簽,并預(yù)測(cè)令牌本身為頭部。
3.1 Embedding層
- 輸入:一個(gè)token序列
- 輸出:一個(gè)token輸出一個(gè)word vector
- 方法:
- skip-gram
- word2vec
- 在這項(xiàng)工作中,我們還使用了字符嵌入(character embeddings),因?yàn)樗鼈兺ǔ?yīng)用于神經(jīng)網(wǎng)絡(luò)(Ma & Hovy, 2016;Lample等人,2016)。
- 這種類型的嵌入能夠捕獲前綴和后綴等形態(tài)特征。
- eg
- 例如,在不良藥物事件(ADE)數(shù)據(jù)集中,后綴“毒性”可以指定一個(gè)不良藥物事件實(shí)體,如“神經(jīng)毒性”或“肝毒性”,因此它是非常有用的。
- 另一個(gè)例子可能是荷蘭語中的后綴“kamer”(英語中的“房間”)荷蘭房地產(chǎn)分類(DREC)數(shù)據(jù)集,用于指定空間實(shí)體“badkamer”(英語中的“bathroom”)和“slaapkamer”(英語中的“bedroom”)。
- 字符級(jí)嵌入是在training中學(xué)習(xí)的,類似于Ma & Hovy(2016)和Lample等人(2016)。
- 有效果,有提升
圖2說明了基于字嵌入特征的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)單詞的字符由字符向量表示
(即。嵌入的)。將字符嵌入提供給BiLSTM,并將兩個(gè)最終狀態(tài)(向前和向后)連接起來。向量wchars是單詞的字符級(jí)表示。然后將這個(gè)向量進(jìn)一步連接到單詞級(jí)表示wword2vec,以獲得完整的單詞嵌入向量
- 字符embedding->bilstm->forward+backward
- wchar+wwordw_{char}+w_{word}wchar?+wword?–完整的單詞嵌入向量
3.2 bilstm–編碼層
這項(xiàng)工作中,我們使用了多層的LSTMs(這是一種能夠很好地捕獲長(zhǎng)期依賴關(guān)系的特定類型的rns)(Bengio et al., 1994; Pascanu et al.,2013).
- 第i時(shí)間步的輸出:
3.3 命名實(shí)體識(shí)別
- –》序列標(biāo)注問題
- BIO
- 每個(gè)token分配一個(gè)標(biāo)記(一個(gè)詞一個(gè)標(biāo)記)
- 在CRF層,可以看到我們分別指定了B-ORG和I-ORG標(biāo)記來表示實(shí)體“疾病控制中心”的開始和內(nèi)部標(biāo)記。
- 在BiLSTM層的頂層,我們使用softmax或CRF層來計(jì)算每個(gè)令牌的最可能實(shí)體標(biāo)記。
- 我們計(jì)算每個(gè)令牌wi對(duì)每個(gè)實(shí)體標(biāo)簽的得分:
- 我們僅對(duì)實(shí)體分類(EC)任務(wù)(類似于NER)使用softmax方法,在此任務(wù)中,假設(shè)邊界已知,我們只需預(yù)測(cè)每個(gè)令牌的實(shí)體類型(例如PER)。
- CRF方法用于包含實(shí)體類型和邊界識(shí)別的NER任務(wù)。
- 盡管假設(shè)獨(dú)立的標(biāo)記分布有利于實(shí)體分類任務(wù)(例如,POS標(biāo)記),但當(dāng)存在強(qiáng)依賴時(shí)時(shí),情況就不一樣了
- 具體來說,在NER中,BIO標(biāo)記方案強(qiáng)制了幾個(gè)限制(例如,B-LOC不能被I-PER遵循)。softmax方法允許局部決策(即,對(duì)于每個(gè)令牌的標(biāo)記wi),即使BiLSTM捕獲關(guān)于相鄰單詞的信息。但是,相鄰的標(biāo)記并沒有考慮到特定標(biāo)記的標(biāo)記決策。
- 例如,在實(shí)體中“John Smith”,按PER標(biāo)記“Smith”有助于確定“John”是B-PER。為此,對(duì)于NER,我們使用一個(gè)線性鏈CRF,類似于Lample et al.(2016),在使用CRF時(shí),報(bào)告了對(duì)~1% F1 NER點(diǎn)的改進(jìn)。在我們的例子中,使用CRF我們還報(bào)告了一個(gè)~1%的整體性能改進(jìn),如表2所示(參見5.2節(jié))。
- 具體來說,在NER中,BIO標(biāo)記方案強(qiáng)制了幾個(gè)限制(例如,B-LOC不能被I-PER遵循)。softmax方法允許局部決策(即,對(duì)于每個(gè)令牌的標(biāo)記wi),即使BiLSTM捕獲關(guān)于相鄰單詞的信息。但是,相鄰的標(biāo)記并沒有考慮到特定標(biāo)記的標(biāo)記決策。
- CRF的得分(T是轉(zhuǎn)移矩陣)
- 我們使用Viterbi來獲得得分最高的標(biāo)記序列y (e)。
- 我們通過最小化交叉熵?fù)p失來訓(xùn)練softmax(用于EC任務(wù))和CRF層(用于NER)。
- 我們還使用實(shí)體標(biāo)簽作為輸入到我們的關(guān)系提取層學(xué)習(xí)標(biāo)簽嵌入,
- 由Miwa &Bansal(2016)報(bào)告了2% F1的改進(jìn)(使用標(biāo)簽嵌入)。在我們的例子中,標(biāo)簽嵌入導(dǎo)致F1得分增加1%,如表2所示(見5.2節(jié))。
- 下一層的輸入是雙重的:
- LSTM的輸出狀態(tài)和學(xué)習(xí)到的標(biāo)簽嵌入表示,
- 對(duì)命名實(shí)體的知識(shí)對(duì)關(guān)系提取有用的直覺進(jìn)行編碼。
- 在訓(xùn)練期間,我們使用gold實(shí)體標(biāo)記,
- 而在預(yù)測(cè)時(shí),我們使用預(yù)測(cè)的實(shí)體標(biāo)記作為下一層的輸入。
- 下一層的輸入是LSTM的隱藏狀態(tài)hi(帶有令牌wi的標(biāo)簽嵌入gi的拼接:
3.4 多頭選擇的關(guān)系抽取模型
我們將關(guān)系提取任務(wù)描述為一個(gè)多頭選擇問題(Zhang et al., 2017;(Bekoulis et al., 2018)。
在我們方法的一般公式中,每個(gè)令牌wi可以有多個(gè)頭(即,與其他令牌的多個(gè)關(guān)系)。
我們預(yù)測(cè)元組(yi, c_i)其中yi是正面的向量,而c_i是每個(gè)令牌wi對(duì)應(yīng)關(guān)系的向量。這與之前的依賴分析方法的標(biāo)準(zhǔn)頭選擇不同(Zhang et al., 2017),因?yàn)?br /> (i)它被擴(kuò)展為預(yù)測(cè)多個(gè)頭,
(ii)頭的決策和關(guān)系是共同做出的(即,而不是先預(yù)測(cè)正面,然后在下一步使用額外的分類器來預(yù)測(cè)關(guān)系)。
- 輸入:給定一個(gè)令牌序列w和一組關(guān)系標(biāo)簽R作為輸入,
- 目標(biāo):我們的目標(biāo)是識(shí)別每個(gè)令牌的wi, i{0,…, n}最可能正面的向量y i 和最可能對(duì)應(yīng)關(guān)系標(biāo)簽r i的向量
- 得分(給定一個(gè)標(biāo)簽rk,我們計(jì)算令牌wi和wj之間的分?jǐn)?shù)如下:
- 交叉熵?fù)p失函數(shù)
3.5. Edmonds’ algorithm
通過使用閾值推理,關(guān)系樹結(jié)構(gòu)不能得到保證。因此,我們應(yīng)該對(duì)我們的模型實(shí)施樹結(jié)構(gòu)約束。為此,我們使用有向圖的Edmonds最大生成樹算法(Chu &劉,1965;埃德蒙茲,1967)。構(gòu)造一個(gè)完全連通的有向圖G = (V, E),其中頂點(diǎn)V表示標(biāo)識(shí)實(shí)體的最后標(biāo)記(NER預(yù)測(cè)的),邊E表示得分最高的關(guān)系,它們的得分作為權(quán)重。Edmonds算法適用于閾值推理尚未形成樹的情況。
總結(jié)
以上是生活随笔為你收集整理的论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PHP7 ini 配置大全
- 下一篇: AlphaFold 和 AI 蛋白质折叠