技术动态 | 跨句多元关系抽取
本文轉(zhuǎn)載自公眾號(hào):知識(shí)工場(chǎng)。
第一部分 概述
關(guān)系抽取簡(jiǎn)介
關(guān)系抽取是從自由文本中獲取實(shí)體間所具有的語(yǔ)義關(guān)系。這種語(yǔ)義關(guān)系常以三元組 <E1,R,E2> 的形式表達(dá),其中,E1?和E2?表示實(shí)體,R?表示實(shí)體間所具有的語(yǔ)義關(guān)系。如圖1所示。關(guān)系抽取既是文本處理任務(wù)的基礎(chǔ),又是構(gòu)建知識(shí)圖譜的核心任務(wù)。抽取實(shí)例不僅能提升文本分析的層面,還可為諸如問(wèn)答系統(tǒng)、聊天機(jī)器人及語(yǔ)義搜索等下游任務(wù)提供背景知識(shí)。
圖1 關(guān)系抽取案例
關(guān)系抽取中的難點(diǎn)問(wèn)題
1.同一關(guān)系可由不同的詞語(yǔ)表達(dá)。
2.同一短語(yǔ)或詞具有歧義性,不能很好的表征同一關(guān)系。
3.實(shí)體對(duì)間可能具有多種關(guān)系。
4.跨句多元關(guān)系不能很好解決。
5.隱含關(guān)系不能很好解決。
6.對(duì)nlp處理工具依賴較大。
關(guān)系抽取方法分類
關(guān)系抽取方法的概括圖如圖2所示,簡(jiǎn)述其中部分方法。
圖2 關(guān)系抽取方法概括圖
特定領(lǐng)域關(guān)系抽取是指從特定領(lǐng)域的語(yǔ)料中抽取實(shí)體間所具有的語(yǔ)義關(guān)系,這種語(yǔ)義關(guān)系通常是預(yù)定義的。基于模式的關(guān)系抽取方法通過(guò)人工設(shè)計(jì)或從文本中學(xué)到的語(yǔ)言模式與文本進(jìn)行匹配,以抽取關(guān)系實(shí)例。該類方法需要依靠nlp處理工具包,如,首先通過(guò)分句對(duì)文本進(jìn)行句子分割,然后利用pos對(duì)詞語(yǔ)進(jìn)行詞性標(biāo)注、ner識(shí)別句子中實(shí)體,最后構(gòu)建基于字符、語(yǔ)法和語(yǔ)義的關(guān)系抽取模式。該方法的抽取精度高但泛化能力弱,適用于結(jié)構(gòu)性的文本。基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法克服了上述方法的弊端。依據(jù)標(biāo)注數(shù)據(jù),可分為監(jiān)督的關(guān)系抽取、弱監(jiān)督關(guān)系抽取及無(wú)監(jiān)督關(guān)系抽取。有監(jiān)督的關(guān)系抽取旨在從大規(guī)模標(biāo)注語(yǔ)料中獲取表達(dá)實(shí)體間語(yǔ)義關(guān)系的有效特征。主要方法有基于特征工程的關(guān)系抽取方法、基于核函數(shù)的方法及深度模型的方法。基于特征工程的關(guān)系抽取方法通過(guò)nlp工具包對(duì)語(yǔ)料執(zhí)行分句、詞性標(biāo)注、依存分析等操作以獲取有效特征。基于核函數(shù)的關(guān)系抽取方法通過(guò)構(gòu)建結(jié)構(gòu)樹(shù),計(jì)算關(guān)系距離以抽取關(guān)系實(shí)例,該方法緩解了特性稀疏性問(wèn)題。雖然上述方法在關(guān)系抽取上取得了不錯(cuò)的性能,但擴(kuò)展性較差。基于深度模型的方法克服了模型擴(kuò)展性的問(wèn)題,通過(guò)從標(biāo)注語(yǔ)料中自動(dòng)構(gòu)建特征,并抽取關(guān)系實(shí)例。近年來(lái),對(duì)該方法的研究層出不迭,該方法常規(guī)過(guò)程是通過(guò)詞向量技術(shù)對(duì)詞、字、位置進(jìn)行向量化表示,或通過(guò)pre-trained embedding初始化向量表示。拼接向量以構(gòu)成句子的表示。通過(guò)深度模型抽取詞匯級(jí)別特征和句子級(jí)別特征,最終依據(jù)任務(wù)類型選用相應(yīng)的輸出函數(shù)以獲取預(yù)測(cè)結(jié)果。遷移學(xué)習(xí)的思想是從相關(guān)領(lǐng)域遷移標(biāo)注數(shù)據(jù)或知識(shí)已完成特定領(lǐng)域的任務(wù)。
遠(yuǎn)程監(jiān)督簡(jiǎn)介
遠(yuǎn)程監(jiān)督的基本假設(shè):如果實(shí)體對(duì)間存在關(guān)系,則任何含有該實(shí)體對(duì)的句子都表達(dá)了該實(shí)體對(duì)間的關(guān)系。遠(yuǎn)程監(jiān)督的假設(shè)過(guò)于絕對(duì),會(huì)引入大量噪聲。針對(duì)引入噪聲這一問(wèn)題,現(xiàn)有方法主要有:
利用先驗(yàn)知識(shí)約束數(shù)據(jù)集的構(gòu)建;
利用關(guān)系圖模型對(duì)樣本打分,過(guò)濾信任分?jǐn)?shù)較低的句子;
利用多實(shí)例對(duì)句子集打標(biāo)簽;
利用注意力機(jī)制對(duì)句子賦權(quán);
遠(yuǎn)程監(jiān)督雖能緩解數(shù)據(jù)標(biāo)注問(wèn)題,但對(duì)知識(shí)庫(kù)的質(zhì)量和覆蓋率要求較大。
第二部分 論文介紹
介紹幾篇論文,主要解決跨句多元關(guān)系抽取這一問(wèn)題。首先舉例說(shuō)明什么是跨句多元關(guān)系。
“The deletionmutation on exon-19 of EGFR gene was present in 16 patients, while the L858E point mutation on exon-21was noted in 10. All patients were treated with gefitinib and showed a partial response.”.
上面的兩個(gè)句子表達(dá)了這樣一個(gè)事實(shí),即三個(gè)實(shí)體之間存在著一個(gè)關(guān)系三元組,但這在任一單獨(dú)的句子中都沒(méi)有體現(xiàn)。此類現(xiàn)象在中文語(yǔ)料中也是屢見(jiàn)不鮮。
《DistantSupervision for Relation Extraction beyond the Sentence Boundary》- EACL 2017
該文章首次利用遠(yuǎn)程監(jiān)督實(shí)現(xiàn)跨句關(guān)系抽取。文章的方法核心是一種圖表示,它可以將依存關(guān)系和語(yǔ)篇關(guān)系結(jié)合,從而提供了一種統(tǒng)一的方法來(lái)模擬句子內(nèi)部和句子之間的關(guān)系。在面對(duì)語(yǔ)言變異和分析錯(cuò)誤時(shí),該方法從多條路徑中提取特征,提高了特征提取的準(zhǔn)確性和魯棒性。通過(guò)遠(yuǎn)程監(jiān)督,該方法從大約100萬(wàn)篇PubMed Central 全文中抽取了大約64000個(gè)不同的實(shí)例,與原來(lái)的kb相比,達(dá)到了兩個(gè)數(shù)量級(jí)的增長(zhǎng)。
該文章既是開(kāi)創(chuàng)性文章,無(wú)法與其他方法對(duì)比,又是一篇工程性文章。因此,作者闡述了工程中的主要難點(diǎn)及所抽取的結(jié)果。詳細(xì)如下:
Distant Supervision:從知識(shí)庫(kù)中選擇具有明確關(guān)系的實(shí)體對(duì)作為正樣本。并隨機(jī)從知識(shí)庫(kù)中選擇不具有明確關(guān)系的實(shí)體對(duì)作為負(fù)樣本。使正樣本的數(shù)量與負(fù)樣本的數(shù)量相同以保證訓(xùn)練集平衡。
Minimal-SpanCandidates:在跨句三元組抽取中,直接將具有明確關(guān)系的實(shí)體對(duì)劃分到正訓(xùn)練樣本中會(huì)產(chǎn)生很多噪聲。針對(duì)這一問(wèn)題,作者定義了共現(xiàn)實(shí)體對(duì)間最小跨距。作者通過(guò)實(shí)驗(yàn)證明,這種方式可提高抽取的準(zhǔn)確率。
DocumentGraph:引入了一個(gè)document graph,其節(jié)點(diǎn)表示詞,邊表示依存關(guān)系、鄰接關(guān)系和語(yǔ)篇關(guān)系等句內(nèi)和句間關(guān)系。每個(gè)節(jié)點(diǎn)都用詞本身、論點(diǎn)和詞性標(biāo)記。句間的邊由斯坦福句法解析器賦予類別。同時(shí),為了降低解析誤差,通過(guò)在鄰詞間加邊及多路徑融合的方式緩解。
Features:通過(guò)在document graph中的路徑上定義特征模板來(lái)泛化關(guān)系抽取的特征,這些特征模板包含各種類型的交錯(cuò)邊(依賴關(guān)系、詞和句子鄰接、語(yǔ)篇關(guān)系)。
Multiplepaths:大多數(shù)以前的工作只研究了兩個(gè)實(shí)體之間的單一最短路徑。當(dāng)作者使用詞法和句法結(jié)構(gòu)時(shí),且解析器正確解析時(shí),這種方法工作得很好。然而,真實(shí)的數(shù)據(jù)是相當(dāng)嘈雜的。于是,作者采用多條可能路徑解決誤差并保持噪聲的魯棒性。
?
《Cross-Sentence N-ary Relation Extraction with Graph LSTMs》-ACL2017
本文針對(duì)跨句n元關(guān)系抽取這一問(wèn)題,提出了一種graph long short-term memory networks(graph LSTMs)的框架。圖提供了一種探索不同形式LSTM的方法,并可集成句間和句內(nèi)的各種依賴關(guān)系,如序列、句法和語(yǔ)篇關(guān)系。它可為實(shí)體學(xué)習(xí)了一個(gè)魯棒的上下文表示,作為關(guān)系分類器的輸入。它簡(jiǎn)化了對(duì)任意關(guān)系的處理,并使與關(guān)系相關(guān)的多任務(wù)學(xué)習(xí)成為可能.通過(guò)在兩個(gè)重要的精確醫(yī)學(xué)數(shù)據(jù)集上對(duì)該框架進(jìn)行了評(píng)價(jià),證明了該框架在傳統(tǒng)監(jiān)督學(xué)習(xí)和遠(yuǎn)程監(jiān)督下的有效性。跨句抽取產(chǎn)生了更大的知識(shí)庫(kù)。多任務(wù)學(xué)習(xí)顯著提高了抽取精度。通過(guò)對(duì)各種LSTM方法的深入分析,可以發(fā)現(xiàn)語(yǔ)言分析對(duì)提取精度的影響。
跨句n元關(guān)系抽取架構(gòu)如下圖所示。輸入層是輸入文本的word embedding。Graph LSTM學(xué)習(xí)每個(gè)單詞的上下文表示。將文中所提及及的實(shí)體與它們的上下文表示連接起來(lái),并成為關(guān)系分類器的輸入。對(duì)于多詞實(shí)體,利用其詞向量的平均值表示。該框架采用反向傳播進(jìn)行訓(xùn)練。文中并未提及分類器的選擇。
Graph LSTM的核心是一個(gè)document graph,它捕捉輸入單詞之間的各種依賴關(guān)系。通過(guò)選擇document graph中包含的依存項(xiàng),Graph LSTMs很自然地過(guò)渡到線性鏈或tree lstms。接下來(lái),簡(jiǎn)要介紹document graph和如何利用Graph LSTM執(zhí)行多任務(wù)學(xué)習(xí)。
documentgraph是由表示詞的節(jié)點(diǎn)和表示各種依存的邊組成,如下圖所示。如果它只包含鄰詞的邊,則變成線性鏈表。類似地,其他以前的LSTM方法也可以通過(guò)約束邊在最短依賴路徑或解析樹(shù)中來(lái)獲取。
多任務(wù)學(xué)習(xí)可直接由Graph LSTM實(shí)現(xiàn),唯一需要改變是為每個(gè)相關(guān)的輔助關(guān)系添加一個(gè)單獨(dú)的分類器。所有的分類器共享相同的Graph LSTM表示的學(xué)習(xí)器和詞嵌入,并可相互監(jiān)督。
論文在數(shù)據(jù)集上評(píng)測(cè)結(jié)果如下:
《N-ary Relation Extraction using Graph State LSTM》-emnlp2018
?? 跨句n元關(guān)系抽取是檢測(cè)句間的n個(gè)實(shí)體之間的關(guān)系。典型的方法將輸入描述為document graph,集成了句內(nèi)和句間的不同依賴關(guān)系.目前最先進(jìn)的方法是將輸入圖分成兩個(gè)DAGs,每個(gè)都是DAG-structured lstm。盡管能夠利用圖的邊對(duì)豐富的語(yǔ)言知識(shí)進(jìn)行建模,但在拆分過(guò)程中可能會(huì)丟失重要的信息。本文提出了graph-state LSTM模型,它使用一個(gè)并行狀態(tài)對(duì)每個(gè)字進(jìn)行建模,通過(guò)消息傳遞遞歸地更新?tīng)顟B(tài)值。與DAGlstms相比,graph-state LSTM保留了原有的圖結(jié)構(gòu),并允許更多的并行化,從而加快了計(jì)算速度。在一個(gè)標(biāo)準(zhǔn)benchmark,該模型取得了最佳效果。
?? 任務(wù)定義
?? 跨句多元關(guān)系抽取的輸入可表示為,其中,表示實(shí)體指稱集,表示由多個(gè)句子組成的文本。每一個(gè)實(shí)體指稱,屬于中的一個(gè)句子。預(yù)定義關(guān)系集,其中None表示實(shí)體間沒(méi)有關(guān)系。該任務(wù)既可表述為確定是否共同構(gòu)成關(guān)系的二分類問(wèn)題,也可表述成用于檢測(cè)實(shí)體對(duì)屬于哪一種關(guān)系的多分類問(wèn)題。
?? Graph State LSTM
?? 給定輸入圖G=(V,E),為每一個(gè)詞定義一個(gè)狀態(tài)向量。圖的狀態(tài)是由所有詞狀態(tài)組成,可表示成:
為了捕獲非局部信息,模型通過(guò)一個(gè)遞歸的狀態(tài)轉(zhuǎn)換過(guò)程在單詞之間執(zhí)行信息交換,從而得到一系列的圖狀態(tài).初始圖態(tài)由初始詞態(tài)組成.其中,是一個(gè)零向量。該模型利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)狀態(tài)轉(zhuǎn)移過(guò)程建模。特別是到的轉(zhuǎn)移過(guò)程。在每個(gè)步驟t,都允許詞和直接連接到這個(gè)詞的所有詞之間進(jìn)行信息交換。為避免梯度消失或爆炸,采用gate lstm單元,其中,記錄的存儲(chǔ)。模型利用輸入門(mén)、輸出門(mén)和遺忘門(mén)來(lái)控制輸入到的信息流。的輸入通過(guò)輸入方與輸出方來(lái)區(qū)分,分別表示的輸入邊集合和輸出邊集合。除了邊緣輸入,cell還在狀態(tài)轉(zhuǎn)換期間接收其輸入和輸出詞的隱藏狀態(tài)。特別是,對(duì)所有輸入詞和輸出詞的狀態(tài)分別進(jìn)行了累加。
因此,到的循環(huán)狀態(tài)轉(zhuǎn)移可由表示。其中,,,分別是輸入、輸出和遺忘門(mén)。是模型參數(shù)。在醫(yī)療領(lǐng)域數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果如下:OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的技术动态 | 跨句多元关系抽取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: CCKS 2019 | 百度 CTO 王
- 下一篇: 开源开放 | 移动应用知识图谱MAKG(