简述机器指令与微指令之间的关系_技术动态 | 跨句多元关系抽取
第一部分 概述
關系抽取簡介
關系抽取是從自由文本中獲取實體間所具有的語義關系。這種語義關系常以三元組 <E1,R,E2> 的形式表達,其中,E1?和E2?表示實體,R?表示實體間所具有的語義關系。如圖1所示。關系抽取既是文本處理任務的基礎,又是構建知識圖譜的核心任務。抽取實例不僅能提升文本分析的層面,還可為諸如問答系統、聊天機器人及語義搜索等下游任務提供背景知識。
圖1 關系抽取案例
關系抽取中的難點問題
1.同一關系可由不同的詞語表達。
2.同一短語或詞具有歧義性,不能很好的表征同一關系。
3.實體對間可能具有多種關系。
4.跨句多元關系不能很好解決。
5.隱含關系不能很好解決。
6.對nlp處理工具依賴較大。
關系抽取方法分類
關系抽取方法的概括圖如圖2所示,簡述其中部分方法。
圖2 關系抽取方法概括圖
特定領域關系抽取是指從特定領域的語料中抽取實體間所具有的語義關系,這種語義關系通常是預定義的。基于模式的關系抽取方法通過人工設計或從文本中學到的語言模式與文本進行匹配,以抽取關系實例。該類方法需要依靠nlp處理工具包,如,首先通過分句對文本進行句子分割,然后利用pos對詞語進行詞性標注、ner識別句子中實體,最后構建基于字符、語法和語義的關系抽取模式。該方法的抽取精度高但泛化能力弱,適用于結構性的文本?;跈C器學習的關系抽取方法克服了上述方法的弊端。依據標注數據,可分為監督的關系抽取、弱監督關系抽取及無監督關系抽取。有監督的關系抽取旨在從大規模標注語料中獲取表達實體間語義關系的有效特征。主要方法有基于特征工程的關系抽取方法、基于核函數的方法及深度模型的方法。基于特征工程的關系抽取方法通過nlp工具包對語料執行分句、詞性標注、依存分析等操作以獲取有效特征。基于核函數的關系抽取方法通過構建結構樹,計算關系距離以抽取關系實例,該方法緩解了特性稀疏性問題。雖然上述方法在關系抽取上取得了不錯的性能,但擴展性較差。基于深度模型的方法克服了模型擴展性的問題,通過從標注語料中自動構建特征,并抽取關系實例。近年來,對該方法的研究層出不迭,該方法常規過程是通過詞向量技術對詞、字、位置進行向量化表示,或通過pre-trained embedding初始化向量表示。拼接向量以構成句子的表示。通過深度模型抽取詞匯級別特征和句子級別特征,最終依據任務類型選用相應的輸出函數以獲取預測結果。遷移學習的思想是從相關領域遷移標注數據或知識已完成特定領域的任務。
遠程監督簡介
遠程監督的基本假設:如果實體對間存在關系,則任何含有該實體對的句子都表達了該實體對間的關系。遠程監督的假設過于絕對,會引入大量噪聲。針對引入噪聲這一問題,現有方法主要有:
利用先驗知識約束數據集的構建;
利用關系圖模型對樣本打分,過濾信任分數較低的句子;
利用多實例對句子集打標簽;
利用注意力機制對句子賦權;
遠程監督雖能緩解數據標注問題,但對知識庫的質量和覆蓋率要求較大。
第二部分 論文介紹
介紹幾篇論文,主要解決跨句多元關系抽取這一問題。首先舉例說明什么是跨句多元關系。
“The deletionmutation on exon-19 of EGFR gene was present in 16 patients, while the L858E point mutation on exon-21was noted in 10. All patients were treated with gefitinib and showed a partial response.”.
上面的兩個句子表達了這樣一個事實,即三個實體之間存在著一個關系三元組,但這在任一單獨的句子中都沒有體現。此類現象在中文語料中也是屢見不鮮。
《DistantSupervision for Relation Extraction beyond the Sentence Boundary》- EACL 2017
該文章首次利用遠程監督實現跨句關系抽取。文章的方法核心是一種圖表示,它可以將依存關系和語篇關系結合,從而提供了一種統一的方法來模擬句子內部和句子之間的關系。在面對語言變異和分析錯誤時,該方法從多條路徑中提取特征,提高了特征提取的準確性和魯棒性。通過遠程監督,該方法從大約100萬篇PubMed Central 全文中抽取了大約64000個不同的實例,與原來的kb相比,達到了兩個數量級的增長。
該文章既是開創性文章,無法與其他方法對比,又是一篇工程性文章。因此,作者闡述了工程中的主要難點及所抽取的結果。詳細如下:
Distant Supervision:從知識庫中選擇具有明確關系的實體對作為正樣本。并隨機從知識庫中選擇不具有明確關系的實體對作為負樣本。使正樣本的數量與負樣本的數量相同以保證訓練集平衡。
Minimal-SpanCandidates:在跨句三元組抽取中,直接將具有明確關系的實體對劃分到正訓練樣本中會產生很多噪聲。針對這一問題,作者定義了共現實體對間最小跨距。作者通過實驗證明,這種方式可提高抽取的準確率。
DocumentGraph:引入了一個document graph,其節點表示詞,邊表示依存關系、鄰接關系和語篇關系等句內和句間關系。每個節點都用詞本身、論點和詞性標記。句間的邊由斯坦福句法解析器賦予類別。同時,為了降低解析誤差,通過在鄰詞間加邊及多路徑融合的方式緩解。
Features:通過在document graph中的路徑上定義特征模板來泛化關系抽取的特征,這些特征模板包含各種類型的交錯邊(依賴關系、詞和句子鄰接、語篇關系)。
Multiplepaths:大多數以前的工作只研究了兩個實體之間的單一最短路徑。當作者使用詞法和句法結構時,且解析器正確解析時,這種方法工作得很好。然而,真實的數據是相當嘈雜的。于是,作者采用多條可能路徑解決誤差并保持噪聲的魯棒性。
《Cross-Sentence N-ary Relation Extraction with Graph LSTMs》-ACL2017
本文針對跨句n元關系抽取這一問題,提出了一種graph long short-term memory networks(graph LSTMs)的框架。圖提供了一種探索不同形式LSTM的方法,并可集成句間和句內的各種依賴關系,如序列、句法和語篇關系。它可為實體學習了一個魯棒的上下文表示,作為關系分類器的輸入。它簡化了對任意關系的處理,并使與關系相關的多任務學習成為可能.通過在兩個重要的精確醫學數據集上對該框架進行了評價,證明了該框架在傳統監督學習和遠程監督下的有效性。跨句抽取產生了更大的知識庫。多任務學習顯著提高了抽取精度。通過對各種LSTM方法的深入分析,可以發現語言分析對提取精度的影響。
跨句n元關系抽取架構如下圖所示。輸入層是輸入文本的word embedding。Graph LSTM學習每個單詞的上下文表示。將文中所提及及的實體與它們的上下文表示連接起來,并成為關系分類器的輸入。對于多詞實體,利用其詞向量的平均值表示。該框架采用反向傳播進行訓練。文中并未提及分類器的選擇。
Graph LSTM的核心是一個document graph,它捕捉輸入單詞之間的各種依賴關系。通過選擇document graph中包含的依存項,Graph LSTMs很自然地過渡到線性鏈或tree lstms。接下來,簡要介紹document graph和如何利用Graph LSTM執行多任務學習。
documentgraph是由表示詞的節點和表示各種依存的邊組成,如下圖所示。如果它只包含鄰詞的邊,則變成線性鏈表。類似地,其他以前的LSTM方法也可以通過約束邊在最短依賴路徑或解析樹中來獲取。
多任務學習可直接由Graph LSTM實現,唯一需要改變是為每個相關的輔助關系添加一個單獨的分類器。所有的分類器共享相同的Graph LSTM表示的學習器和詞嵌入,并可相互監督。
論文在數據集上評測結果如下:
《N-ary Relation Extraction using Graph State LSTM》-emnlp2018
?? 跨句n元關系抽取是檢測句間的n個實體之間的關系。典型的方法將輸入描述為document graph,集成了句內和句間的不同依賴關系.目前最先進的方法是將輸入圖分成兩個DAGs,每個都是DAG-structured lstm。盡管能夠利用圖的邊對豐富的語言知識進行建模,但在拆分過程中可能會丟失重要的信息。本文提出了graph-state LSTM模型,它使用一個并行狀態對每個字進行建模,通過消息傳遞遞歸地更新狀態值。與DAGlstms相比,graph-state LSTM保留了原有的圖結構,并允許更多的并行化,從而加快了計算速度。在一個標準benchmark,該模型取得了最佳效果。
?? 任務定義
?? 跨句多元關系抽取的輸入可表示為,其中,表示實體指稱集,表示由多個句子組成的文本。每一個實體指稱,屬于中的一個句子。預定義關系集,其中None表示實體間沒有關系。該任務既可表述為確定是否共同構成關系的二分類問題,也可表述成用于檢測實體對屬于哪一種關系的多分類問題。
?? Graph State LSTM
?? 給定輸入圖G=(V,E),為每一個詞定義一個狀態向量。圖的狀態是由所有詞狀態組成,可表示成:
為了捕獲非局部信息,模型通過一個遞歸的狀態轉換過程在單詞之間執行信息交換,從而得到一系列的圖狀態.初始圖態由初始詞態組成.其中,是一個零向量。該模型利用循環神經網絡對狀態轉移過程建模。特別是到的轉移過程。在每個步驟t,都允許詞和直接連接到這個詞的所有詞之間進行信息交換。為避免梯度消失或爆炸,采用gate lstm單元,其中,記錄的存儲。模型利用輸入門、輸出門和遺忘門來控制輸入到的信息流。的輸入通過輸入方與輸出方來區分,分別表示的輸入邊集合和輸出邊集合。除了邊緣輸入,cell還在狀態轉換期間接收其輸入和輸出詞的隱藏狀態。特別是,對所有輸入詞和輸出詞的狀態分別進行了累加。
因此,到的循環狀態轉移可由表示。其中,,,分別是輸入、輸出和遺忘門。是模型參數。在醫療領域數據集上實驗結果如下:肖仰華教授主編的知識圖譜教材《知識圖譜:概念與技術》即將出版,敬請關注。為您全面解析知識圖譜的概念與技術。
了解更多信息請點擊知識工場網站主頁:http://kw.fudan.edu.cn/
合作意向、反饋建議請聯系我們:
info.knowledgeworks@gmail.com
總結
以上是生活随笔為你收集整理的简述机器指令与微指令之间的关系_技术动态 | 跨句多元关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .net每隔几秒去请求接口 怎么做_C#
- 下一篇: 充一次电使用一年的手机_电动自行车使用充