【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取
下面介紹下如何利用遠程監督多實例進行關系抽取。前文有提到到當利用文本進行關系抽取,基本思想是利用知識圖譜中,如(下圖)任意兩個實體同時在句子中出現:
我們把句子當成是兩個實體關系訓練得樣例,這樣就可以訓練出一個關于關系分類的模型。這被稱為Distant Supervision遠程監督,之所以叫做遠程監督是因為標注數據通過知識庫自動標注出來的,并沒有經過人工干預。這種自動方式可以非常快的能構建出非常大的關系分類的訓練數據,但它的問題是同時出現兩個實體的這些句子,并不見得都能夠很好的反映兩個實體在知識庫中是什么關系。
比如bill gates和microsoft在知識庫中是founder的關系(上圖例),但是 第1個句子和第3個句子的確是反映了founder的關系,但是第2個句子bill gates announced to retire from microsoft,他就沒有很好的反映founder的關系。
有個解決思路,就是說像融合文本中描述信息一樣,給不同的句子不同的權重,也就是每一個句子也去學CNN,得到他的表示,但是這個表示并不是直接進行關系的預測,或者是說沒有構建這種關系向量,而是先根據關系的向量,給句子的表示不同的權重,權重計算方式(上圖右側)是計算關系表示跟文本表示之間的映射關系。
那么通過給不同句子不同的權重稱之為sentence-level attention,這樣就可以有效解決遠程監督中自動標注多個句子的噪音問題。
如果利用cnn,有效的利用sentence-level attention,加att的方法的預測效果其實遠遠好于沒有考慮任何的多實例問題的cnn方法。
在2015年中科院自動化所趙軍老師,劉看老師組發表論文《Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks》(分段卷積神經網絡用于關系提取的遠程監控)
論文中做了一個cnn改進模型,就是根據這兩個實體,把句子劃分成三個不同部分,每一個部分單獨訓練cnn,論文中叫這種cnn為piecewise conncolutional neural networks(pcnn)。清華大學團隊在pcnn模型上嘗試sentence-level attention的效果,可以看到(上圖中)黑色的線遠高于pcnn的效果,那么這其實也說明了考慮sentence-level attention的重要意義。
清華大學團隊也比較了一些傳統方法(非deep learning的方法),直接從句子中抽取離散符號表示的特征,你可以看到基于CNN,基于PCNN的 attention效果要遠好于feature base的方法,其實也說明現在一定要用deep learning的手段才能夠取得關于文本關系抽取最好的效果。
我們也可以看到通過一些(attention)例子,如relation employer of ,誰是誰的雇主, 我們利用sentence-level attention可以找到更好反映實體之間雇主關系的一些句子,那么給予比較低attention的一些句子,在一定程度上不能夠更好的反映employer of的關系。類似的place of birth出生地點,在上表中最下面一行是attention很高的句子(Ernst haefliger was born in davos on july 6,1919,and studied at the wettinger seminary…) ,上表中倒數第二行是attention很低的句子(Ernst haefliger ,a swiss tenor who…… roles, died on Saturday in davos,switzerland ,where he maintained a second home).通過上面的例子中能夠看出這種sentence-level attention有比較好的效果。
清華大學團隊開源的研究成果
KB2E:TransE TransH TransR和PTransE:
開源代碼: http://www.github.com/thunlp/KB2E它是一個工具包,里面包含了幾乎所有模型有TransE, TransH,TransR和PTransEFast-TransE:
開源代碼 :https://github.com/thunlp/Fast-TransX清華團隊為了能夠更好的去在大規模大規模的知識圖譜上進行表示學 習。開發了一個加速的版本Fast-TransE,目前能夠實現比kb2e里 面的 TransE 訓練速度提升40倍,就是說原來一個數據需要訓練兩 三個小時的時間,現在只需要4分鐘就可以完成Nre:CNN, PCNN, x+ATT:
開源代碼: http://github.com/thunlp/NREnre是基于文本遠程監督關系抽取的方法,它包括CNN, PCNN, x+ATT等方法。清華團隊發表的相關論文:
《Neural Relation Extraction with Selective Attention over Instances》
該論文針對遠程監督關系抽取方法中的錯誤標注問題,提出了在句子層級采用選擇性關注機制的模型。與現有神經網絡模型相比,該模型不僅可以綜合利用所有文本數據,而且可以降低錯誤標注數據的影響,抽取準確率取得顯著提高。
《Relation Classification via Multi-Level Attention CNNs》
該論文針對關系分類問題提出了多關注機制的卷積神經網絡,顯著提升了關系分類效果。
《Knowledge Representation Learning with Entities, Attributes and Relations》
論文是面向知識圖譜的表示學習任務,提出利用實體、屬性、關系三個元素來進行表示學習。它提出對屬性和關系加以區分,并在表示學習的過程中區別對待,本文首先提出屬性與關系的區別,本文敘述:屬性的值一般是抽象的概念,如性別與職業等;而且通過統計發現,屬性往往是多對一的,而且對于特定的屬性,其取值大多來源于一個小集合,如性別。對關系與屬性采用不同的約束方式進行獨立表示學習,同時提出屬性之間的更強的約束關系。論文想法新穎,很值得借鑒。
《Representation learning of knowledge graphs with hierarchical types》
論文是面向知識圖譜的表示學習任務,提出融入實體類型信息輔助知識圖譜的表示學習。目前的大多數方法專注于利用知識圖譜中三元組結構的表示學習,而忽略了融入實體類型的信息。對于實體而言,對于不同的類型含義應該具有不同的表示。論文中中從Freebase中獲取實體的類型信息,并將其層次化表示,并設計了兩種編碼方式,對于不同的關系通過參數調整獲得對應的實體表示。
《RepresentationLearning of Knowledge Graphs with Entity Descriptions.》
論文提出融合知識圖譜三元組和實體描述文本的知識表示學習模型,實驗證明,該模型能根據描述為新實體自動構建向量表示,顯著提升實體預測、關系預測和實體分類的性能。
《Modeling Relation Paths for Representation Learning of Knowledge Bases》
論文提出了一種基于路徑的知識圖譜表示模型,將實體之間的路徑表示為一種平移關系。論文其主要貢獻為提出了用于計算不同路徑的權重的基于路徑限制的資源分配算法和三種不同的路徑表示模型,并在知識圖譜完善和文本關系抽取中驗證了模型的有效性。
《Learning entity and relation embeddings for knowledge graph completion》
針對知識圖譜的表示學習模型TransR,將實體映射到不同關系空間中構建優化目標,并通過聚類對關系進行細分,能夠有效改善1-N、N-1類型關系的表示,在鏈接預測和文本關系抽取等任務均取得了顯著的提升。
總結
以上是生活随笔為你收集整理的【转】自然语言系列学习之表示学习与知识获取(八)利用远程监督多实例的关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 移牙齿要多少钱
- 下一篇: 怎么让单眼皮变双眼皮