visual paradigm 表示选择关系_知识获取的新挑战—远程监督关系抽取
本文主要介紹遠程監督關系抽取任務上兩個最新的工作。遠程監督(Distantly Supervised)是關系抽取(Relation Extraction)的一種主要實現方法。關系抽取是指獲得文本中的三元組(triple),包括實體對和它們之間的關系,在自然語言理解中扮演著一個至關重要的角色。一般的方法采用完全監督的模式、需要大量的人工標注,這些是高成本且費時的。為了緩解這樣的情況,研究人員企圖構建遠程監督關系提取器,將已有的知識庫(比如 freebase)對應到非結構化的文本數據中,生成大量的訓練數據來提高模型的訓練效果。盡管遠程監督節省了成本與時間,但是句子級的RE其包含大量噪聲的問題亟需解決。
Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction
論文地址:
https://www.aclweb.org/anthology/P19-1134
論文動機
遠程監督關系提取廣泛用于從文本中提取關系事實,但存在標簽噪聲問題。目前的關系提取方法主要是通過多實例學習和提供語言和上下文信息的支持,以更有效地指導關系分類。在獲得最先進的結果時,作者觀察到這些模型偏向于識別有限的高精度關系,而忽略了長尾關系。本文的擴展點在于通用結構引入額外的背景知識或者進行深度語言模型表示處理。
論文貢獻
- 論文使用改進的GPT模型來處理袋級、多實例的遠程監督數據集,通過融合語句級信息和選擇性注意機制得到袋級預測。除了從詞法句法的角度解決問題外,也更注重大量的常識知識。
- 作者在NYT10數據集上評估所提出的微調語言模型,與RESIDE模型和PCNN+ATT模型相比,該模型實現了最先進的AUC。
- 作者對預測結果進行了人工分析,結果表明該模型預測得到更多樣化的關系,并且表現出更高的召回率。
模型
1. contextualized representations 語言模型學習方法
無監督預訓練語言表示模型采用最大似然估計作為損失函數,Transformer模型目標函數:
整個優化過程采用隨機梯度下降,該結果是對于每一個詞的概率分布用于下游任務的輸入序列。
2. Transformer多示例學習
這部分介紹了我們對原始transformer體系結構的擴展,支持遠程監督數據集上的袋級多實例學習。文章假設一個標記的數據可以表示為
選擇注意力可以學習那些帶有明顯特征表示某個關系的句子同時不重視那些包含噪音的句子,權重計算公式如下:
最終優化目標如下:
由于引入語言模型在微調過程中有助于改善泛化能力實現快速收斂,故:
模型表現
文章在結果上強調P-R曲線的balance問題,即整體表現良好(AUC面積最好),這可能具備很高的應用價值,而baselines方法都體現出在高召回率下drop early現象。
Cross-relationCross-bag Attention for Distantly-supervised Relation Extraction
論文地址:
https://arxiv.org/abs/1812.10604
論文動機
盡管遠程監督節省了成本與時間,但是遠程監督方法是上下文無關的,對于句子級的RE包含大量噪聲。因此,生成的訓練數據通常包含大量噪音,可能導致在常規的監督學習中表現不佳。選擇性注意力機制企圖為句子分配注意力權重之后結合包內所有句子用于訓練。然而,句子級選擇性注意力(ATT)獨立生成每種關系類型的權重而忽略了關系類型間的關聯。
論文貢獻
- 文章提出Cross-relation Attention,在考察所有關系類型之間的相互影響后產生注意力權重,并考慮了一個訓練實例包含多個實體對的特殊情況。
- 本文提出Cross-bag Attention結合不同的句子包,將這種組合結構稱為superbag,并將其作為訓練示例代替句子包,這使得模型更加關注高質量的句子包,減少知識庫中過時或未表示的信息帶來的噪聲。
- 文章采用句子級選擇注意力機制減少噪聲以及不匹配句子的影響,同時利用關系間的相關性來提高注意權重的質量。此外,不同于之前將所有實體對看作是等價的,文章采用注意力機制關注更高質量的關系對。
模型
本文模型(C2SA)的提出通過考慮關系間的相關性提高句子級注意力的效果,并在另一個注意力層級篩選包級別特征。多示例學習方法有助于減少噪聲增強模型魯棒性,多示例學習把句子包視為基礎的訓練示例,每個包中的一組句子被標記為相同的知識庫事實。通過包內選擇,模型可以更加關注高質量的句子減少對噪音句子關注。
如圖1所示,關系抽取器包含兩個組件:一個神經網絡特征抽取器和一個輸出層。模型訓練過程整個分為四個步驟:首先為每個句子構建表示。之后,cross-relation選擇性注意結合句子表征并生成句子包的表征。相似地,cross-bag選擇注意力結合句子包表示生成超級包表示。最終loss基于superbag特征指導關系抽取器學習。
1. 神經網絡特征抽取器
對于神經網絡特征抽取器,它可以抽取有用的特征進行關系分類,并可以使用任何的神經網絡結構包括CNN與RNN。文章采用piecewise-CNN,由卷積層和分段最大池化層。卷積層,輸出結果c計算方法如下:
2. 輸出層
基于抽取特征,輸出層對關系類型做出預測。為計算每個關系的置信度,本文采用線性投影與softmax函數計算條件概率,采用droput策略防止過擬合。
3. Cross-relation Cross-bag Selective Attention
Cross-relation Selective Attention其目的旨在減少噪聲或錯誤匹配句子的影響,計算選擇注意力基于句子與關系間的相似性:
為了捕獲關系之間的相關性,文中使用bayes規則計算期望注意權重:
Cross-relation Selective Attention不僅僅依賴于目標關系句子的相似性,也依賴于其他關系。該機制假設在包中至少一句話表達實體對的某種關系,遠程監督在句子包級別存在噪音,可能大量關系對不能發現知識庫中給定的表達,這種實體對會導致句子級關系抽取存在不匹配或噪聲訓練示例。針對上述問題,本文結合幾個包含相同關系類型的句子包,將注意力集中到更高質量的部分,采用attention layer結合包,公式如下:
最終模型目標函數訓練采用負對數似然實現,Cross-bag Selective Attention機制如下圖,
模型表現
使用NYT10作為訓練集,53個分類,數據集包含522611個句子,281270實體對和18252知識庫事實。
實驗結果反映了兩個重要信息:(1)本文提出的cross-relation與cross-bag對模型效果的提升都有效;(2)余弦相似度代替點乘作為評分函數的一部分是非常有效的。
總結
以上是生活随笔為你收集整理的visual paradigm 表示选择关系_知识获取的新挑战—远程监督关系抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux的实际操作:文件目录类的实用指
- 下一篇: jenkins 集成java搅拌_如何将