论文浅尝 | Learning with Noise: Supervised Relation Extraction
Luo B, Feng Y, Wang Z, et al. Learning withNoise: Enhance Distantly Supervised Relation Extraction with Dynamic TransitionMatrix[C]// Meeting of the Association for Computational Linguistics.2017:430-439.
鏈接:http://www.aclweb.org/anthology/P/P17/P17-1040.pdf
1. 動機
Distant supervision 是一種生成關系抽取訓練集的常用方法。它把現有知識庫中的三元組 <e1,r, e2> 作為種子,匹配同時含有 e1 和 e2 的文本,得到的文本用作關系 r 的標注數據。這樣可以省去大量人工標記的工作。
但是這種匹配方式會產生很多噪音:比如三元組 <DonaldTrump, born-in, New York>,可能對齊到『Donald Trump was born in New York』,也可能對齊到『DonaldTrump worked in New York』。其中前一句是我們想要的標注數據,后一句則是噪音數據(并不表示born-in)。如何去除這些噪音數據,是一個重要的研究課題。
2. 前人工作
1、通過定義規則過濾掉一些噪音數據,缺點是依賴人工定義,并且被關系種類所限制。
2、Multi-instancelearning,把訓練語句分包學習,包內取平均值,或者用 attention 加權,可以中和掉包內的噪音數據。缺點是受限于 at-least-one-assumption:每個包內至少有一個正確的數據。
?
可以看出前人主要思路是『去噪』,即降低噪聲數據的印象。這篇文章提出用一個噪音矩陣來擬合噪音的分布,即給噪音建模,從而達到擬合真實分布的目的。
3. 模型
1、2是普通的關系抽取模型過程,3、4是噪音擬合的過程。
transition matrix 是一個轉移矩陣,大小為n * n,n是關系種類的數目。T_ij 的元素的值是 p( j| i ),即該句子代表關系為 i,但被誤判為j的概率。
這樣我們就可以得到:
????????? ???????????? × ????????? ??????=???????? ????????????
其中,predicted 是我們想要的真實分布,observed 是我們觀測到的噪音分布,這樣就可以用噪音數據進行聯合訓練了。
3.1 全局轉移矩陣& 動態轉移矩陣
Global transition matrix 在關系層面上定義一個特定的轉移矩陣,比如
屬于 A 關系的句子,被誤判為 B 關系的概率是恒定的。
Dynamic transition matrix 是在句子層面上定義的,即使同屬于 A 關系,a1 句子和 b1 句子被誤判成 B 關系的概率也不同。比如下面兩句話,帶有 old house 的被誤判成 born-in 的概率更大。
動態轉移矩陣更有優勢,粒度更細。
3.2. 訓練方法
如果單純用 observed 的 loss,會出現問題,因為在初始化的時候,我們并不能保證p一定擬合真實分布,轉移矩陣也沒有任何先驗信息,容易收斂到局部最優。
因此,文中用 curriculum learning進行訓練:
trace 是轉移矩陣的跡,用于控制訓練過程中噪音的作用,是矩陣的正則項。在沒有噪音的情況下,矩陣是一個單位矩陣,跡最大,此時矩陣沒有效果。跡越小,矩陣施加的效果越明顯。
curriculum learning 的步驟:
初始階段,alpha 為 1,beta 取一個很大的值,只學習 p 分布,讓 p 獲得關系判定的能力;
后續階段,逐漸減小 alpha 和 beta,強化矩陣的作用,學習噪音分布 o,最后獲得真實的 p 分布和噪音 o 分布。
這樣通過調控過程,就可以避免學習出無意義的局部最優值了。
3.3.先驗知識
可以給矩陣增加一些先驗知識,比如在 timeRE 的數據集上,根據時間粒度,對數據集進行可信度劃分,先訓練可信數據,再訓練噪音數據,這樣可以優化最終的訓練結果。
4. 實驗結果
作者在 timeRE 和 entityRE(NYT) 上均進行了訓練,取得了降噪的 state-of-art。具體分析結果可以參照論文。
筆記整理:王冠穎,浙江大學碩士,研究方向為知識圖譜,關系抽取。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Learning with Noise: Supervised Relation Extraction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习】LDA线性判别分析
- 下一篇: 关于PaddleNLP如何加载训练好的模