论文浅尝 | 多内容实体和关系联合抽取的对抗训练
鏈接:https://arxiv.org/pdf/1808.06876.pdf
動機
Szegedy 在 14 年發現,對于圖像分類問題的神經網絡,若是在輸入中人為的添加很小尺度的擾動,會讓已經訓練好的神經網絡做出錯誤的判斷,并且可能以很高的置信度輸出。很多人將這個性質的原因歸結為深層神經網絡的?度?線性以及過擬合。Goodfellow則給出了不同的看法。他認為即使是線性模型,也有這種現象。在高維空間中,即使是很小的擾動,也會對最終的輸出值產生很大的影響。?對于神經?絡?言,很多神經網絡為了節省計算上的代價,都被設計成了線性的形式,這使得他們更容易優化,但是這樣"廉價"的?絡也導致了對于對抗擾動的脆弱性。除了生成對抗樣本來攻擊神經?絡以外,對抗訓練神經網絡從?有效防?對抗樣本的攻擊也是?一個值得考慮的問題。之后大家開始嘗試將對抗訓練(AT)用于 NLP 領域,如文本分類問題。本文嘗試將AT加入到實體識別和關系抽取的聯合模型中,觀察AT對聯合模型的效果。
亮點
文章的亮點主要包括:
(1)提出了命名實體識別和關系抽取的聯合模型,可以同時識別實體和實體間的關系,并且對于實體間存在的多關系也可以一次性提取出來;
(2)在訓練過程中添加了對抗訓練(AT),提升聯合模型的魯棒性和范性。
相關工作
一.實體和關系抽取的聯合模型:
最初的聯合模型是基于人工提取的特征,用于同時執行命名實體識別和關系提取子任務。這些方法依賴于NLP工具(例如POS標記器)的可用性,或者手工設計的特性,會導致額外的復雜性。之后神經網絡的方法用來克服這一特征設計問題,通常涉及到RNNs和CNNs。特別是,Miwa和Bansal以及Li等人將雙向樹狀結構的RNNs應用于不同的上下文以捕獲語法信息(使用外部依賴分析器)。Gupta等人則使用各種手工提取的特性應用到RNNs中。Adel提出了解決簡單問題的實體分類(EC,假設給出實體邊界),與NER不同的是,他們復制實體周圍的環境,將實體對喂給關系提取層。Katiyar和Cardie在研究帶 attention 的RNNs時,沒有考慮到關系標簽并不是相互排斥的。最后,Bekoulis等人在聯合模型中使用LSTMs一次只提取一個關系,但增加了NER部分的復雜性。
我們的基準模型支持從相同的輸入同時提取多組關系。然后,我們使用對抗式訓練進一步擴展了這個強大的基線。
?
二.對抗性訓練(AT):
對抗訓練(AT)是通過對訓練數據產?生對抗噪聲來規范分類算法的?一種?手段。它?鼓勵神經?絡對未經修改的例?子和擾動的例子進?正確的分類來實現深層模型,這實際上不僅增強了神經?絡的魯棒性,?且提高了它的普遍性。Szegedy的?章表明將對抗樣本和普通樣本一起訓練模型訓練,可使模型稍微正則化。訓練對抗樣本和平常的訓練樣本數增加不一樣:通常我們通過對數據進?變形來增加數據,這樣變形后的數據是可能出現在測試集?的。?對抗樣本這種數據通常不可能?然地出現在測試集中,但是它們可以揭露出模型的缺陷。
在NLP環境中,針對不同的任務,如文本分類、關系提取和詞性標注,AT有幾種不同的變體。AT被認為是一種正則化方法。與其他引入隨機噪聲的正則化方法(dropout,word - dropout)不同,AT產生的擾動是模型容易誤分類的樣本的變體。
模型
文中設計的聯合抽取模型如下:
基本模型從下往上依次為:
(1)輸入層:輸入是一個句子的序列 tokens。我們使用character embeddings來隱式捕獲形態學特征(例如,前綴和后綴),通過一個vector(embedding)表示每個字符,將character embeddings 嵌入到BiLSTM中,以獲得單詞的基于字符的表示。另外也使用預訓練過的word embeddings。
(2)BiLSTM層:word 和character embeddings 連接起來形成最終的token 表示,然后將其輸入到BiLSTM層以提取順序信息。
(3)實體識別層:對于NER任務,我們采用BIO (Beginning,Inside, Outside) 編碼方案。對于實體標記的預測,我們使用:(i) softmax方法進行實體分類(EC)任務(假設給定的實體邊界),或 (ii) CRF方法,這樣我們同時識別每個實體的類型和邊界。在解碼過程中,在softmax設置中,我們貪婪地檢測token的實體類型。雖然獨立的類型分布對于EC任務來說是合理的,但是當相鄰標簽之間有很強的相關性時就不是這樣了。例如,BIO編碼方案在NER任務中強加了幾個約束(例如,B-PER和I-LOC標記不能連續)。基于這種直覺,我們使用線性鏈CRF來完成NER任務。在CRF設置中,對于解碼,我們使用Viterbi算法。在訓練過程中,對于EC (softmax)和NER任務(CRF),我們將交叉熵損失L(NER)最小化。
(4)關系抽取層:實體標簽作為label embeddings輸入到關系提取層,與Bi提取的句子表示一起做關系抽取。其中假設實體類型的知識有助于預測相關實體之間的關系。
以上為完整的基本模型。若是在該聯合模型的輸入層中,針對embedding人為的添加小尺度的擾動η,就可以進行對抗訓練(AT)。具體的η計算過程如下。
對于聯合模型來說,有實體識別和關系抽取的聯合損失函數 Ljoint:
接下來生成一個對抗的輸入樣本,通過添加最壞擾動ηadv加入到輸入的embedding中,來最大化損失函數:
對于ηadv直接在神經網絡中求解是比較繁瑣復雜,所以一般取其近似值為:
其中ε為定義的超參數,和輸入層的 word embedding 的維度相關。如 word embedding 為100時,ε 可以近似取值為 0.01。g 為聯合損失函數在 w 方向的梯度,也正是為了說明添加的擾動對于神經網絡來說是最壞的情況。
之后訓練的輸入為原始和對抗樣本的混合,所以最終求得的損失函數為:
實驗
我們使用 github 代碼基中的代碼,在四個數據集中評估模型。特別地,我們遵循 Miwa 和 Bansal 為 ACE04 數據集定義的 5 倍交叉驗證。對于CoNLL04EC任務(假設給定邊界),我們使用與 Gupta 等人相同的分割。我們還使用10倍交叉驗證對NER任務的模型進行評估,類似于Miwa和Sasaki在同一數據集中使用的模型。對于荷蘭房地產分類信息DRECdataset,我們使用了Bekoulis等人的訓練測試分割。對于不良藥物事件ADE,我們進行了10倍的交叉驗證,類似于Li等人。為了獲得不受輸入嵌入影響的類似結果,我們使用了之前作品的嵌入。我們在所有的實驗中都采用了早停的方法。我們使用Adam優化器并修復超參數驗證集。選擇縮放參數α的范圍為{ 5 e?2,1e?2、1 e?3、1 e?4 }。更大的α值在我們早期的實驗導致一致的性能降低。這可以從一個事實來解釋,添加更多的噪音可以改變句子的內容,改變的詞向量的語義。
我們使用三種類型的評估,即:(1)S(trict):如果實體邊界和實體類型都是正確的,則我們將實體得分為正確(ACE04,ADE, CoNLL04, DREC);(2)B(oundaries):如果只有實體邊界是正確的,而不考慮實體類型,則我們將實體得分為正確(DREC);(3)R(elaxed):如果將至少一種正確的類型分配給組成該實體的tokens(假設邊界已知),則認為multi-token實體分類是正確的。在所有情況下,當關系類型和參數實體都正確時,關系被認為是正確的。實驗結果表明我們的聯合模型取得了當前最好的效果。
另外當有AT加入到輸入層時,可以讓訓練更快速度的達到收斂。
總結????????????????????????
本文執行一個大規模的實驗研究在這個聯合模型任務上,使用了不同的語境和語言的數據集。建立了一個強大的基線,它的性能優于所有以前的模型;而且模型依賴于自動提取的特性,實現了最先進的性能。另外與基線模型相比,在訓練過程中應用AT可以讓聯合抽取的效果持續增加。
?
論文筆記整理:余海陽,浙江大學碩士,研究方向為知識圖譜、自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 多内容实体和关系联合抽取的对抗训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - SIAM ICDM 202
- 下一篇: 如何选择一家公司