PCNN
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
1. 關(guān)鍵字
關(guān)系抽取,遠(yuǎn)程監(jiān)督
2. 摘要
本文提出了PCNNs,用來解決遠(yuǎn)程監(jiān)督關(guān)系抽取中的兩個問題:一個是在對齊知識圖譜時的錯誤標(biāo)注問題,一個是使用NLP工具提取特征時的錯誤傳播問題。對于前者,方法是將對齊問題轉(zhuǎn)化為多實例學(xué)習(xí)問題,從而將實例標(biāo)簽的不確定性納入了考慮范圍;對于后者,采用成對的最大池化層來自動學(xué)習(xí)相關(guān)的特征。
3. 問題
錯誤標(biāo)注問題
用遠(yuǎn)程監(jiān)督的方法來做關(guān)系抽取,需要一個知識圖譜來啟發(fā)式地對齊文本,如果對齊失敗,就會出現(xiàn)錯誤標(biāo)注的問題。
在關(guān)系抽取領(lǐng)域,由于監(jiān)督方法將關(guān)系抽取看作一個多分類問題,所以有一個難點就是如何在已知關(guān)系的前提下生成訓(xùn)練樣本。Mintz等人提出一個假設(shè),如果在知識圖譜中兩個實體存在某種特定關(guān)系,那么所有包含這兩個實體的句子都表達(dá)出了這種關(guān)系。這個假設(shè)有效地為任一關(guān)系生成了大量訓(xùn)練樣本。但是,很明顯,這個假設(shè)是有問題的,如果句子中存在“喬布斯”和“蘋果”這兩個實體,該句子既可能表達(dá)出“創(chuàng)始人”這一關(guān)系,還可以表達(dá)出“離開”這一關(guān)系。這就是錯誤標(biāo)注問題。
錯誤傳播問題
從監(jiān)督數(shù)據(jù)中抽取特征用的都是NLP工具,工具本身不可避免的錯誤會導(dǎo)致錯誤傳播和累積。一般情況下,關(guān)系抽取的語料都是來自于網(wǎng)絡(luò),句子長度也都超過40,McDonald證明,句法分析的準(zhǔn)確率會隨著句子加長而顯著降低。所以,錯誤傳播不僅存在,而且會變得嚴(yán)重。
4. 方法論
為了解決錯誤標(biāo)注問題,Riedil等人針對多實例學(xué)習(xí)提出了一個松弛的遠(yuǎn)程監(jiān)督假設(shè)。在多實例學(xué)習(xí)中,訓(xùn)練集由一些包(bag)組成,并且每個包中又包含了一些實例(instance)。這些包的標(biāo)簽是已知的,但是包中實例的標(biāo)簽是未知的。多實例學(xué)習(xí)將實例標(biāo)簽的不確定性納入了考慮范圍,從而聚焦于對包的區(qū)分。
為了解決錯誤傳播問題,本文擴展了Zeng等人的方法,由于單個最大池化層將急劇減少隱藏層的尺寸,所以用來捕獲細(xì)粒度特征過于粗糙,并且也不足以捕獲到兩個實體之間的結(jié)構(gòu)化信息,本文在單個最大池化層的基礎(chǔ)上提出成對最大池化層。
5. 模型結(jié)構(gòu)
向量表示
詞向量通過look up預(yù)訓(xùn)練詞向量得到,同時,使用了位置特征來指定實體對,該特征同樣被轉(zhuǎn)化為向量。
- 詞嵌入:使用skip-gram模型來訓(xùn)練詞向量
- 位置嵌入:位置特征被定義為句子中當(dāng)前詞到實體\(e_1\)和\(e_2\)的距離
每個句子的長度為\(s\),每個詞的詞向量維度為\(d_w\),加上兩個位置特征\(2*d_p\),于是一個詞向量的維度就為\(d_w+2*d_p\).
卷積
由于是給整個句子預(yù)測關(guān)系,所以需要使用所有局部特征并且做一個全局預(yù)測,卷積就是一個很好地合并所有特征的方法。
一個句子的維度是\(s*d\),其中\(d\)是詞向量的維度。卷積和的尺寸為\(w*d\),當(dāng)剩下長度不足\(w\)的時候,填充0,于是卷積結(jié)果的長度為\(s+w-1\).
當(dāng)然,為了捕捉到不同的特征,將使用n個卷積核,于是卷積結(jié)果為\(c=\{c_1, c_2, ..., c_n\}\),\(c\)的維度為\(n*(s+w-1)\).
成對最大池化
為了捕獲到兩個實體間的結(jié)構(gòu)化信息,一般的方法都考慮實體的內(nèi)部上下文和外部上下文,其中內(nèi)部上下文包含了兩個實體里面的字,外部上下文則是兩個實體周圍的字。
于是,根據(jù)句子中給定的兩個實體的位置將句子劃分為三段,這樣每個過濾器卷積的結(jié)果就被分為三個部分:\(\{c_{i1}, c_{i2}, c_{i3}\}\),然后分別在這三段上分別取最大值。于是,最終最大池化的向量長度是固定的,為過濾器數(shù)量的三倍。
softmax輸出
最后經(jīng)過softmax并輸出,需要注意的是,訓(xùn)練是由dropout層的,但是測試的時候就不需要了。
轉(zhuǎn)載于:https://www.cnblogs.com/flyangovoyang/p/11604446.html
總結(jié)