ACL 2019 | 面向远程监督关系抽取的模式诊断技术
作者丨鄭順
學(xué)校丨清華大學(xué)交叉信息研究院五年級(jí)博士生
研究方向丨機(jī)器學(xué)習(xí)和信息抽取
研究動(dòng)機(jī)
遠(yuǎn)程監(jiān)督(Distant Supervision)可以為關(guān)系抽取任務(wù)自動(dòng)地快速生成大量訓(xùn)練集。具體來說,遠(yuǎn)程監(jiān)督是將知識(shí)庫中的關(guān)系實(shí)例匹配到文本中,進(jìn)而直接對(duì)實(shí)體對(duì)的文本描述賦予相應(yīng)的關(guān)系類別。盡管能快速創(chuàng)建大量訓(xùn)練數(shù)據(jù),這種“遠(yuǎn)程”的監(jiān)督方式也引入了不可忽視的標(biāo)注錯(cuò)誤,比如下面這個(gè)的例子:
1. 第一個(gè)句子的確描述了實(shí)體間具有“出生地”的關(guān)系,然而由于知識(shí)庫的不完整性,相應(yīng)的遠(yuǎn)程監(jiān)督標(biāo)簽(DS Label)是一個(gè)假陰性(FN)的錯(cuò)誤;?
2. 第二個(gè)句子其實(shí)并沒有顯示描述“出生地”這個(gè)關(guān)系,卻因?yàn)椤斑h(yuǎn)程”的監(jiān)督,而發(fā)生了假陽性(FP)的錯(cuò)誤。?
近年來的一個(gè)研究熱點(diǎn)是弱監(jiān)督融合(Weak Label Fusion),即通過融合多種不同的弱監(jiān)督信號(hào)來生成更高質(zhì)量的訓(xùn)練標(biāo)簽,這些弱監(jiān)督信號(hào)可以由遠(yuǎn)程監(jiān)督、基于模式的標(biāo)注等等產(chǎn)生。
盡管弱監(jiān)督融合既能生成更高質(zhì)量的標(biāo)注又有較好的可解釋性,但也存在一定的局限性:通常假定由人(領(lǐng)域?qū)<?#xff09;來提供具有關(guān)系指向性的模式規(guī)則,比如:符合模式“mayor ENTITY1:PER .* ENTITY2:CITY”的句子傾向于與“出生地”關(guān)系無關(guān)。
這種人工撰寫模式的方式既有著較高的技能要求(學(xué)習(xí)模板撰寫的語法,調(diào)試程序等),又需要較大的工作量(搜索關(guān)系描述的典型樣例,查驗(yàn)?zāi)0宓母采w率、準(zhǔn)確性、臨界情況等),而且當(dāng)遷移到一個(gè)新的關(guān)系領(lǐng)域時(shí),這些繁雜的工作又需要相應(yīng)的領(lǐng)域?qū)<覀冊(cè)僦貜?fù)一遍。?
那么如何既能降低領(lǐng)域?qū)<业募寄芤蠛凸ぷ髁?/strong>,又能實(shí)現(xiàn)高效可解釋的基于弱監(jiān)督融合的訓(xùn)練數(shù)據(jù)生成呢??
本文就是沿著此方向的一次探索,我們對(duì)這個(gè)問題的核心觀察是:1)遠(yuǎn)程監(jiān)督可以讓模型學(xué)到大致的關(guān)系指向信息;2)對(duì)領(lǐng)域?qū)<襾碚f,相對(duì)于編寫模式,判斷樣本是否符合特定的關(guān)系類別是更加簡(jiǎn)單高效的。
基于這些觀察,我們提出了一套神經(jīng)模式診斷框架(DIAG-NRE)來橋接遠(yuǎn)程監(jiān)督與弱監(jiān)督融合,其大體流程如下圖所示。
神經(jīng)模式診斷框架
我們提出的神經(jīng)模式診斷框架包含兩個(gè)核心模塊:模式抽取與模式精煉。?
模式抽取?
模式抽取部分的核心想法是通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)代理網(wǎng)絡(luò)(Agent Network)來獲得關(guān)系相關(guān)的模式。
具體地,我們從關(guān)系分類模型中取出輸入表征,作為輸入狀態(tài)(State),通過代理網(wǎng)絡(luò)(Agent Network)獲得針對(duì)每個(gè)詞項(xiàng)的決策(Action,1:擦除,0:保留),進(jìn)而生成新的狀態(tài),通過關(guān)系模型對(duì)新舊狀態(tài)的不同預(yù)測(cè)概率計(jì)算決策的獎(jiǎng)勵(lì)(Reward),這里獎(jiǎng)勵(lì)設(shè)計(jì)的核心想法是鼓勵(lì)在最大限度的保持預(yù)測(cè)概率的同時(shí)盡可能多地擦除無關(guān)詞項(xiàng)。?
在代理網(wǎng)絡(luò)學(xué)會(huì)做最大化獎(jiǎng)勵(lì)的決策后,我們可以按照既定的規(guī)則保留實(shí)體信息、相對(duì)位置信息和關(guān)鍵詞項(xiàng)從而得到相應(yīng)的關(guān)系模式。?
模式精煉?
在模式精煉部分,我們首先構(gòu)建一個(gè)模式層級(jí)結(jié)構(gòu)用于高效遍歷有代表性的模式,接著遍歷模式層級(jí)結(jié)構(gòu)(選取指定數(shù)量的模式)并采樣出少量模式覆蓋的樣本用于人工標(biāo)注。整體流程如下圖所示,通過模式層級(jí)結(jié)構(gòu)輔助模式選擇以及人工標(biāo)注來評(píng)估模式質(zhì)量,我們可以得到具有高置信度的模式以及極少量的人工標(biāo)注數(shù)據(jù)。
在弱監(jiān)督融合部分,我們沿用了斯坦福大學(xué)提出的 Data Programming 方案,唯一的區(qū)別在于這里有很強(qiáng)的先驗(yàn)——DIAG-NRE 可輸出高置信度的模式。因此,不同于原始方案中的無監(jiān)督參數(shù)估計(jì),我們基于前序的少量標(biāo)注數(shù)據(jù)來估計(jì)弱監(jiān)督融合部分的參數(shù)。
實(shí)驗(yàn)及分析
我們?cè)趦蓚€(gè)大型公開的遠(yuǎn)程監(jiān)督數(shù)據(jù)集(NYT、UW)的 14 種關(guān)系上驗(yàn)證神經(jīng)模式診斷框架的有效性。為了評(píng)估對(duì)訓(xùn)練標(biāo)簽的降噪效果,我們對(duì)比不同的訓(xùn)練標(biāo)簽對(duì)應(yīng)的模型在測(cè)試集上預(yù)測(cè)性能的差異,對(duì)比基線包括:?
純遠(yuǎn)程監(jiān)督(Distant Supervision)?
將少量人工標(biāo)注標(biāo)簽混入遠(yuǎn)程監(jiān)督集合(Gold Label Mix)?
一種基于強(qiáng)化學(xué)習(xí)的訓(xùn)練標(biāo)簽自動(dòng)調(diào)整(RLRE)?
總體對(duì)比結(jié)果如下表所示:
可以看出,在大部分的關(guān)系任務(wù)上,DIAG-NRE 相對(duì)于遠(yuǎn)程監(jiān)督以及其他基線均取得了很大的提升,其原因主要來自于對(duì)如下兩種標(biāo)簽噪聲的抑制。
假陰性標(biāo)簽:典型的例子是任務(wù)(“國家-行政區(qū)域-地區(qū)”關(guān)系),由于知識(shí)庫覆蓋有限,很多正確描述關(guān)系的樣本都被賦予了 NA 標(biāo)簽(無已知關(guān)系)。因此訓(xùn)練出來的模型具有高準(zhǔn)確率,低覆蓋率的特點(diǎn)。
假陽性標(biāo)簽:典型的例子包括(“人-出生地-地區(qū)”關(guān)系),有很多模式并不能表示此關(guān)系,但是在遠(yuǎn)程監(jiān)督的過程卻頻繁的出現(xiàn),從而導(dǎo)致模型認(rèn)為這些模式與關(guān)系相關(guān)。從下面這組例子,我們可以直觀地理解 DIAG-NRE 是如何診斷及抑制這兩種噪聲標(biāo)簽的。
關(guān)系任務(wù),模式“in ENTITY2:CITY PAD{1, 3} ENTITY1:COUNTRY”,可以覆蓋 2072 個(gè)樣本,但是其中只有 382 個(gè)樣本被遠(yuǎn)程監(jiān)督賦予了正確的標(biāo)簽,因而存在大量假陰性標(biāo)簽。關(guān)系任務(wù),模式“mayor ENTITY1:PER PAD{1, 3} ENTITY2:CITY”其實(shí)并不能表示“出生地”關(guān)系,但遠(yuǎn)程監(jiān)督卻給 21 個(gè)此類型樣本標(biāo)注了“出生地”關(guān)系,這也就是所謂的假陽性標(biāo)簽。?
其他的關(guān)系類型也或多或少存在類似的錯(cuò)誤標(biāo)簽,然而無人工干預(yù)的自動(dòng)調(diào)整方法并不能有效抑制這樣的標(biāo)簽噪聲,同時(shí)只加入少量人工糾正過的正確標(biāo)簽也難以覆蓋到海量的噪聲樣本。與之相比,DIAG-NRE 輔助生成高置信度較高覆蓋率的模式,再結(jié)合弱監(jiān)督融合機(jī)制,從而高效地以可解釋的方式減少標(biāo)簽噪聲。
總結(jié)及展望
在這個(gè)工作中,我們?cè)谶h(yuǎn)程監(jiān)督與弱監(jiān)督融合兩種技術(shù)之間搭建起了一座橋梁,既通過自動(dòng)生成模式減輕了對(duì)領(lǐng)域?qū)<以诩寄芎凸ぷ髁可系囊?#xff0c;又通過主動(dòng)式的少量人工標(biāo)注自動(dòng)精煉高質(zhì)量模式,從而賦能在新關(guān)系領(lǐng)域上的快速泛化。此外,DIAG-NRE 不僅能有效抑制標(biāo)簽噪聲,同時(shí)可以診斷不同關(guān)系類型上噪聲類型、嚴(yán)重程度等方面,進(jìn)而直觀解釋了噪聲標(biāo)簽因何而起,又是如何得到抑制。
由于具備快速構(gòu)建訓(xùn)練數(shù)據(jù)的特性,遠(yuǎn)程監(jiān)督近年來被廣泛應(yīng)用到其他領(lǐng)域,比如:問答系統(tǒng)、事件抽取等等,因此如何將 DIAG-NRE 的思路和優(yōu)點(diǎn)引入到這些領(lǐng)域是值得研究的方向之一。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
基于DGCNN和概率圖的輕量級(jí)信息抽取模型
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
一文詳解Google最新NLP模型XLNet
自然語言處理中的語言模型預(yù)訓(xùn)練方法
一大批中文(BERT等)預(yù)訓(xùn)練模型等你認(rèn)領(lǐng)!
ACL 2019 | 基于上下文感知的向量?jī)?yōu)化
NAACL 2019最佳論文:量子概率驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)
基于小樣本學(xué)習(xí)的意圖識(shí)別冷啟動(dòng)
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的ACL 2019 | 面向远程监督关系抽取的模式诊断技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2019 | NAS-FPN:
- 下一篇: 旷视研究院博士图鉴|Be that ch