论文浅尝 | 基于局内去噪和迁移学习的关系抽取
動機
在遠程監(jiān)督任務(wù)中,除了語料的錯誤標注問題,還存在句內(nèi)噪聲單詞過多的問題,即多數(shù)句子都存在一些與表達關(guān)系無關(guān)的詞匯,這個問題未有人關(guān)注。當前研究的另一個問題是,句子特征抽取器采用隨機初始化的方法,存在不健壯的問題。
針對句內(nèi)噪聲的問題,本文采用子樹解析的方法,去除與表達關(guān)系不相關(guān)的詞匯;針對關(guān)系抽取器不健壯的問題,本文采用遷移學(xué)習(xí)的方法,用實體分類對模型的參數(shù)做預(yù)訓(xùn)練。
方法
本文方法包括三個部分:
(1)?????子樹解析。首先對句子做句法解析,然后找到兩個實體最近的共有祖先,最后取以該節(jié)點為根節(jié)點的子樹,保留句子中的這部分,其余部分丟棄。
(2)?????構(gòu)造含有多個注意力機制的關(guān)系抽取器。采用BGRU作為句子語義抽取器,抽取器中添加面向單詞的注意力和面向?qū)嶓w的注意力。然后采用面向句子的注意力方法,結(jié)合一個實體對對齊的多個句子的信息作為實體對間關(guān)系的語義表示,用于后續(xù)的關(guān)系分類。
(3)?????參數(shù)遷移初始化。將模型部分結(jié)構(gòu)用于實體類型分類任務(wù),訓(xùn)練得到的參數(shù)用作關(guān)系抽取器相應(yīng)參數(shù)的初始化。
?
實驗
實驗進行了 held-out evaluation 和 manual evaluation,結(jié)果如下圖所示,可見取得了較好的效果。
?
筆記整理:劉兵,東南大學(xué)計算機博士,研究方向為自然語言處理、信息抽取。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
轉(zhuǎn)載須知:轉(zhuǎn)載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于局内去噪和迁移学习的关系抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 将字面含义嵌入知识图谱表示
- 下一篇: 2019最全BAT资深Java面试题答案