论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类
論文筆記整理:余海陽(yáng),浙江大學(xué)碩士,研究方向?yàn)橹R(shí)圖譜、自然語(yǔ)言信息抽取。
鏈接:https://www.aaai.org/Papers/AAAI/2019/AAAI-GaoTianyu.915.pdf
動(dòng)機(jī)
現(xiàn)有的關(guān)系分類方法主要依賴于遠(yuǎn)程監(jiān)控(DS),因?yàn)槟壳斑€沒(méi)有大規(guī)模的監(jiān)控訓(xùn)練數(shù)據(jù)集。雖然DS自動(dòng)標(biāo)注了足夠多的數(shù)據(jù)用于模型訓(xùn)練,但是這些數(shù)據(jù)的覆蓋范圍仍然相當(dāng)有限,同時(shí)很多長(zhǎng)尾關(guān)系仍然存在數(shù)據(jù)稀疏的問(wèn)題。另外直覺(jué)上說(shuō),人們可以通過(guò)學(xué)習(xí)很少的實(shí)例來(lái)掌握新的知識(shí)。因此我們通過(guò)將RC問(wèn)題形式化為一個(gè)少樣本學(xué)習(xí)(FSL)問(wèn)題,給出了一個(gè)不同的RC觀點(diǎn)。然而,目前的FSL模型主要針對(duì)低噪聲的任務(wù),難以直接處理文本的多樣性和噪聲。在本文中,我們提出了一種基于混合注意力機(jī)制的原型網(wǎng)絡(luò)來(lái)解決含噪的少樣本RC問(wèn)題。我們?cè)O(shè)計(jì)了基于原型網(wǎng)絡(luò)的實(shí)例級(jí)和特征級(jí)注意方案,分別突出了關(guān)鍵的實(shí)例和特征,顯著提高了RC模型在含噪FSL場(chǎng)景中的性能和魯棒性。此外,我們的注意方案加快了RC模型的收斂速度。實(shí)驗(yàn)結(jié)果表明,我們的基于注意力混合模型需要更少的訓(xùn)練迭代,并且優(yōu)于最先進(jìn)的基線模型。
亮點(diǎn)
文章的亮點(diǎn)主要包括:
(1)提出了一種基于混合注意力機(jī)制的原型網(wǎng)絡(luò)來(lái)處理含噪的少樣本關(guān)系分類任務(wù),實(shí)例級(jí)的注意力強(qiáng)調(diào)與查詢有關(guān)的實(shí)例,特征級(jí)注意力減輕了少樣本稀疏性的問(wèn)題;
(2)訓(xùn)練時(shí)相比其他FSL模型收斂得更快。
相關(guān)工作
一.少樣本的關(guān)系分類:
關(guān)系分類是信息提取中重要的任務(wù),對(duì)下游NLP領(lǐng)域如機(jī)器翻譯、閱讀理解、常識(shí)推理等都有幫助。然而傳統(tǒng)的關(guān)系分類任務(wù)需要大量的監(jiān)督數(shù)據(jù),人為打標(biāo)的方式成本又是十分昂貴的。雖然之后提出的遠(yuǎn)程監(jiān)督方法打標(biāo)的方式可以快速構(gòu)造大量的監(jiān)督訓(xùn)練數(shù)據(jù),但是這樣構(gòu)建的數(shù)據(jù)集噪音太大,對(duì)關(guān)系分類的準(zhǔn)確率影響很大。直覺(jué)上說(shuō),人們可以通過(guò)學(xué)習(xí)很少的實(shí)例來(lái)掌握新的知識(shí)。因此我們通過(guò)將關(guān)系分類形式化為一個(gè)少樣本學(xué)習(xí)問(wèn)題,給出了一個(gè)不同的視角解決關(guān)系分類。
少樣本學(xué)習(xí)(FSL)允許模型在數(shù)據(jù)不足的情況下學(xué)習(xí)高質(zhì)量的特性,而不需要添加像遠(yuǎn)程監(jiān)督這樣構(gòu)建的大規(guī)模數(shù)據(jù)集。許多研究者將遷移學(xué)習(xí)方法應(yīng)用于FSL的預(yù)訓(xùn)練-微調(diào)模型,該模型將潛在的信息從包含足夠多的常見(jiàn)類中轉(zhuǎn)移到只有很少實(shí)例的不常見(jiàn)類。另外度量學(xué)習(xí)方法提出了學(xué)習(xí)類間距離分布的方法,其中相同類在距離空間上是相鄰的。最近,元學(xué)習(xí)的概念被提出,它鼓勵(lì)模型從以前的經(jīng)驗(yàn)中學(xué)習(xí)快速學(xué)習(xí)能力,并迅速推廣到新的概念中。
在這些模型中,原型網(wǎng)絡(luò)實(shí)現(xiàn)簡(jiǎn)單,訓(xùn)練速度快,在多個(gè)FSL任務(wù)上都達(dá)到了最先進(jìn)的結(jié)果。它計(jì)算每個(gè)類的原型類型,并通過(guò)計(jì)算它們的歐式距離對(duì)查詢實(shí)例進(jìn)行分類。我們提出的方法是基于原型網(wǎng)絡(luò)的。近年來(lái),雖然少樣本學(xué)習(xí)發(fā)展迅速,但大部分工作集中在CV的應(yīng)用上。流行的FSL數(shù)據(jù)集Omniglot和mini-ImageNet 都是為CV應(yīng)用程序設(shè)計(jì)的。然而關(guān)于采用FSL進(jìn)行NLP任務(wù)的系統(tǒng)研究還很少。
?
二.原型網(wǎng)絡(luò):
如圖為原型網(wǎng)絡(luò)求解少樣本關(guān)系分類任務(wù)的原型方法。原型網(wǎng)絡(luò)的直覺(jué)比較簡(jiǎn)單,它假設(shè)在語(yǔ)義空間中具有相同類的實(shí)例是相互靠近的,靠近的中心點(diǎn)就是每個(gè)關(guān)系的原型。樣本通過(guò)學(xué)習(xí)投影到語(yǔ)義空間中,并且讓相同關(guān)系的樣本盡可能靠近,在通過(guò)求均值的方法直接求出每個(gè)關(guān)系的原型。查詢樣本所屬的關(guān)系通過(guò)求解樣本與每個(gè)關(guān)系的歐式距離,距離最近的就是該查詢樣本所屬的關(guān)系。
模型
文中設(shè)計(jì)的混合注意力機(jī)制的原型網(wǎng)絡(luò)模型如下:
?
基本模型主要包括:
(1)樣本實(shí)例編碼:輸入的每個(gè)實(shí)例句子,計(jì)算每個(gè)詞語(yǔ)的word embedding和相對(duì)兩個(gè)實(shí)體的positionembedding,將兩個(gè)embedding拼接起來(lái)后輸入到CNN網(wǎng)絡(luò)中再做最大池化,輸出的結(jié)果就是每個(gè)實(shí)例句子的編碼信息。
(2)原型網(wǎng)絡(luò)計(jì)算原型:原始的原型網(wǎng)絡(luò)計(jì)算原型的方法是在suppprt set中求實(shí)例句子的平均值作為每個(gè)關(guān)系的原型。我們?nèi)魏卧途W(wǎng)絡(luò)求解原型的思想,但是直接求平均的方法對(duì)每個(gè)輸入樣本的權(quán)重默認(rèn)為相同值,這樣當(dāng)輸入樣本很少時(shí),并且樣本中帶有噪音的情況下會(huì)明顯影響原型的求解。
(3)樣本實(shí)例級(jí)的注意力機(jī)制:基于上面所說(shuō),在少樣本學(xué)習(xí)中若是訓(xùn)練過(guò)程樣本帶有噪音會(huì)明顯影響原型的求解。我們提出了樣本實(shí)例級(jí)的的注意模塊,將更多的注意力放在與查詢相關(guān)的實(shí)例上,減少了噪聲的影響。我們將求解原型的公式從 修改為,其中αj定義為
(4)特征級(jí)的注意力機(jī)制:原始的原型網(wǎng)絡(luò)使用簡(jiǎn)單的歐式距離作為距離函數(shù)。由于少樣本學(xué)習(xí)中支持集中實(shí)例較少,從支持集中提取的特征存在數(shù)據(jù)稀疏的問(wèn)題。因此,在特征空間中對(duì)特殊關(guān)系進(jìn)行分類時(shí),某些維度具有更強(qiáng)的區(qū)分能力。我們提出了一種基于特征級(jí)的注意方法,以緩解特征稀疏性問(wèn)題,并以更合適的方式測(cè)量空間距離。我們將公式 d(s1, s2) = (s1-s2)2 修改為d(s1,s2) = zi *(s1-s2)2,其中zi通過(guò)下圖的特征級(jí)注意力提取器計(jì)算的。
實(shí)驗(yàn)
我們?cè)贔ewRel數(shù)據(jù)集上評(píng)估我們的模型,這個(gè)數(shù)據(jù)集一共有100個(gè)關(guān)系,每個(gè)關(guān)系700條句子。另外為了證明模型在含噪數(shù)據(jù)上的魯棒性,我們?nèi)藶榈脑O(shè)置了含噪數(shù)據(jù):0%、10%、30%、50%。其他超參數(shù)設(shè)置如下:
具體實(shí)驗(yàn)結(jié)果如下表所示:
上表報(bào)告了在不同實(shí)驗(yàn)設(shè)置下對(duì)測(cè)試集的混合注意力和不混合注意力的原型網(wǎng)絡(luò)的準(zhǔn)確性。我們將原始的原型網(wǎng)絡(luò)命名為“Proto”。“Proto- IATT”、“Proto- FATT”和“Proto- HATT”分別是實(shí)例級(jí)、特征級(jí)和混合注意的模型。從表中我們可以發(fā)現(xiàn),我們的混合注意力為基礎(chǔ)的原型網(wǎng)絡(luò)在面對(duì)噪聲數(shù)據(jù)時(shí)更加健壯。隨著噪聲率的提高,我們提出的模型的優(yōu)點(diǎn)變得更加明顯。
通過(guò)對(duì)實(shí)例和特征的混合關(guān)注和不同的評(píng)分,我們的模型知道在訓(xùn)練時(shí)應(yīng)該關(guān)注實(shí)例和特征的哪些部分,同時(shí)捕獲正確的反向傳播路徑。這有助于模型抵御數(shù)據(jù)噪聲的不利影響。我們的模型在干凈數(shù)據(jù)上甚至比基線做得更好,這證明了混合注意力在處理干凈數(shù)據(jù)的少樣本學(xué)習(xí)任務(wù)中也是有用的。我們并與其它FSL模型和RC模型進(jìn)行了比較。對(duì)于RC模型,我們采用Finetune或kNN等簡(jiǎn)單的少樣本模型方法對(duì)RC模型進(jìn)行綜合評(píng)價(jià)。對(duì)于FSL模型,我們對(duì)比了Meta Network (Munkhdalai and Yu 2017)、GNN (Garcia and Bruna 2018)和SNAIL(Mishraet al. 2018),這些都是目前最先進(jìn)的FSL模型。如表所示,我們的兩個(gè)注意力模塊都提出了改進(jìn)性能的方法,我們提出的基于注意的混合方法取得了最好的效果。
總結(jié)????????????????????????
在本文中,我們提出了一種基于混合注意力的原型網(wǎng)絡(luò)來(lái)完成含噪的少樣本關(guān)系分類任務(wù)。我們的混合注意力機(jī)制由兩個(gè)模塊組成,一個(gè)實(shí)例級(jí)的注意力突出了與查詢相關(guān)性更高的實(shí)例,另一個(gè)特征級(jí)的注意力機(jī)制減輕了特征稀疏性的問(wèn)題。在我們的實(shí)驗(yàn)中,我們?cè)u(píng)估了我們的模型在幾個(gè)隨機(jī)噪聲設(shè)置和少樣本設(shè)置,表明了我們的混合注意力機(jī)制FSL模型顯著提高了魯棒性和計(jì)算效率。我們的模型不僅達(dá)到了最先進(jìn)的結(jié)果,并在有噪聲的數(shù)據(jù)中表現(xiàn)得更好,而且在訓(xùn)練時(shí)收斂得更快。在未來(lái),我們將探索將我們的混合注意方案與其他FSL模型相結(jié)合,并采用更多的神經(jīng)編碼器使我們的模型更通用。
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 图谱实战 | 面向C端场景的概念图谱构成
- 下一篇: 技术动态 | 北京大学计算机所邹磊教授研