论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention
文章目錄
- 1 當(dāng)前不足
- 2. 本文的想法
- 3.相關(guān)工作
- 4.KNET
- 4.1encoder
- 4.2類型預(yù)測
- 4.3attention
- 5.實(shí)驗(yàn)
- 6.以后
Improving Neural Fine-Grained Entity Typing with Knowledge Attention
- 用于:Fine-grained entity typing細(xì)粒度實(shí)體類型(它將實(shí)體劃分為大量細(xì)粒度類型,更多類型,可能有層次嵌套)
- 以前:關(guān)注上下文的復(fù)雜關(guān)聯(lián),忽略了在知識(shí)庫中的豐富的背景知識(shí)
- 本文:KBs+上下文+mention,attention
1 當(dāng)前不足
- 將mention和上下文分割開考慮,沒考慮他們之間的聯(lián)系
- 實(shí)體上下文分離。現(xiàn)有的方法通常將實(shí)體提及(mention)和上下文單詞編碼為單獨(dú)的特性,而不考慮它們之間的相關(guān)性。但是,可以直觀地看出,每個(gè)上下文單詞的重要性都受到相關(guān)實(shí)體的顯著影響。例如,在蓋茨和艾倫共同創(chuàng)立的微軟成為最大的軟件公司這句話中,當(dāng)我們決定實(shí)體的類型時(shí),上下文單詞“公司”是很重要的,但是當(dāng)我們決定蓋茨的類型時(shí),上下文單詞“公司”就不那么重要了。
- 沒有想過用KBs
- 背景知識(shí)是很重要的
- 文本知識(shí)分離。知識(shí)庫(KBs,也稱為知識(shí)圖),如YAGO、Freebase,以三元組(h、r、t)的形式提供了實(shí)體之間關(guān)系的豐富信息,其中h、t是頭實(shí)體和尾實(shí)體,r是它們之間的關(guān)系。這些信息描述了實(shí)體之間的關(guān)系和交互,因此對實(shí)體類型很有幫助。例如,給定一個(gè)triple (USA, shared border with, Canada),可以推斷,在某句話中,Canada很可能是一個(gè)國家。但是,在以前的w中,從來沒有使用過關(guān)系信息。
2. 本文的想法
為了解決實(shí)體-上下文分離和文本-知識(shí)分離的問題,我們提出了KnowledgeAttention神經(jīng)細(xì)粒度實(shí)體類型(KNET)。如圖1所示,我們的模型主要由兩部分組成。首先,我們建立一個(gè)神經(jīng)網(wǎng)絡(luò)來生成上下文和實(shí)體提及表示。其次,在實(shí)體提及的基礎(chǔ)上,運(yùn)用知識(shí)注意力關(guān)注重要的語境詞,提高語境表達(dá)的質(zhì)量。知識(shí)注意力的計(jì)算采用實(shí)體嵌入的方法,它從知識(shí)庫的相關(guān)信息中學(xué)習(xí),然后從文本中重構(gòu)。考慮到我們將在測試中同時(shí)遇到in-KB和out- KB實(shí)體,我們提出了一個(gè)消除歧義的過程,不僅可以為in-KB實(shí)體提供精確的KB信息,還可以為out- KB實(shí)體提供有用的知識(shí)
- 神經(jīng)網(wǎng)絡(luò)生成context和mention的表達(dá)
- 在mention的基礎(chǔ)上,從KB中拿出了mention的表達(dá),來做context的attention權(quán)重
- knowledge attention :基于mention+in-KB+out-KB
- 內(nèi)涵消歧過程
- 給in-KB提供精確的KB信息
- 給out-KB提供有用的知識(shí)
3.相關(guān)工作
-
Dong等人(2015)首次嘗試探索只使用詞嵌入作為特征的實(shí)體輸入中的深度學(xué)習(xí)。此外,
-
Shimaoka等人(2016)為FET引入了一種基于注意力的長短時(shí)記憶(LSTM),
-
Shimaoka等人(2017)將手工制作的特征加入到基于注意力的神經(jīng)模型中。
-
—》然而,這些神經(jīng)模型遇到了實(shí)體-上下文分離和文本-知識(shí)分離的挑戰(zhàn)。本文試圖通過結(jié)合KBs的豐富信息來解決這些問題
-
KBs在之前的許多著作中都被考慮過(Del Corro et al. 2015;Ren等人2016a;Yaghoobzadeh和Schutze 2017)。然而,他們只考慮知識(shí)庫中每個(gè)實(shí)體的類型信息,而忽略了豐富的關(guān)系信息(不同實(shí)體之間的關(guān)系),而這些信息恰好是知識(shí)庫的重要組成部分。在本文中,我們使用知識(shí)表示學(xué)習(xí)將關(guān)系信息合并到實(shí)體類型中(詳見下一小節(jié))。
-
之前
- 只考慮了KB中的實(shí)體類型信息
- 忽略了關(guān)系信息
-
句子級(jí)別
- Schutze (2015;2017)考慮體級(jí)神經(jīng)實(shí)體類型。語料庫級(jí)實(shí)體類型化旨在從大型語料庫中推斷出實(shí)體的全局類型,通常是通過聚合所有提到實(shí)體的句子的信息來實(shí)現(xiàn)的。相反,句子級(jí)實(shí)體類型化試圖檢測單個(gè)句子中提到的實(shí)體的局部類型,而相同的實(shí)體在不同的句子中可能具有不同的類型。我們的工作重點(diǎn)是句子級(jí)的實(shí)體類型。
4.KNET
- 我們利用TransE來檢查將KB的關(guān)系信息合并到實(shí)體類型中的有效性。
- 目的:給定一個(gè)句子,其中包含一個(gè)提到的實(shí)體及其上下文,以及一組實(shí)體類型(分類法)T,我們的模型旨在預(yù)測該實(shí)體提到的每種類型的概率。
4.1encoder
特征向量x(輸入),m-mention,c-上下文
- m-各個(gè)mention的均值
- 對于mention的embedding計(jì)算,就是取各自的embedding然后取平均。這里的embedding都是預(yù)訓(xùn)練的。
- nm—實(shí)體mention的個(gè)數(shù)
- c-上下文
- 雙向lstm的編碼加權(quán)(attention)和
4.2類型預(yù)測
- 多層感知機(jī)得到y(tǒng)(各個(gè)類型下的概率)
- >0.5為正,沒有大于0.5則取最大的
- 目標(biāo)函數(shù)/loss(交叉熵)
4.3attention
-
ali,aria_{l_i},a_{r_i}ali??,ari??
-
1)Semantic attention:簡單地將上下文表示本身作為注意查詢,這是由(Shimaoka et al. 2017)提出的,將作為我們的基線方法
- MLP(多層感知機(jī))
- l,r的計(jì)算相同
- 所有實(shí)體共享
- 2獨(dú)立于1
- 我們注意到,所有實(shí)體共享用于計(jì)算SA的相同MLP。因此,上下文詞語的注意是獨(dú)立于實(shí)體的。因此,SA很難關(guān)注那些與相應(yīng)實(shí)體高度相關(guān)的上下文詞。
-
2)mention attention:將實(shí)體提表示m作為注意查詢,期望獲取實(shí)體與上下文信息之間的語義關(guān)聯(lián)
- f是二次方程x2x^2x2,正定且可微
-
3)knowledge attention:將從外部KBs中學(xué)習(xí)到的實(shí)體表示形式作為注意查詢,獲取實(shí)體-上下文和實(shí)體-知識(shí)庫的語義關(guān)聯(lián)。
- 用TransE,將關(guān)系嵌入到實(shí)體embedding中
- 這里的e是上面mention中的相關(guān)實(shí)體–m的embedding,Wka是雙線性參數(shù)
- aiKA=f(eWKA[hi→hi←])a_i^{KA}=f(eW_{KA}\left[\begin{matrix}\overrightarrow{h_i}\\\overleftarrow{h_i}\end{matrix}\right])aiKA?=f(eWKA?[hi??hi???])
- 在測試中的knowledge attention:不知道KB與mention的哪個(gè)實(shí)體有對應(yīng),甚至可能是out-KB—用文本信息重建實(shí)體embedding(單向lstm)(測試時(shí),不知道上面的e,上面的e是直接從KB得到的,這里需要重新構(gòu)建)(也可以通過實(shí)體鏈接解決,但實(shí)體鏈接本身就不容易)
- e^=tanh(W[mclcr])\hat{e}=tanh\left(W\left[\begin{matrix}m\\c_l\\c_r\end{matrix}\right]\right)e^=tanh???W???mcl?cr????????
- 在訓(xùn)練時(shí),我們同時(shí)學(xué)習(xí)e^\hat{e}e^通過損失函數(shù)
- JKB(θ)=?Σ∣∣e?e^∣∣2J_{KB}(\theta)=-\Sigma||e-\hat{e}||^2JKB?(θ)=?Σ∣∣e?e^∣∣2
-
knowledge attention (帶消歧的)(KA+D)
- 通過獲得的mention的表面名稱來減少候選實(shí)體
- 想要確定mention到底對應(yīng)實(shí)體的哪一個(gè)
- :(1)我們通過匹配實(shí)體的表面名稱來構(gòu)建候選實(shí)體列表
KBs和實(shí)體mention。 - (2)計(jì)算text-reconstructed嵌入e?和在KBs候選實(shí)體表示之間的L2距離,并選擇最小距離的候選實(shí)體
- 如果KB中沒有正確的實(shí)體(足夠信任)就用近似值
- :(1)我們通過匹配實(shí)體的表面名稱來構(gòu)建候選實(shí)體列表
5.實(shí)驗(yàn)
-
衡量:Micro-F1
-
(Shimaoka et al. 2017)之后,我們使用來自(Pennington, Socher, and Manning 2014)的預(yù)先訓(xùn)練好的詞嵌入。
-
我們使用Adam Optimizer (Kingma and Ba 2014)和
-
mini-batch of size B進(jìn)行參數(shù)優(yōu)化。
-
我們還使用TransE from (Lin et al. 2015)的實(shí)現(xiàn)來獲得實(shí)體嵌入。
-
overfittiong:在mention上用dropout
-
因?yàn)橛?xùn)練集合和測試集的mention不同,測試集合mention不可見,而上下文并沒有什么區(qū)別
-
超參數(shù)的確定–對這些在一定范圍內(nèi)實(shí)驗(yàn)確定
- 學(xué)習(xí)率
- lstm隱藏層尺寸
- 詞向量size
- 窗口尺寸L
- batch size B
-
結(jié)果
- MA>SA:注意力有好處
- 所有神經(jīng)網(wǎng)絡(luò)模型都比AFET好(AFET用了KB但沒有用關(guān)系)
- KA和KA+D最好,表明引入KB的有用性
- KA+D>KA:消除歧義有用
- KB-only<KA<KA+D:他不可單獨(dú)工作
-
消歧的困難
- 在KA+D中,對In - kb實(shí)體的消歧取決于不同的上下文環(huán)境。上下文要么提供關(guān)于實(shí)體屬性的豐富而有用的信息,要么幾乎不包含任何有用的提示。另一方面,消除kb外實(shí)體的歧義無疑是錯(cuò)誤的。根據(jù)消歧過程是否正確,我們將測試集分為正確和錯(cuò)誤兩個(gè)子集,并探討了各種方法的性能。
- 在正確的子集中表現(xiàn)都挺好
- 在錯(cuò)誤的子集中表現(xiàn)差,但KA+D也還可以
6.以后
- 可以試圖加上其他KRL的方法除了transE
- 我們將在更復(fù)雜的實(shí)體類型分類(包含更多的類或更深層次結(jié)構(gòu))中檢查KNET方法的有效性
- 直接使用現(xiàn)有的實(shí)體連接工具將不可避免地引入噪聲。在我們的模型中減少這種噪聲并加入實(shí)體鏈接將是未來值得探索的有趣的事情
- 現(xiàn)有的關(guān)于FET的工作已經(jīng)使用了許多不同的數(shù)據(jù)集和分類法(Shimaoka et al. 2017),我們也將在各種數(shù)據(jù)集上進(jìn)一步探索我們的模型
總結(jié)
以上是生活随笔為你收集整理的论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: finetune与Bert
- 下一篇: 16 操作系统第四章 文件管理 文件的