當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention

發(fā)布時(shí)間：2024/7/5 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

1 當(dāng)前不足
2. 本文的想法
3.相關(guān)工作
4.KNET
- 4.1encoder
- 4.2類型預(yù)測
- 4.3attention
5.實(shí)驗(yàn)
6.以后

Improving Neural Fine-Grained Entity Typing with Knowledge Attention

用于：Fine-grained entity typing細(xì)粒度實(shí)體類型(它將實(shí)體劃分為大量細(xì)粒度類型，更多類型，可能有層次嵌套)
以前：關(guān)注上下文的復(fù)雜關(guān)聯(lián)，忽略了在知識(shí)庫中的豐富的背景知識(shí)
本文：KBs+上下文+mention,attention

1 當(dāng)前不足

將mention和上下文分割開考慮，沒考慮他們之間的聯(lián)系
- 實(shí)體上下文分離。現(xiàn)有的方法通常將實(shí)體提及（mention)和上下文單詞編碼為單獨(dú)的特性，而不考慮它們之間的相關(guān)性。但是，可以直觀地看出，每個(gè)上下文單詞的重要性都受到相關(guān)實(shí)體的顯著影響。例如，在蓋茨和艾倫共同創(chuàng)立的微軟成為最大的軟件公司這句話中，當(dāng)我們決定實(shí)體的類型時(shí)，上下文單詞“公司”是很重要的，但是當(dāng)我們決定蓋茨的類型時(shí)，上下文單詞“公司”就不那么重要了。
沒有想過用KBs
- 背景知識(shí)是很重要的
- 文本知識(shí)分離。知識(shí)庫(KBs，也稱為知識(shí)圖)，如YAGO、Freebase，以三元組(h、r、t)的形式提供了實(shí)體之間關(guān)系的豐富信息，其中h、t是頭實(shí)體和尾實(shí)體，r是它們之間的關(guān)系。這些信息描述了實(shí)體之間的關(guān)系和交互，因此對實(shí)體類型很有幫助。例如，給定一個(gè)triple (USA, shared border with, Canada)，可以推斷，在某句話中，Canada很可能是一個(gè)國家。但是，在以前的w中，從來沒有使用過關(guān)系信息。

2. 本文的想法

為了解決實(shí)體-上下文分離和文本-知識(shí)分離的問題，我們提出了KnowledgeAttention神經(jīng)細(xì)粒度實(shí)體類型(KNET)。如圖1所示，我們的模型主要由兩部分組成。首先，我們建立一個(gè)神經(jīng)網(wǎng)絡(luò)來生成上下文和實(shí)體提及表示。其次，在實(shí)體提及的基礎(chǔ)上，運(yùn)用知識(shí)注意力關(guān)注重要的語境詞，提高語境表達(dá)的質(zhì)量。知識(shí)注意力的計(jì)算采用實(shí)體嵌入的方法，它從知識(shí)庫的相關(guān)信息中學(xué)習(xí)，然后從文本中重構(gòu)。考慮到我們將在測試中同時(shí)遇到in-KB和out- KB實(shí)體，我們提出了一個(gè)消除歧義的過程，不僅可以為in-KB實(shí)體提供精確的KB信息，還可以為out- KB實(shí)體提供有用的知識(shí)

神經(jīng)網(wǎng)絡(luò)生成context和mention的表達(dá)
在mention的基礎(chǔ)上，從KB中拿出了mention的表達(dá)，來做context的attention權(quán)重
- knowledge attention :基于mention+in-KB+out-KB
- 內(nèi)涵消歧過程
  - 給in-KB提供精確的KB信息
  - 給out-KB提供有用的知識(shí)

3.相關(guān)工作

Dong等人(2015)首次嘗試探索只使用詞嵌入作為特征的實(shí)體輸入中的深度學(xué)習(xí)。此外，
Shimaoka等人(2016)為FET引入了一種基于注意力的長短時(shí)記憶(LSTM)，
Shimaoka等人(2017)將手工制作的特征加入到基于注意力的神經(jīng)模型中。
—》然而，這些神經(jīng)模型遇到了實(shí)體-上下文分離和文本-知識(shí)分離的挑戰(zhàn)。本文試圖通過結(jié)合KBs的豐富信息來解決這些問題
KBs在之前的許多著作中都被考慮過(Del Corro et al. 2015;Ren等人2016a;Yaghoobzadeh和Schutze 2017)。然而，他們只考慮知識(shí)庫中每個(gè)實(shí)體的類型信息，而忽略了豐富的關(guān)系信息(不同實(shí)體之間的關(guān)系)，而這些信息恰好是知識(shí)庫的重要組成部分。在本文中，我們使用知識(shí)表示學(xué)習(xí)將關(guān)系信息合并到實(shí)體類型中(詳見下一小節(jié))。
之前
- 只考慮了KB中的實(shí)體類型信息
- 忽略了關(guān)系信息
句子級(jí)別
- Schutze (2015;2017)考慮體級(jí)神經(jīng)實(shí)體類型。語料庫級(jí)實(shí)體類型化旨在從大型語料庫中推斷出實(shí)體的全局類型，通常是通過聚合所有提到實(shí)體的句子的信息來實(shí)現(xiàn)的。相反，句子級(jí)實(shí)體類型化試圖檢測單個(gè)句子中提到的實(shí)體的局部類型，而相同的實(shí)體在不同的句子中可能具有不同的類型。我們的工作重點(diǎn)是句子級(jí)的實(shí)體類型。

4.KNET

我們利用TransE來檢查將KB的關(guān)系信息合并到實(shí)體類型中的有效性。
目的：給定一個(gè)句子，其中包含一個(gè)提到的實(shí)體及其上下文，以及一組實(shí)體類型(分類法)T，我們的模型旨在預(yù)測該實(shí)體提到的每種類型的概率。

4.1encoder

特征向量x(輸入），m-mention,c-上下文

m-各個(gè)mention的均值
- 對于mention的embedding計(jì)算，就是取各自的embedding然后取平均。這里的embedding都是預(yù)訓(xùn)練的。
- nm—實(shí)體mention的個(gè)數(shù)
c-上下文
- 雙向lstm的編碼加權(quán)（attention)和

4.2類型預(yù)測

多層感知機(jī)得到y(tǒng)（各個(gè)類型下的概率）
>0.5為正，沒有大于0.5則取最大的
目標(biāo)函數(shù)/loss(交叉熵）

4.3attention

$a_{l_i},a_{r_i}$
1)Semantic attention：簡單地將上下文表示本身作為注意查詢，這是由(Shimaoka et al. 2017)提出的，將作為我們的基線方法
- MLP（多層感知機(jī)）
- l,r的計(jì)算相同
- 所有實(shí)體共享
- 2獨(dú)立于1
- 我們注意到，所有實(shí)體共享用于計(jì)算SA的相同MLP。因此，上下文詞語的注意是獨(dú)立于實(shí)體的。因此，SA很難關(guān)注那些與相應(yīng)實(shí)體高度相關(guān)的上下文詞。
2)mention attention：將實(shí)體提表示m作為注意查詢，期望獲取實(shí)體與上下文信息之間的語義關(guān)聯(lián)
- f是二次方程 $x^2$ ,正定且可微
3)knowledge attention：將從外部KBs中學(xué)習(xí)到的實(shí)體表示形式作為注意查詢，獲取實(shí)體-上下文和實(shí)體-知識(shí)庫的語義關(guān)聯(lián)。
- 用TransE,將關(guān)系嵌入到實(shí)體embedding中
- 這里的e是上面mention中的相關(guān)實(shí)體–m的embedding，Wka是雙線性參數(shù)
- $aiKA=f(eWKA[hi→hi←])a_i^{KA}=f(eW_{KA}\left[\begin{matrix}\overrightarrow{h_i}\\\overleftarrow{h_i}\end{matrix}\right])$
- 在測試中的knowledge attention：不知道KB與mention的哪個(gè)實(shí)體有對應(yīng)，甚至可能是out-KB—用文本信息重建實(shí)體embedding（單向lstm）(測試時(shí)，不知道上面的e，上面的e是直接從KB得到的，這里需要重新構(gòu)建）(也可以通過實(shí)體鏈接解決，但實(shí)體鏈接本身就不容易）
- $e^=tanh(W[mclcr])\hat{e}=tanh\left(W\left[\begin{matrix}m\\c_l\\c_r\end{matrix}\right]\right)$
- 在訓(xùn)練時(shí)，我們同時(shí)學(xué)習(xí) $e^\hat{e}$ 通過損失函數(shù)
- $JKB(θ)=?Σ∣∣e?e^∣∣2J_{KB}(\theta)=-\Sigma||e-\hat{e}||^2$
knowledge attention （帶消歧的）（KA+D)
- 通過獲得的mention的表面名稱來減少候選實(shí)體
- 想要確定mention到底對應(yīng)實(shí)體的哪一個(gè)
  - :(1)我們通過匹配實(shí)體的表面名稱來構(gòu)建候選實(shí)體列表
    KBs和實(shí)體mention。
  - (2)計(jì)算text-reconstructed嵌入e?和在KBs候選實(shí)體表示之間的L2距離,并選擇最小距離的候選實(shí)體
  - 如果KB中沒有正確的實(shí)體（足夠信任）就用近似值

5.實(shí)驗(yàn)

衡量：Micro-F1
(Shimaoka et al. 2017)之后，我們使用來自(Pennington, Socher, and Manning 2014)的預(yù)先訓(xùn)練好的詞嵌入。
我們使用Adam Optimizer (Kingma and Ba 2014)和
mini-batch of size B進(jìn)行參數(shù)優(yōu)化。
我們還使用TransE from (Lin et al. 2015)的實(shí)現(xiàn)來獲得實(shí)體嵌入。
overfittiong:在mention上用dropout
因?yàn)橛?xùn)練集合和測試集的mention不同，測試集合mention不可見，而上下文并沒有什么區(qū)別
超參數(shù)的確定–對這些在一定范圍內(nèi)實(shí)驗(yàn)確定
- 學(xué)習(xí)率
- lstm隱藏層尺寸
- 詞向量size
- 窗口尺寸L
- batch size B
結(jié)果
- MA>SA:注意力有好處
- 所有神經(jīng)網(wǎng)絡(luò)模型都比AFET好（AFET用了KB但沒有用關(guān)系）
- KA和KA+D最好，表明引入KB的有用性
- KA+D>KA：消除歧義有用
- KB-only<KA<KA+D：他不可單獨(dú)工作
消歧的困難
- 在KA+D中，對In - kb實(shí)體的消歧取決于不同的上下文環(huán)境。上下文要么提供關(guān)于實(shí)體屬性的豐富而有用的信息，要么幾乎不包含任何有用的提示。另一方面，消除kb外實(shí)體的歧義無疑是錯(cuò)誤的。根據(jù)消歧過程是否正確，我們將測試集分為正確和錯(cuò)誤兩個(gè)子集，并探討了各種方法的性能。
- 在正確的子集中表現(xiàn)都挺好
- 在錯(cuò)誤的子集中表現(xiàn)差，但KA+D也還可以

6.以后

可以試圖加上其他KRL的方法除了transE
我們將在更復(fù)雜的實(shí)體類型分類(包含更多的類或更深層次結(jié)構(gòu))中檢查KNET方法的有效性
直接使用現(xiàn)有的實(shí)體連接工具將不可避免地引入噪聲。在我們的模型中減少這種噪聲并加入實(shí)體鏈接將是未來值得探索的有趣的事情
現(xiàn)有的關(guān)于FET的工作已經(jīng)使用了許多不同的數(shù)據(jù)集和分類法(Shimaoka et al. 2017)，我們也將在各種數(shù)據(jù)集上進(jìn)一步探索我們的模型

總結(jié)

以上是生活随笔為你收集整理的论文学习3-Improving Neural Fine-Grained Entity Typing with Knowledge Attention的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： finetune与Bert
下一篇： 16 操作系统第四章文件管理文件的