技术动态 | 知识图谱上的实体链接
本文轉(zhuǎn)載自公眾號:知識工場 ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ??
1、什么是實體鏈接
實體鏈接(entity linking)就是將一段文本中的某些字符串映射到知識庫中對應(yīng)的實體上。比如對于文本“鄭雯出任復(fù)旦大學新聞學院副院長”,就應(yīng)當將字符串“鄭雯”、“復(fù)旦大學”、“復(fù)旦大學新聞學院”分別映射到對應(yīng)的實體上。在很多時候,存在同名異實體或者同實體異名的現(xiàn)象,因此這個映射過程需要進行消歧,比如對于文本“我正在讀《哈利波特》”,其中的“《哈利波特》”應(yīng)指的是“《哈利波特》(圖書)”這一實體,而不是“《哈利波特》系列電影”這一實體。當前的實體鏈接一般已經(jīng)識別出實體名稱的范圍(一般稱作mention),需要做的工作主要是實體(稱作entity)的消歧。也有一些工作同時做實體識別和實體消歧,變成了一個端到端的任務(wù)。2、實體鏈接的整體介紹
實體鏈接一般包括候選實體生成和候選實體排序兩個過程。候選實體生成指對一個mention,找到所有可能的實體作為候選項。候選實體排序指利用某些特征,對候選實體進行排序。
其中候選實體的生成可以考慮以下幾個因素:
維基百科信息
維基百科重定向頁面
維基百科消歧頁面
超鏈接的名稱
Mention和實體名稱的相似性
縮寫的相似性
字符串的相似性
上下文其他mention對應(yīng)的實體
接下來介紹幾篇經(jīng)典的論文
《Deep joint entity disambiguationwith local neural attention》- EMNLP 2017
該論文使用神經(jīng)網(wǎng)絡(luò)的方法來計算 local score 和 global score ,主要包括計算entity embeddings ,計算 local score 和 global score ,進行優(yōu)化求解三個步驟。Entity 的向量表示和 word 的向量表示屬于同一個語義空間,是在基于 word2vec得到的 word embedding 的基礎(chǔ)上 bootstrap 得到的。一個 entity 的向量會和高頻共現(xiàn)的 word 更接近,具體的計算過程如下所示:Local score的計算即計算entity embedding和mention上下文的word embedding 的相關(guān)性程度,為了取得更好的結(jié)果,在這里使用了 attention 來獲得更強的上下文單詞信息:
Global score的計算即計算兩兩候選實體的embedding的相關(guān)性程度:
整體的打分函數(shù)就是 local score 和 global score 的加和:但是,這是一個 NP-hard 的問題,作者針對打分函數(shù)與 CRF 形式上的相近性進行建模,將這個問題看作一個fully-connected pairwise CRF model , 利用 belief propagation 進行優(yōu)化求解:論文使用了多個數(shù)據(jù)集進行實驗,結(jié)果如下:《ELDEN: improved entity linkingusing densified knowledge graphs》-NAACL 2018
這是一篇 state of the art 的論文。它指出現(xiàn)有的方法中,global score 的coherence 主要基于 entity embedding 進行計算,而許多 entity embedding 是基于 KG 中實體間的邊來進行計算的,對于 KG 中稀疏的部分表現(xiàn)不好。因此該論文使用偽實體來填充 KG 中稀疏的部分。具體來講,論文中將維基百科中高頻出現(xiàn)的 unigram 和 bi-gram 短語當做偽實體,然后利用其它 web 文本中的共現(xiàn)信息建立偽實體和其他實體間的邊。整體過程如下圖所示:
該論文測試的數(shù)據(jù)集較少,但是取得了 state of the art 的效果:
《Deeptype : multilingual entitylinking by neural type system evolution》-AAAI 2018
該論文的思路是將 type 作為約束,指導(dǎo) entity linking 。這是因為在 kg 中,大多數(shù)實體都擁有 type 屬性,而 type 屬性的屬性值往往存在于一個大的 type ontology 中。但是這個 type ontology 往往是非常大的,因此如何對這個 ontology的分支選擇合適的 type 粒度,并應(yīng)用到下游應(yīng)用中是一個需要解決的問題。對于這個問題的解決,該論文主要采取了兩個步驟。首先,選定一個合適的 type system ,也就是確定分類器一共要分哪幾個類。其次,基于這個 type system 優(yōu)化文本分類器和實體鏈接模型。Type system 的選擇是基于兩個標準進行的:learnability 和 oracle 。Learnability 用于找到分類器容易學習的 type , oracle 用于找到可以幫助提升 entity linking 效果的 type 。因此,尋找 type system 的優(yōu)化目標如下所示:對于 type system 的搜索策略,該論文也測試了遺傳算法、交叉熵方法等,其結(jié)果如下:Entity linking 的過程中,除了使用到了預(yù)測的 type ,還使用了 mention 對應(yīng)entity 的先驗概率:再觀察上面的實驗結(jié)果可以發(fā)現(xiàn),該論文僅用了先驗概率和 type 約束兩個特征就取得了較好的效果。OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的技术动态 | 知识图谱上的实体链接的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 开源网络通信行业知识图谱(
- 下一篇: 论文小综 | 知识图谱表示学习中的零样本