【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches
生活随笔
收集整理的這篇文章主要介紹了
【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 0.總結
- 1.Introduction
- 2.Preliminaries
- 2.2 Scope and Related work
- 2.2.1 Entity Linking=entity disambiguation
- 2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 2.2.3 Entity resolution on KGs
- 2.2.4 EA
- 3.general框架
- 3.1 Embedding Learning Module
- 3.2 Alignment Module
- 3.3 Prediction Module
- 3.4 Extra Information Module
- 4 實驗分析
- 4.1分類
- 4.2數據集
- 4.2.1 Metric
- 4.2.2 比較的方法
- 4.3 DBP15K
- 4.4 SRPRS
- 4.5 DWY100k
- 4.6 速度分析
- 4.7 無監督方法比較
- 4.8 Module-Level Evaluation
- 4.9總結
- 4.10 指導和建議
- 5. 新的數據集和未來的實驗?
- 5.1 數據集的構建DBP-FB
- 5.2 實驗
- 5.3 unmatchable entities
0.總結
Xiang Zhao, Weixin Zeng, Jiuyang Tang, Wei Wang, Fabian Suchanek. TKDE, 2020 [paper][筆記]
- 推薦結論:
- 詳盡的實驗分析
- 各種組件的功能性分析(各種技術排列組合)
- 具有unmatch實體的數據集:DBP-FR
- 對模型的選擇提出了建議
- 短評
- 優點:實驗分析好
- 缺點:模型架構分類不清晰(不知道他指的是什么)
- 類別:
- 實體對齊
- 基于embedding的實體對齊
- 綜述
- DBP-FR
- 數據集:
- 自己提出的:DBP-FR
- DWY100k:稠密,單語言,大
- DBP15k:稠密,跨語言
- SRPRS:稀疏
- 圖譜
- wikidata/DBpedia/yago3/Freebase
- 規模:15K/100K–候選實體也差不多這么多
- 底層模型:
- 監督、半監督、無監督
- 關系嵌入
- transE系列
- GCN系列
- 額外信息:屬性嵌入(文本嵌入)/entity name
- bootstrapping
- ER用作EA
- 速度
- GCN可擴展性好:不會在大數據集上變得特別慢
- 開源軟件情況:無
- 評估質量:-
- P/R/F1
- Hits@1,Hits@10,MRR
1.Introduction
動機
- 比較:
- 不公平
- 經驗估計
- 設置不同
- 只 用KG/用額外信息
- 一次對齊/迭代訓練
- datasets
- 完整的實驗評估:沒有在所有數據集上評測的方法,難以比較
- 使用場景
- 單語言/多語言
- 稀疏/稠密
- 大規模/中等規模
- 使用場景
- 完整的實驗評估:沒有在所有數據集上評測的方法,難以比較
- 與真實世界數據存在差異
- 1v1:
- dataset:1v1
- 實際:1v0占大多數
- 單語言名字歧義
- dataset:同名同實體
- 實際:同名不同實體/同實體不同名
- 1v1:
- 不公平
貢獻
- a general EA framwork
- 將方法分組,組內+組間評估
- 在不同場景下評估
- 新的數據集:
- 單語言
- unmatchable entity
- ambiguous entity
2.Preliminaries
2.2 Scope and Related work
- 實體對齊entity alignment
- entity resolution
- entity matching
- record linkage
- deduplication
- instance/ontology matching
- link discovery
- entity linking/entity disambigution
- 相關工作
2.2.1 Entity Linking=entity disambiguation
- mention(自然語言)->實體(KG)
- 所用信息
- words:mention附近的
- 目標實體的先驗概率
- 已經消歧的實體mentions
- 背景知識(wikipedia)
- entity alignment缺失上述信息
- 實體描述的embedding(我們有)
- 給定mention的entity linking的先驗分布
- 所用信息
2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 輸入:relational data
- 每個data有許多屬性(文本信息) (我們也有)
- 相似度
- object間的
- 用distance/similarity
- names:Jaro-winkler distance
- dates:numerical distance
- 方法
- 規則
- 機器學習
- 分類:匹配與否
- 具體
- 對齊屬性
- 計算屬性值之間的相似度
- 聚合屬性的相似度->records的相似度
2.2.3 Entity resolution on KGs
- ER
- KG+二元關系:如graph-shaped data
- 也用于instance/ontology matching methods
- graph-shaped data:
- 困難:
- textual descriptive information:文本描述中實體很少出現或僅僅只有實體名
- Open World Assumption:在KG中可能不存在實體的屬性在現實中也可能存在(不完備)
- 這是和數據庫的差別
- additional predefined semantics:
- 最簡單:有分類
- 復雜:具備邏輯公理的本體論
- 困難:
- KG+二元關系:如graph-shaped data
2.2.4 EA
-
分類:
- Scope:
- entity alignment<-本文只考慮這個
- relation
- 類別對齊:class of taxonomies of two KGs
- 方法:有一次性執行三種任務的joint model
- Background knowledge
- OAEI:使用ontology(T-box)作為背景信息
- 本文:不適用ontology的方法
- Training
- 無監督:PARIS,SIGMa
- 有監督:基于pre-defined mappings的
- 半監督
- Scope:
-
EA with deep leaning:
- 基于graph representation learning technologies
- 建模KG結構
- 生成實體嵌入
- 基于graph representation learning technologies
-
比較
- 無監督
- PARIS
- Agreement-MakerLight(AML):使用背景信息
- ER方法
- goal相同:EA=ER–因為相同所以比較ER方法
- 無監督
-
Bechmarks:
- 語言內+DBPedia
- DBP15K
- DWY15
- 問題:現有的Bechmarks,只包含schema和instance信息。對不假設有可用的本體的EA方法來說。–所以本文不介紹本體?
- 語言內+DBPedia
-
PS:
- OAEI:推廣了KG track
- 不公平
3.general框架
- Embedding
- transE
- GCN
- Alignment
- 2個向量映射到一個空間
- 訓練一個相同的向量
- Transition
- Corpus-fusion
- Margin-based
- Graph matching
- Attribution refined
- Prediction:
- 相似度計算:
- cosine
- euclidean
- Manhattan distance
- 相似度計算:
- Extra information Module
- 用以增強EA
- 方法
- bootstrapping(or self-learning:
- 利用置信度高的對齊結果加入訓練數據(下個iteration)
- multi-type literal information
- 屬性
- 實體描述
- 實體名
- 完善KG的結構
- bootstrapping(or self-learning:
- 模塊級別的比較
- 在個模塊下介紹各方法如何實現該模塊
- 在個模塊下介紹各方法如何實現該模塊
3.1 Embedding Learning Module
- TransE
- 有實體結構信息
- 有相似鄰居的實體距離更接近‘
- 改變:
- MTransE:
- 訓練:刪除負的三元組,
- 容易過擬合
- BootEA,NAEA
- loss:margin-based loss->a limit-based objective function
- MTransE:
- GCN
- 直接在圖結構上操作
- 節點級嵌入:包含鄰居信息
- 可以獲得幾跳的實體信息
- !!:GCN忽略關系
- MuGNN:logistic loss
- 基于attention的GCN
- 給不同的鄰居分不同的權重
- KECG:
- Graph attention network(GAT)+TransE獲得圖內結構和圖內對齊信息
- RDGCN:使用DPGCNN
- loss:
- BootEA,NAEA:a limit-based objective function
- MuGNN:logistic loss
- JAPE:design new loss?
- 設計新的embedding models:
- RSNs:使用RNN建模長期關系依賴,在實體間傳遞語義信息
- RNN+residual learning
- Trans Edge
- new energy function:
- 目的:測量實體嵌入之間邊的錯誤傳遞(embedding學習中)
- 邊的嵌入:通過context compression 和projection建模
- new energy function:
- RSNs:使用RNN建模長期關系依賴,在實體間傳遞語義信息
3.2 Alignment Module
- 同一多個KG的embeddings
- 方法
-
margin-based function
- pos:seed entity pairs
- neg:替換pos的實體
- 作用:讓兩個KG的embedding–>一個向量空間
- 特例:
- GM-Align:通過最大化seed之間的匹配概率–匹配框架
- 特例:
- 使用:GNN的方法
-
corpus fusion
- 利用seed建立語料間的bridge
- eg
- BootEA and NAEA:交換seed entity pairs的實體產生新的三元組,來校準embedding到同一個空間
- Others:
- 將seed entity pairs的實體當做同一個實體對待,以此建立一個overlay 圖,鏈接兩個KG
-
transition functions:
- 設計一種transition,將KG1=M KG2,map
- 使用額外的信息:
- 實體的屬性
- ->同一個空間
-
3.3 Prediction Module
- 相似度計算:
- 歐幾里得
- Manh
- cos
- GM-Align:
- 對齊到原實體的目標實體具有更高的匹配概率
- CEA:
- 問題:不同的EA決策中有額外的相互依賴,導致錯誤的對齊
- 解決:建模collective signal,形式化為穩定匹配問題(distance measure)
3.4 Extra Information Module
- bootstrapping
- (self-learning,Iterative training)
- 上一步的預測,放入下一步的訓練中
- 可信實體對的選擇策略不同
- ITransE:
- threshold-based strategy
- 可以多對多
- BootEA ,NAEA,TransEdge
- a maxmum likelihood matching
- 約束:1vs 1
- ITransE:
- multi-type literal information
- statistical characteristics of attribute names:JAPE,GCN-Align,HMAN
- generate attribute embeddings:AttrE ,MultiKE
- entity names
- 作為學習實體嵌入的輸入特征:GM-Align,RDGCN,HGCN
- CEA:利用實體名的語義級別和字符串級別的信息,作為individual features(個別特征?)
- KDCoE:HMAN+描述增強:編碼實體描述,作為實體對齊的特征
- 問題:
- 數據集缺乏textual information,對KDCoE,MultiKE,AttrE不利
4 實驗分析
4.1分類
- 組1:僅用KG結構
- 組2:+bootstrapping
- 組3:+額外信息
4.2數據集
-
Embedding數據集
- FBK15
- FBK15-237
- WN18
- WN18RR
-
傳統實體對齊數據集:
- OAEI(since 2004)
-
embedding實體對齊數據集
-
DBP15K:
- 跨語言:
- zh-en,
- zh:關系三元組數:70414,關系數1701,屬性三元組數:248035
- en: 關系三元組數:95142,關系數1323,屬性三元組數:343218
- ja-en,
- ja:關系三元組數:77214,關系數1299,屬性三元組數:248991
- en: 關系三元組數:93484,關系數1153,屬性三元組數:320616
- fr-en
- fr:關系三元組數:105998,關系數903,屬性三元組數:273825
- en: 關系三元組數:115722,關系數1208,屬性三元組數:351094
- zh-en,
- 實體對齊連接數:15k(每對語言間)
- 度的分布:大多在1,從2-10,度越大,實體數量下降
- DBPedia
- 跨語言:
-
WK3L
-
DWY100K:
- 每個KG實體數:100k
- 單語言:
- DBP-WD,
- DBP:關系三元組數:463294,關系數330,屬性三元組數:341770
- WD:關系三元組數:448774,關系數220,屬性三元組數:779402
- DBP-YG
- DBP:關系三元組數:428952,關系數302,屬性三元組數:383757
- YG:關系三元組數:502563,關系數31,屬性三元組數:98028
- (DBP:DBPedia,YG:Yago3,WD:wikidata)
- DBP-WD,
- 每對有100k個實體對齊連接
- 度的分布:沒有度為1or2的,峰值在4,之后遞減
-
SRPRS
- 認為以前的數據集太稠密了(DBP,DWY),度的分布偏離現實
- 跨語言:
- EN-FR,
- EN:關系三元組數:36508,關系數221,屬性三元組數:60800
- FR:關系三元組數:33532,關系數177,屬性三元組數:53045
- EN-DE
- EN:關系三元組數:38363,關系數220,屬性三元組數:55580
- DE:關系三元組數:37377,關系數120,屬性三元組數:73753
- EN-FR,
- 單語言:
- DBP-WD,
- DBP:關系三元組數:33421,關系數253,屬性三元組數:64021
- WD:關系三元組數:40159,關系數144,屬性三元組數:133371
- DBP-YG
- DBP:關系三元組數:33748,關系數223,屬性三元組數:58853
- YG:關系三元組數:36569,關系數30,屬性三元組數:18241
- DBP-WD,
- 每種有15k個實體對齊連接
- 度的分布:很現實
- 度小的實體多(精心取樣)
-
EN-FR
-
DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)
- DBP: 關系三元組數:96414,關系數407,屬性三元組數:127614
- FB:關系三元組數:111974,關系數882,屬性三元組數:78740
-
-
度的分布
-
EN-FR的統計
4.2.1 Metric
- 對齊質量:準確性和全面性
- MR
- MRR
- Hits@m:m=1為precision
- precision/recall/f1
- 傳統方法再用
- 對齊效率:分區索引技術對候選匹配對的篩選能力和準確性
- 縮減率
- 候選對完整性
- 候選對質量
4.2.2 比較的方法
JAPE -> JAPE-Stru
GCN-Align -> GCN
- ER的方法
- Lev:Levenshtein distance
- Embed:name embedding 的cos
- embedding:用fasttext (預訓練的)
- 多語言:MUSE word embedding
4.3 DBP15K
- CEA
- 輸出實體對,而非排名
- 僅使用KG結構
- RSNs最好:長關系路徑信息的獲取–結構信息活動取得好
- MuGNN==KECG
- 共享的目標:their shared objective of completing KG
- 協調差異性
- Completing的實現
- MuGNN:
- 利用AMIE+引入規則
- KECG:
- harnesses transE
- MuGNN:
- 其他三種較差:
- MTransE和JAPE-Stru:使用TransE
- JAPE-Stru好一點:因為MTransE在不同的空間中建模KG的結構,在轉移時丟失了信息
- GCN好于上面兩個
- MTransE和JAPE-Stru:使用TransE
- +bootstrapping
- 最差:
- ITransE:
- 原因1:兩種embedding之間的translation 造成了信息丟失
- 原因2:bootstrapping 太簡單了,缺乏有效的抑制錯誤積累的方式
- ITransE:
- NAEA<BootEA<TransEdge
- bootstrapping策略相同
- NAEA<BootEA:使用attention–獲得了鄰居信息,理論上更好,但并沒有
- TransEdge:最好
- edge-centric embedding:獲得結構信息
- 產生了更多精確的實體embedding–>更準確地alignment
- edge-centric embedding:獲得結構信息
- 最差:
- +額外信息
- 屬性信息:超過了僅用結構的方法
- JAPE
- GCN-Align
- HMAN>GCN-Align>JAPE:
- HMAN考慮了關系類型(input)
- entity name information:比用屬性的效果好
- RDGCN約等于HGCN>GM-Align:
- 前二者用關系去優化entity-embedding 的學習–這個在GNN模型中被忽視
- CEA:最好,有效利用和融合了可用的特征
- RDGCN約等于HGCN>GM-Align:
- 屬性信息:超過了僅用結構的方法
- name-based heuristics:ER
- Embed:支持跨語言(好不了,但也不差,和基于結構的方法差不多)
- Lev:支持相近語言和單語言
- 類間比較
- CEA最好的Hits@1
- 其他的指標比較好的模型:
- TransEdge
- RDGCN
- HGCN
- 外加信息的勝利–>使用bootstraping和textual information有效
- ER:
- Embed:超過了大多沒有用entity name的方法–precision上
- ER對EA有效
- 比不過其他使用entity name的方法(因為entity name有效所以Embed有效
- Embed:超過了大多沒有用entity name的方法–precision上
- 語言屏障
- 組1/2:支持跨語言,egTransEdge
- 使用實體名稱的方法對跨語言支持弱
- 支持相近/單語言
- eg:Lev,HGCN
4.4 SRPRS
-
稀疏的數據集
-
僅KG結構
- RSNs最好
- KECG:第二,但很接近RSNs了
- 和DBP15k不同:MuGNN效果差,因為SRPRS沒有對齊的關系,因為rule transfering失效
-
+bootstrapping:TransEdge依然最好
-
+額外
- 屬性:
- GCN-Align:最好:因為他合并了屬性
- GCN/JAPE:
- JAPE:合并屬性信息對他沒有貢獻?
- SRPRS中屬性太少了
- entity name:效果更好
- CEA:100%,
- 屬性:
-
ER:在單語言中entity name相同,所以效果都很好
- Embed:單語言、跨語言都可
- Lev :單語言/相近語言
-
單語言KG間:相同的實體有相同的名字,僅比名字就效果不錯—這在相近語言中也適用
- 不一定,但大多
- 電影電視劇之類的第幾季還是有區別的
-
類間
- 和DBP15k不同:實體名稱的方法
- 原因
- KG 結構不怎么有效在這個數據集上。
- 實體名在單語言數據集和相近語言對的跨語言數據集上很重要(很有用)
- 原因
- 和DBP15k不同:實體名稱的方法
4.5 DWY100k
- RDGCN,NAEA:占內存大
- 實驗環境下跑不出來:n Intel Core i7-4790 CPU, an NVIDIA GeForce GTX TITAN X GPU and 128 GB memory
- DWY100k:
- 更豐富的KG結構信息:MuGNN和KECG效果好
- Bootstrapping:
- 進一步改進了結果
- BootEA、TransEdge:效果略低于論文
- +其他信息
- CEA:100%ground-truth
- ER
- 類似SRPRS:LEv,Embed:ground-truth–100%
4.6 速度分析
- DBP15k,SRPRS:GCN>
- GCN:快,且結果一致(不同版本間)
- ITransE,JAPE-Stru
- Others:1000-10000s
- NAEA<GM-Align:>10000s
- DWY100k:
- MuGNN,KECG,HMAN:由于內存所限不能用gpu,所以用了cpu
- 1ws內:GCN-Align,GCN,ITransE
- GM-Align:5天
- 大多10000s-100,000s
- 可伸縮性差:NAEA,RDGCN,GM-Align
4.7 無監督方法比較
-
無監督的方法
- PARIS:literal sim
- AML:ontology+KG背景信息
-
指標F1
-
PARIS/AML<CEA
- CEA:效果好,但依賴于訓練數據
- 無監督雖然不用訓練數據,但效果也不錯
- AML>PARIS:ontology information提升了對齊的結果
- AML需要本體信息, 所以挖掘了本體信息,但只成功在 SRPRSEN-FR and SRPRSEN-DE上運行
- AML>PARIS:ontology information提升了對齊的結果
4.8 Module-Level Evaluation
-
組合不同的模塊
-
embedding:
- TransE
- GCN
-
alignment:
- margin-based loss(mgn)
- corpus fusion strategy(cps)?(swap? )
-
相似度
- cos
- manh
- Euc
-
額外的信息
- ItransE的bootstrapping
- 多種信息Mul
- 語義
- 實體名稱
-
組合
- GCN+mgn
- TransE+cps
-
效果
- bootstrapping:提升性能
- Embedding:GCN+MGn>TransE+Cps
- 距離:cos在TransE上好,在GCN上差
- 引入entity name后,cos都好
- 所有都用上,得到最好的效果
4.9總結
- EA vs ER
- EA:使用KG結構,圖
- 只依賴于KG結構的方法
- 不擅長處理的實體類型:
- 長尾
- 鄰居相似,但不是相同的實體(結構相似)
- 解決:
- +文本信息—可以用ER的方法
- 不擅長處理的實體類型:
- 只依賴于KG結構的方法
- ER用于EA:
- 很大程度依賴于文本相似性
- 僅用結構<ER<結構+entity name
- 文字相似性->實體等價性:這個可以用于EA
- EA:使用KG結構,圖
- 不同數據集的影響
- EA在不同數據集上差異巨大
- 密集數據:普遍好
- 語言:單語>k跨語言
- 單語最好CEA,Lev,Embed
- 100%
- 等價實體=名字同
- 單語最好CEA,Lev,Embed
4.10 指導和建議
- 模型選擇指南
- 輸入信息
- 只有結構信息:從第一組和第二組中選擇
- 額外信息多:第三種方法中選
- 數據規模
- 一些效果好的方法,可伸縮性差(小數據可以,大了就掛了)
- 大規模數據:簡單卻有效的方法:GCN-Align
- 對齊的目的
- 只關注對齊的實體:
- GNN的模型:健壯+可擴展性強(容易擴展到大數據集上)
- 還有其他任務:關系的對齊
- KG表示的方法:TransE,本質上可以學習實體和關系的表示,而且關系對齊可以幫助實體對齊
- 只關注對齊的實體:
- bootstrapping的權衡
- 有效,可以逐步增強數據集
- 問題:錯誤累積,耗時
- 是否用bootstrapping?依據數據集
- 數據集簡單:有豐富的文字信息且密度大(多大?)
- 可以用bootstrapping
- 很難的話就算了,錯誤會不斷積累的
- 數據集簡單:有豐富的文字信息且密度大(多大?)
- 未來研究的建議
- 長尾 :
- 有研究用額外的信息
- [66] W. Zeng, X. Zhao, W. Wang, J. Tang, and Z. Tan. Degree-aware alignment for entities in tail. In SIGIR, 2020.
- 多模態EA
- 一個實體可以與多種形式的信息關聯
- [39] Y. Liu, H. Li, A. Garc′?a-Dur′an, M. Niepert, D. O?noro-Rubio, and D. S.
Rosenblum. MMKG: multi-modal knowledge graphs. In P. Hitzler,
M. Fern′andez, K. Janowicz, A. Zaveri, A. J. G. Gray, V. L′opez, A. Haller,
and K. Hammar, editors, ESWC, volume 11503 of Lecture Notes in
Computer Science, pages 459–474. Springer, 2019.
- 開放世界
- 現在大多EA的假設:源KG的實體總能在目標KG找到一個對齊的實體
- 需要標注數據
- 長尾 :
5. 新的數據集和未來的實驗?
- 新的數據集
- 目的:
- 單語言數據集中同名同實體,但實際是有歧義的
- 一個id對應一個或多個mention,但是是互相匹配的
- 現實:同名的實體但可能不是一個實體
- 在YAGO3中,34%的實體有一個由多個實體共享的名稱。
- 現有的數據集中沒有這種情況(不然也做不到100%)
- 現實:同名的實體但可能不是一個實體
- 一定會有對齊的實體
- 實際不一定啊
- 總之,數據集都太簡單了
- 目的:
5.1 數據集的構建DBP-FB
- 實體名稱的id表示–實體名稱的困難
- 目標 用Freebase:id,且有同名實體
- 源:DBPedia,包含Freebase的外部鏈接(有答案)
- 構建
- 包含參與三元組但不參與對齊
5.2 實驗
- 不存在不對齊實體的性能
- 存在無對齊實體的EA性能
- 現在的模型效果都比SRPRS差:因為結構的異構性更高
- 實體分布也差異很大,難以用結構信息
- 實體名稱仍然會產生最好的結果,但比單語言數據集差
- 實體名稱模糊的挑戰
- 現在的模型效果都比SRPRS差:因為結構的異構性更高
5.3 unmatchable entities
- CombEA
- 召回高,精度低:因為給每一個源實體都匹配了一個目標實體
- 現在的EA都有這個問題
- 解決必有答案的問題d的策略:NIL閾值θ\thetaθ
- 距離大于 θ\thetaθ就舍棄,不能對齊
總結
以上是生活随笔為你收集整理的【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识图谱最新权威综述论文解读:知识表示学
- 下一篇: Python:绘图保存时出现空白图像的解