论文浅尝 | 面向开放域的无监督实体对齐
筆記整理 | 譚亦鳴,東南大學博士生
來源:DASFAA’21
鏈接:https://arxiv.org/pdf/2101.10535.pdf
概述與動機
知識圖譜對齊的目的是建立兩個不同知識圖譜之間實體的對應關系,如圖1,本文作者發現現有的實體對齊方法依賴于標注數據,且無法很好的識別出“不存在對齊”的實體。為了解決這個問題,本文提供了一個面向開放域的無監督對齊框架UEA(非監督實體對齊)。具體做法是,模型首先從圖譜的邊緣信息挖掘出可用特征,然后建立一個“無匹配實體”預測模塊,用于過濾圖譜中“不存在對齊”的實體。過濾得到的初步結果被用做“偽標注數據”,作用于一種漸進式學習框架,生成圖譜的結構表示,這些結構與邊緣信息的結合能夠提供更加全面的對齊視圖。最后漸進式學習框架基于上一迭代的對齊結果生成新的偽標注數據,并不斷增強對齊模型的性能。在不依賴標注數據的情況下,本文模型在DBP15K等常規對齊數據集上取得了較好的結果。
圖2描述了UEA模型的主要流程,首先模型從待對齊的兩個知識圖譜的邊緣信息中抽取有用的特征,這里的邊緣信息主要指實體命名,通過語義級別以及字符串級別的特征信息,作者構建了圖譜中實體之間的距離矩陣:
其中,α是一個平衡權重的超參,Mn表示KG上實體命名的語義距離矩陣,Ml則表示字符串級別的距離矩陣。
通過這一步所獲取的距離矩陣被用于建立“無匹配實體”模塊,用于生成對齊結果,該對齊結果被視作偽對齊用于知識圖譜結構embedding中,從而形成一個迭代過程。
非對齊實體模塊
現有的對齊模型只考慮了如何建立對齊,而忽略了有些實體之間是不可能存在對齊關系的情況,例如類型不同的實體。因此這里作者采用了一個新的策略,如算法1所描述的TBNNS(帶閾值雙向最近鄰搜索),對于一個給定的source實體u,及target實體v,如果u和v相互是最近鄰,那么他們之間的相似性則低于一個給定的閾值θ,(u,v)就為一堆對齊實體組,M(u,v)是度量兩者是否符合閾值的距離矩陣。
漸進學習框架
非匹配實體模塊得到的偽標注被用于學習統一的KG embedding,在這里作者使用GCN用來捕捉實體的鄰居信息。算法2給出了漸進學習模塊對應的算法:
首先使用初始偽對齊學習KG結構embedding,并得到結構距離矩陣Ms,Ms與非匹配模塊中定義的Mt矩陣共同構成精確的對齊距離信號矩陣M。利用M可用生成更多的精準匹配,而后迭代強化自身。
與其他對齊模型一樣,本文的實驗性能在DBP15K的三組語言對上給出,數據的相關統計信息如表1
表2的對比結果來看,該非監督方法在性能上以及接近或超過了許多已有的有監督學習的模型。
接著作者在消融實驗中重點驗證了是否調整閾值,是否在迭代過程中從實體集除去實體的對齊結果等等,結果如表3所展示。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 面向开放域的无监督实体对齐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 会议交流 - CNCC 技术论坛 | N
- 下一篇: 论文浅尝 | 主题驱动的分子图表示对比学