论文浅尝 | 使用预训练深度模型和迁移学习方法的端到端模糊实体匹配
論文筆記整理:高鳳寧,南京大學碩士,研究方向為知識圖譜、實體消解。
鏈接:https://doi.org/10.1145/3308558.3313578
動機
目前實體匹配過程中實體之間的差異比較微妙,不同的情況下可能會有不同的決策結果,導致難以做出精確的匹配決策。另外現存的實體匹配方法在做出決策之前,往往需要大量的訓練數據,而這在許多的應用場景中是難以做到的。
亮點
本文的亮點主要包括:
(1)設計了一種層次化的深度模型,利用了字符級別和單詞級別的信息,來預訓練常見屬性類型的相關模型。
(2)使用了遷移學習的方法,能夠利用預訓練模型并進行微調,使其能夠處理新的屬性類型的實體匹配任務。
?
系統結構
從上圖可以看出,整個的系統分為三個組成部分,分別是Attribute Type Detection Model、Attribute-level EM、Table-level EM &Fine-tuning。其中Attribute-levelEM是整個系統的核心部分。
概念及模型
1.????HI-EM 模型
首先該模型針對字符級別和單詞級別可以進行劃分。在字符級別的層次上,先將輸入的字符進行 embedding,轉化為向量表示。再通過 BiGRU,使得模型能夠學習到字符間的上下文信息。下面通過輸入間的注意力機制,進行對齊工作。然后進行聚合工作,將對齊后的表示形式與 BiGRU 得到的表示形式分別進行作差和乘積,然后進行拼接,得到新的表示形式。最后通過輸入內部的注意力機制,更新當前字符的權重,最后通過將其他輸入對當前字符的影響進行求和,得到單詞級別的表示形式。下面單詞級別層次上的工作與之類似,最后每一個輸入都得到相應的表示形式,然后通過MLP 進行打分,從而進行匹配決策。
?
2.????Type-detection 模型
該模型與HI-EM模型結構相似,但是沒有沿用HI-EM模型,是因為在這兩個任務中,同一個輸入的不同元組的重要程度恰好是完全相反的?;谶@一點考慮,Type-detection模型在結構上進行了變動,并且對最后的MLP層的輸出結果進行了softmax操作,得到分別表征某個輸入屬于某個屬性這件事為True和False的表示形式。
?
3.????Transfer Learning
在屬性類型檢測和屬性級別的實體匹配中,在處理未知的實體類型時都用到了遷移學習的方法。例如,在屬性級別的實體匹配中,對已知的49種屬性類型,每種類型都要單獨訓練一個模型,而對于未知類型的屬性,訓練模型時采用之前的49種屬性類型的訓練集的并集,模型基本沿用HI-EM模型,大體結構不變,只改變了MLP層,并進行微調,最終結果是訓練得到一個模型。
?
4.????Table-level EM 模型
對屬性類型明確的以及未知類型的屬性級別實體匹配模型的最終表示形式進行了拼接,最終通過新的MLP層,并進行微調,即可得到表格級別的實體匹配模型。
實驗
1.?????Type Detection Experiments
(1)?? Entity-value type-detection
?
在40種常見屬性類型中,絕大多數屬性類型上面都有較高的準確率和召回率;在9種添加的地址類型中,盡管測試數據之間的差異較小,模型仍然能夠較好地分辨屬性類型。
?
(2)?? Table-column type-detection
與基于關鍵字的這種很強的baseline方法相比,本文提出的模型在絕大多數屬性類型上面,仍然能夠取得跟前者相近甚至較好的實驗效果。
?
(3)?? Transfer-learning to new types
利用遷移學習方法的模型與從零開始學習的模型相比,前者的學習速度更快,有著更高的準確率和召回率。
?
2.?????Attribute-Level Entity Matching
(1)?? Pre-trained attribute-level EM
從上表中可以得到如下幾點發現:
與其他所有方法相比,HI-EM 的實驗結果是最好的;
HI-EM(Unified) 模型比 DeepMatcher (Unified) 模型的實驗結果要好;
與屬性類型明確的實驗模型相比,unified 類型的模型實驗結果較差。
從上圖可以發現,在準確率和召回率這對指標上面的實驗結果,與MRR上的實驗結果基本一致。
?
(2)?? Transfer-learning to new types
從上表中可以得到如下幾點發現:
在相同的訓練樣本數量下,利用遷移學習訓練的模型比從零開始訓練的模型的實驗效果要好;
訓練數據越少時,兩個模型之間的差異越明顯。
?
從上圖可以發現,在準確率和召回率這對指標上面的實驗結果,與MRR上的實驗結果基本一致。
?
3.?????Table-level Entity Matching
從上表中可以得到如下幾點發現:
利用預訓練模型的實驗效果較好,即使只有少量的訓練數據;
在屬性級別的實體匹配任務中,屬性類型明確的模型是更為準確的;
絕大多數情況中HI-EM模型的實驗效果比 DeepMatcher 和 Magellan 更好。
總結
本文提出了一種利用預訓練模型的端到端的實體匹配系統,在遷移學習的幫助下,證明了表格級別的實體匹配模型可以僅用少量的訓練數據進行訓練。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 使用预训练深度模型和迁移学习方法的端到端模糊实体匹配的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 史上最强Dubbo面试28题答案详解:核
- 下一篇: 论文浅尝 | 基于知识库的自然语言理解