论文浅尝 | 基于置信度的知识图谱表示学习框架
本文轉載自公眾號:PaperWeekly。
作者丨謝若冰
單位丨騰訊微信搜索應用部
研究方向丨知識表示學習
知識圖譜被廣泛地用來描述世界上的實體和實體之間的關系,一般使用三元組(h,r,t)(head entity, relation, trail entity)的形式來存儲知識,其中蘊含的知識數量巨大且時常更新。
目前,人工標注已經不能滿足知識圖譜更新和增長的速度,但自動化構建知識圖譜的過程中往往容易引入一些噪聲和沖突。
由于大多數傳統知識表示學習(Knowledge, Representation Learning, KRL)方法都假設現有知識圖譜中的知識是完全正確的,因此會帶來潛在誤差。
于是,如何從帶有噪聲或沖突的知識圖譜中學習到更好的知識表示向量,同時又能夠發現已有知識圖譜中可能存在的錯誤,就成為了亟需解決的問題。?
來自清華大學/騰訊的謝若冰研究員,清華大學的劉知遠老師,騰訊的林芬研究員和林樂宇研究員,在即將發表于 AAAI 2018 的論文《Does William Shakespeare REALLY Write Hamlet? Knowledge Representation Learning with Confidence》中,提出了一種新的基于置信度的知識表示學習框架(confidence-aware KRL framework,CKRL),能夠發現知識圖譜中潛在的噪聲或沖突,同時更好地從中學習知識表示。
作者在 CKRL 模型中主要參考了 TransE 的思路,使用了平移假設(translation-based assumption),并增加了三元組置信度(triple confidence)的概念。整體能量方程如下:
其中,基于平移假設,有:
對于 triple confidence,作者設計了三種模式,分別是 Local Triple Confidence,Prior Path Confidence 以及 Adaptive Path Confidence,基于平移假設,使用三元組的實體、關系,以及實體之間的路徑的向量信息,綜合對三元組的置信度進行動態調整與學習。
具體地,對于使用 path 的置信度,作者假設如果 (h,r,t) 中 h,t 有越多包含較多信息流的路徑,并且這些路徑的向量表示與 r 越相似,那么 (h,r,t) 三元組的置信度越高。
整個訓練過程中,知識表示和三元組的置信度在能量函數指導下相互影響并動態優化,最終得到考慮置信度的知識表示,并能基于此知識表示完成知識表示學習和知識圖譜噪聲探測等任務。
在學習的過程中,作者使用了 margin-base score function 進行學習,希望正例得分能夠高于負例得分。需要注意的是,由于作者使用的是三元組的向量信息,所以三元組的置信度會在訓練過程中發生動態變化。
低置信度的三元組在學習中會相應收到打壓,最終使得帶有噪聲的知識圖譜中的知識表示向量能夠學得更好,同時減少噪聲和錯誤帶來的影響。
CKRL 模型在 noise detection、knowledge graph completion 和 triple classificaiton 三個任務上都取得了較好的結果,同時該模型的思想還可以直接擴展至知識構建環節中,在自動構建方法情境下,幫助建立更加精準的知識圖譜。
作者的話
本文是作者在清華大學碩士期間以及在騰訊微信搜索應用部期間完成的工作,在知識表示學習框架中引入了基于結構信息的置信度的概念,能夠同時提升知識表示學習和知識圖譜噪聲探測的效果。
作者之前的多篇工作致力于融合多源信息提升知識表示性能,但在知識驅動的實際任務中也存在很多諸如噪聲等現實問題。本次工作即是在知識圖譜置信度上的一次初步探索,相關思路也可以引入知識構建等知識工程其它環節。
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看論文 & 源代碼
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于置信度的知识图谱表示学习框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 递归」与「动态规划
- 下一篇: 论文浅尝 | 打通推荐系统与知识图谱: