powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...
論文筆記整理:胡楠,東南大學博士。
來源:ISWC 2020
動機
像Wikidata這樣的現代知識圖已經捕獲了數十億個RDF三元組,但是它們仍然缺乏對大多數關系的良好覆蓋。同時在NLP研究的最新進展表明,可以輕松地查詢神經語言模型以獲得相關知識而無需大量的訓練數據。這項論文工作綜合這些進展通過在知識圖譜的頂部創建一個結合BERT的混合查詢應答系統來改善補全查詢結果,將知識圖譜中的有價值的結構和語義信息與語言模型中的文本知識相結合,以達到高精度查詢結果。當前處理不完整知識圖譜的標準技術是(1)需要大量訓練數據的關系提取,或者(2)知識圖譜嵌入,這些知識在簡單的基準數據集之外就難以成功。論文為此提出的混合系統KnowlyBERT僅需要少量的訓練數據,并且在Wikidata上進行實驗,結果表明優于最新技術。
模型
系統概述圖如上所示。作為KnowlyBERT的輸入,用戶可以向系統提出以實體為中心的SPARQL查詢。首先,查詢語言模型(a);然后,對不完整的知識圖譜進行查詢,并獲得結果(b);另外SPARQL查詢被翻譯成多種自然語言語句,這些語言語句在“關系模板生成”步驟中由語言模型完成;語言模型返回多個單詞列表以及每個單詞(c)的置信度值;然后將這些列表合并為一個列表(d),并根據知識圖譜類型信息(e)使用我們的語義過濾步驟進行過濾。此外,執行閾值處理,削減不相關的結果(f);最后,將語言模型和知識圖譜的結果合并(g)并返回給用戶。
關系模板生成
作為查詢語言模型以獲取相關知識的第一步,需要將SPARQL查詢轉換為帶有[MASK]標記的自然語言語句。在這項工作中采用自動生成的句子思想,并在預處理步驟中針對知識圖譜的每個關系自動提取候選句子并對其進行評分,以生成相關句子模板。這樣的模板可以具有以下格式:“[S]出生于[O]”,用于出生地關系,而[S]被查詢的主題實體替換,或[O]被對象替換。生成句子模板不是在查詢時執行,而是一個預處理步驟。
附加上下文段落。通過向查詢語句提供額外的上下文信息,可以進一步提高語言模型的預測質量。對于查詢中的每個實體,文章已經從相應的Wikipedia摘要中提取了前五個句子,并使用BERT的[SEP]令牌將其添加到了生成模板中。與現有工作相比,文章將自動模板生成和上下文段落檢索結合在一起,從而提高了結果質量。
查詢語言模型并組合結果
現在使用多個句子模板以及相應的上下文段落,以從語言模型中獲得對應查詢的可能答案。由于可能的答案實體標簽可能包含多個單詞,因此文章使用單個[MASK]標記構成查詢以返回可能的單個單詞實體,還要使用多個[MASK]標記進行查詢。文中將結果列表中所有可能的單詞組合連接起來,并檢查是否已創建知識圖譜中的有效實體標簽,這一步能夠過濾掉大部分無法映射到任何實體的預測單詞。
匯總來自多個模板的結果。單個查詢的不同句子模板導致每個結果實體具有不同概率值的獨立結果列表。文中首先簡單地合并列表,如果一個實體出現在多個列表中,則選擇最大概率。此外,還比較在多個列表中出現的每個實體的最大概率和最小概率,如果它們的差值超過設定的閾值,則該實體不會進入最終結果列表。
語義類型過濾
大多數知識圖譜為實體提供了非常詳細的類型層次結構,文章將其用于進一步過濾語言模型結果。在語義類型過濾步驟之后,仍然可以得到具有相同實體標簽的多個可能的答案實體,對于此類罕見情況,文中執行了額外的實體消歧步驟,使用流行度過濾器排除了極為罕見的實體。具體為,當實體在整個知識圖中從不出現為對象實體時,將其排除;如果存在多個同音異義詞,則返回最流行的實體作為答案。
閾值設定與結果返回
作為返回結果列表之前的最后一步,文中執行閾值確定過程以確保僅將高質量結果返回給用戶。文中執行了兩種不同的閾值機制,通過預測值之間的統計異常值分析為每個查詢動態選擇第一閾值,如果語言模型未返回正確答案,則動態閾值方法將不起作用。因此還選擇了一個對所有查詢均有效的附加靜態閾值,該閾值是通過對不完整知識圖中已經存在的已知結果的概率求平均,也可以對語言模型結果列表中的已知結果概率求平均值。最后,文中將不完整知識圖譜的結果列表與基于語言模型的管道的結果列表結合在一起,并消除重復項。
實驗
數據集基于2020年2月6日的Wikidata Truthy dump,實驗僅對三元組進行評估,其中主語和賓語是具有rdf : label關系的實體。實驗通過查詢語言模型并刪除不完整的KG中已經存在的答案三元組來分別評估每個查詢,對于其余的其他結果計算精度和召回率值。報告的結果是返回其他結果的所有查詢的平均精度和召回值。
表1概述了KnowlyBERT和兩個基線系統的精度和召回率。最后一行中描述了的總精度和召回率值,KnowlyBERT的平均精度達到47.5%,比其他兩種方法的精度高出30%以上。與關系提取基準(RE)相比,該方法極大地提高了精度,但是與RE基準的17.6%相比,方法的召回率略低,為10.1%。在表2中給出了各種關系比較的實驗結果。
總結
這項工作中提出了一種混合的語言知識模型查詢系統,該系統使用語言模型來應對現實世界中知識圖譜的不完整性問題。該工作不會像以前的工作那樣污染知識圖譜的質量,并且在必要時仍可以幫助提供完整的結果。在現實知識圖譜上的查詢實驗表明,語言模型是減少不完整知識圖譜和完整結果集之間差距的一種很有前途的方法。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的powerbuilder查询符合条件的数据并且过滤掉其他数据_论文浅尝 ISWC2020 | KnowlyBERT: 知识图谱结合语言模型补全图谱查询...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】Linux/ubuntu下apac
- 下一篇: 发送带颜色的MSG