技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
作者:東北大學-知識圖譜研究組??任飛亮
TechKG 是一個面向中文、面向學術、多領域的大型知識圖譜知識庫,知識庫由“東北大學-知識圖譜研究組”開發完成。和已有知識圖譜如 Freebase 或 YAGO 相比,TechKG 具有如下主要特點:
1、是一個大型的中文知識圖譜知識庫。當前,TechKG 共包含大約 5 千萬個實體、以及 2.6 億個三元組。知識規模和 Freebase 及 YAGO 相當。
2、面向科技。TechKG 的數據源為發表在中文各類學術期刊上的科技論文,和 Freebase 或 YAGO 這些通用知識圖譜相比,TechKG 更有側重性。
3、領域劃分完整。當前,TechKG 的數據共分為 38 個研究領域,每個研究領域對應一個學科。據我們所知,TechKG 是當前唯一一個有明確領域分類的大型知識圖譜。
通過在 TechKG 上的數據分析,我們還獲得了如下一些中文知識圖譜所特有的現象。
首先,TechKG 顯示,中文作者姓名重名現象嚴重。我們把作者重名問題分為兩類:領域間重名和領域內重名。如果一個作者名出現在不同的研究領域,則該名字稱為領域間重名。如果一個作者名字出現在同一領域(比如“計算機”領域)的不同研究機構中,則該名字稱為領域內重名。我們的實驗結果顯示,平均每個中文作者名出現在3.97個領域中。我們甚至發現,有167個作者名(如:張林、劉華、汪洋、張磊、王輝、李兵、張健、陳鵬、王欣、李強、王莉、楊輝、王琳、劉杰、王平、張巖、劉超、陳華、楊軍、張志剛等)出現在了所有的領域中。而領域間重名現象則更加復雜,難以精確識別。因為,有時候是同一個作者在不同時間段里處于不同的研究機構,有時候是不同的作者處于不同的研究機構。對于前者,就并不是重名問題,但此時識別難度就要大的多。
其次,領域術語的重名現象嚴重。這里的領域術語重名是指一個領域術語同時出現在多個領域中。而且,我們的實驗結果顯示,類似tf*idf的方法并不能有效地消除領域術語的重名問題。比如,即使是取每個領域中tf*idf為top-10%的術語,平均每個術語仍會出現在大約2.62個領域中。
第三,嚴重的數據分布不均衡現象。在之前的研究中,研究者把知識圖譜中的關系分為4個類型:1-1、1-n、m-1、m-n。我們的統計結果顯示,在TechKG中,這4個關系類型所占的比例極度不均衡。我們統計了在不同的tf*idf領域術語過濾條件下這4類關系類型所占的比例,發現tf*idf的過濾條件基本不會對類型分布產生影響:在各個tf*idf設置下,m-n類型關系所占的比例均起過60%,m-1類型的關系所占的比例均接近20%,1-1類型的關系所占的比例大約在15%左右,而1-n類型的關系則基本可以忽略不計,只有0.01%左右。
我們的初步實驗結果顯示,TechKG的上述特有現象會對下游的一些任務產生重要影響。如在Knowledge graph embedding任務中,實驗結果顯示,不僅重名問題(作者重名及領域術語重名)會對實驗性能產生嚴重的負面結果,關系類型不均衡現象也會極大地影響實驗的最終性能。實際上,TechKG顯示出來的這些特性均為中文中所存在的固有的語言學現象,在Freebase或YAGO這些英文知識圖譜中并沒有體現。而之前因為沒有合適的中文知識圖譜數據集,所以,相應的問題并沒有得到研究者們的注意。現在,TechKG為研究者們提供了一個可以對上面問題進行深入研究的知識圖譜數據集。
基于TechKG,我們還構建了以下幾類知識庫,每類知識庫均分38個領域,每個領域對應一個學科。
TechKG10:從TechKG中抽取的子集,抽取規則如下:1)領域術語的tf*idf在前10%;2)每個實體至少出現在10個三元組中。
TechTerm:一個中文領域術語知識庫,每個領域均由從TechKG中tf*idf最高的術語中隨機選擇的1w條術語組成。
TechBiTerm:一個“中—英”術語對知識庫,每個領域均由從TechKG中選擇的"共現"次數最多的1w個術語翻譯對組成。
TechAbs:一個由論文摘要組成的知識庫,每個領域均由隨機選擇10w個摘要組成。
TechQA:一個問答知識庫,基于TechKG10、采用模板生成。
TechNER:一個基于TechTerm、采用遠程監督方式生成的主要用于進行領域術語識別任務的知識庫,每個領域包含3w個訓練句子。
TechRE:一個基于TechKG10、采用遠程監督方式生成的主要用于關系抽取任務的知識庫,每個領域由隨機選擇的20w個訓練bags組成,每個bag平均包含6個句子。
?
利用TechKG以及上面的幾個知識庫,研究者們不僅可以開展知識圖譜方向相關的研究(如知識圖譜embedding、關系抽取、命名實體識別等),還可以進行如:KBQA、機器翻譯、文本分類等多項相關任務的研究。
?
讀者可通過以下網站下載TechKG以及相關的幾類知識庫: www.techkg.cn。也可以通過論文 ”TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph” 來了解 TechKG 的詳細特性(論文下載地址:https://arxiv.org/abs/1812.06722)。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的技术动态 | TechKG:一个面向中文学术领域的大型知识图谱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 领域应用 | OMAHA联盟发布“疾病临
- 下一篇: 图谱实战 | 知识图谱构建的一站式平台g