连载 | 知识图谱发展报告 2018 -- 前言
OpenKG 將開始連載《知識圖譜發展報告(2018)》,希望該連載能夠讓更多的人深入了解知識圖譜。歡迎各位讀者留言討論。
1. 知識圖譜的研究目標與意義
知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力。知識圖譜給互聯網語義搜索帶來了活力,同時也在智能問答中顯示出強大威力,已經成為互聯網知識驅動的智能應用的基礎設施。知識圖譜與大數據和深度學習一起,成為推動互聯網和人工智能發展的核心驅動力之一。
知識圖譜技術是指知識圖譜建立和應用的技術,是融合認知計算、知識表示與推理、信息檢索與抽取、自然語言處理與語義 Web、數據挖掘與機器學習等方向的交叉研究。知識圖譜于 2012 年由谷歌提出并成功應用于搜索引擎,知識圖譜屬于人工智能重要研究領域——知識工程的研究范疇,是利用知識工程建立大規模知識資源的一個殺手锏應用。94 年圖靈獎獲得者、知識工程的建立者費根鮑姆給出的知識工程定義——將知識集成到計算機系統從而完成只有特定領域專家才能完成的復雜任務。在大數據時代,知識工程是從大數據中自動或半自動獲取知識,建立基于知識的系統,以提供互聯網智能知識服務。大數據對智能服務的需求,已經從單純的搜集獲取信息,轉變為自動化的知識服務。我們需要利用知識工程為大數據添加語義/知識,使數據產生智慧(smart data),完成從數據到信息到知識,最終到智能應用的轉變過程,從而實現對大數據的洞察、提供用戶關心問題的答案、為決策提供支持、改進用戶體驗等目標。知識圖譜在下面應用中已經凸顯出越來越重要的應用價值:
知識融合:當前互聯網大數據具有分布異構的特點,通過知識圖譜可以對這些數據資源進行語義標注和鏈接,建立以知識為中心的資源語義集成服務;
語義搜索和推薦:知識圖譜可以將用戶搜索輸入的關鍵詞,映射為知識圖譜中客觀世界的概念和實體,搜索結果直接顯示出滿足用戶需求的結構化信息內容,而不是互聯網網頁;
問答和對話系統:基于知識的問答系統將知識圖譜看成一個大規模知識庫,通過理解將用戶的問題轉化為對知識圖譜的查詢,直接得到用戶關心問題的答案;
大數據分析與決策:知識圖譜通過語義鏈接可以幫助理解大數據,獲得對大數據的洞察,提供決策支持。 ?
2. 知識工程的發展歷程
知識圖譜的發展是人工智能重要分支知識工程在大數據環境中的成功應用?;仡欀R工程四十年來發展歷程,總結知識工程的演進過程和技術進展,體會知識工程為人工智能所做出的貢獻和未來面臨的挑戰,可以將知識工程分成五個標志性的階段,前知識工程時期、專家系統時期、萬維網 1.0 時期,群體智能時期以及知識圖譜時期。
1950-1970 時期:圖靈測試
1970-1990 時期:專家系統
通用問題求解強調利用人的求解問題的能力建立智能系統,而忽略了知識對智能的支持,使人工智能難以在實際應用中發揮作用。70 年開始,人工智能開始轉向建立基于知識的系統,通過知識庫+推理機實現智能,這一時期涌現出很多成功的限定領域專家系統,如 MYCIN 醫療診斷專家系統、識別分子結構的DENRAL 專家系統以及計算機故障診斷 XCON 專家系統等。94 年圖靈獎獲得者Feigenbaum 教授在 70 年代提出知識工程的定義,確立了知識工程在人工智能中的核心地位。這一時期知識表示方法有新的演進,包括框架和腳本等。80 年代后 II 期出現很多專家系統的開發平臺,可以幫助將專家的領域知識轉變成計算機可以處理的知識。
1990-2000 時期:萬維網 Web 1.0
在 1990 年代到 2000 年,出現了很多人工構建大規模知識庫,包括廣泛應用的英文 WordNet, 采用一階謂詞邏輯知識表示的 Cyc 常識知識庫,以及中文的Hownet。Web1.0 萬維網的產生為人們提供了一個開放平臺,使用 HTML 定義文本的內容,通過超鏈接把文本連接起來,使得大眾可以共享信息。W3C 提出的可擴展標記語言 XML,實現對互聯網文檔內容的結構通過定義標簽進行標記,為互聯網環境下大規模知識表示和共享奠定了基礎。這一時期還提出了本體的知識表示方法。
2000-2006 時期:群體智能 Web 2.0
Web1.0 萬維網的出現使得知識從封閉知識走向開放知識,從集中知識成為分布知識。原來專家系統是系統內部定義的知識,現在可以實現知識源之間相互鏈接,可以通過關聯來產生更多的知識而非完全由固定人生產。這個過程中出現了群體智能,最典型的代表就是維基百科,實際上是用戶去建立知識,體現了互聯網大眾用戶對知識的貢獻,成為今天大規模結構化知識圖譜的重要基礎。也是在 2001 年,萬維網發明人、2016 年圖靈獎獲得者 Tim Berners-Lee 提出語義 Web的概念,旨在對互聯網內容進行結構化語義表示,并提出互聯網上語義標識語言RDF(資源描述框架)和 OWL(萬維網本體表述語言),利用本體描述互聯網內容的語義結構,通過對網頁進行語義標識得到網頁語義信息,從而獲得網頁內容的語義信息,使人和機器能夠更好地協同工作。
2006 年至今:知識圖譜
“知識就是力量”,將萬維網內容轉化為能夠為智能應用提供動力的機器可理解和計算的知識是這一時期的目標。從 2006 年開始,大規模維基百科類富結構知識資源的出現和網絡規模信息提取方法的進步,使得大規模知識獲取方法取得了巨大進展。與 Cyc、WordNet 和 HowNet 等手工研制的知識庫和本體的開創性項目不同,這一時期知識獲取是自動化的,并且在網絡規模下運行。當前自動構建的知識庫已成為語義搜索、大數據分析、智能推薦和數據集成的強大資產,在大型行業和領域中正在得到廣泛使用。典型的例子是谷歌收購 Freebase 后在2012 年推出的知識圖譜(Knowledge ?Graph),Facebook 的圖譜搜索,Microsoft Satori 以及商業、金融、生命科學等領域特定的知識庫。
最具代表性大規模網絡知識獲取的工作包括 DBpedia,Freebase,KnowItAll,WikiTaxonomy 和 YAGO,以及 BabelNet,ConceptNet,DeepDive, ?NELL,Probase,Wikidata,XLore,Zhishi.me ?等。這些知識圖譜遵循 RDF 數據模型,包含數以千 III 萬級或者億級規模的實體,以及數十億或百億事實(即屬性值和與其他實體的關系),并且這些實體被組織在成千上萬的由語義類體現的客觀世界的概念結構中。 現在我們看知識圖譜的發展和應用狀況,除了通用的大規模知識圖譜,各行業也在建立行業和領域的知識圖譜,當前知識圖譜的應用包括語義搜索、問答系統與聊天、大數據語義分析以及智能知識服務等,在智能客服、商業智能等真實場景體現出廣泛的應用價值,而更多知識圖譜的創新應用還有待開發。
3. 知識圖譜技術
人們通過概念掌握對客觀世界的理解,概念是對客觀世界事物的抽象,是將人們對世界認知聯系在一起的紐帶。知識圖譜以結構化的形式描述客觀世界中概念、實體及其關系。實體是客觀世界中的事物,概念是對具有相同屬性的事物的概括和抽象。本體是知識圖譜的知識表示基礎,可以形式化表示為,O={C,H,P,A,I},C 為概念集合,如事物性概念和事件類概念,H 是概念的上下位關系集合,也稱為 Taxonomy 知識,P 是屬性集合,描述概念所具有的特征,A 是規則集合,描述領域規則,I 是實例集合,用來描述實例-屬性-值。Google ?于 2012年提出知識圖譜,并在語義搜索中取得成功應用。知識圖譜可以看做是本體知識表示的一個大規模應用,Google 知識圖譜的知識表示結構主要描述客觀存在實體和實體的關系,對于每個概念都有確定的描述這個概念的屬性集合。
知識圖譜技術是知識圖譜建立和應用的技術,是語義 Web、自然語言處理和機器學習等的交叉學科。我們將知識圖譜技術分為三個部分 : 知識圖譜構建技術、知識圖譜查詢和推理技術,以及知識圖譜應用。在大數據環境下,從互聯網開放環境的大數據中獲得知識,用這些知識提供智能服務互聯網/行業,同時通過互聯網可以獲得更多的知識。這是一個迭代的相互增強過程,可以實現從互聯網信息服務到智能知識服務的躍遷。
3.1 ?知識圖譜構建
知識表示與建模
知識表示將現實世界中的各類知識表達成計算機可存儲和計算的結構。機器必須要掌握大量的知識,特別是常識知識才能實現真正類人的智能。從有人工智能的歷史開始,就有了知識表示的研究。知識圖譜的知識表示以結構化的形式描述客觀世界中概念、實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式,為理解互聯網內容提供了基礎支撐。
知識表示學習
隨著以深度學習為代表的表示學習的發展,面向知識圖譜中實體和關系的表示學習也取得了重要的進展。知識表示學習將實體和關系表示為稠密的低維向量, IV 實現了對實體和關系的分布式表示,可以高效地對實體和關系進行計算,、緩解知識稀疏、有助于實現知識融合,已經成為知識圖譜語義鏈接預測和知識補全的重要方法。由于知識表示學習能夠顯著提升計算效率,有效緩解數據稀疏,實現異質信息融合,因此對于知識庫的構建、推理和應用具有重要意義,值得廣受關注、深入研究。
實體識別與鏈接
實體是客觀世界的事物,是構成知識圖譜的基本單位(這里實體指個體或者實例)。實體分為限定類別的實體(如常用的人名、地名、組織機構等)以及開放類別實體(如藥物名稱、疾病等名稱)。實體識別是識別文本中指定類別的實體。實體鏈接是識別出文本中提及實體的詞或者短語(稱為實體提及),并與知識庫中對應實體進行鏈接。
實體識別與鏈接是知識圖譜構建、知識補全與知識應用的核心技術。實體識別技術可以檢測文本中的新實體,并將其加入到現有知識庫中。實體鏈接技術通過發現現有實體在文本中的不同出現,可以針對性的發現關于特定實體的新知識。實體識別與鏈接的研究將為計算機類人推理和自然語言理解提供知識基礎。
實體關系學習
實體關系描述客觀存在的事物之間的關聯關系,定義為兩個或多個實體之間的某種聯系,實體關系學習就是自動從文本中檢測和識別出實體之間具有的某種語義關系,也稱為關系抽取。實體關系抽取分類預定義關系抽取和開放關系抽取。預定義關系抽取是指系統所抽取的關系是預先定義好的,比如知識圖譜中定義好的關系類別,如上下位關系、國家—首都關系等。開放式關系抽取。開放式關系抽取不預先定義抽取的關系類別,由系統自動從文本中發現并抽取關系。實體關系識別是知識圖譜自動構建和自然語言理解的基礎。
事件知識學習
事件是促使事物狀態和關系改變的條件,是動態的、結構化的知識。目前已存在的知識資源(如谷歌知識圖譜)所描述多是實體以及實體之間的關系,缺乏對事件知識的描述。針對不同領域的不同應用,事件有不同的描述范疇。一種將事件定義為發生在某個特定的時間點或時間段、某個特定的地域范圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變。一種將事件認為是細化了的主題,是由某些原因、條件引起,發生在特定時間、地點,涉及某些對象,并可能伴隨某些必然結果的事情。事件知識學習,即將非結構化文本文本中自然語言所表達的事件以結構化的形式呈現,對于知識表示、理解、計算和應用意義重大。
知識圖譜中的事件知識隱含互聯網資源中,包括已有的結構化的語義知識、 V 數據庫的結構化信息、半結構化的信息資源以及非結構化資源,不同性質的資源有不同的知識獲取方法。
3.2 ?知識圖譜查詢和推理計算
知識存儲和查詢
知識圖譜以圖(Graph)的方式來展現實體、事件及其之間的關系。知識圖譜存儲和查詢研究如何設計有效的存儲模式支持對大規模圖數據的有效管理,實現對知識圖譜中知識高效查詢。因為知識圖譜的結構是復雜的圖結構,給知識圖譜的存儲和查詢帶來了挑戰。當前目前知識圖譜多以三元存在的 RDF 形式進行存儲管理,對知識圖譜的查詢支持 SPARQL 查詢。
知識推理
知識推理從給定的知識圖譜推導出新的實體跟實體之間的關系。知識圖譜推理可以分為基于符號的推理和基于統計的推理。在人工智能的研究中,基于符號的推理一般是基于經典邏輯(一階謂詞邏輯或者命題邏輯)或者經典邏輯的變異(比如說缺省邏輯)。基于符號的推理可以從一個已有的知識圖譜推理出新的實體間關系,可用于建立新知識或者對知識圖譜進行邏輯的沖突檢測?;诮y計的方法一般指關系機器學習方法,即通過統計規律從知識圖譜中學習到新的實體間關系。知識推理在知識計算中具有重要作用,如知識分類、知識校驗、知識鏈接預測與知識補全等。
3.3 ?知識圖譜應用
通用和領域知識圖譜
知識圖譜分為通用知識圖譜與領域知識圖譜兩類,兩類圖譜本質相同,其區別主要體現在覆蓋范圍與使用方式上。通用知識圖譜可以形象地看成一個面向通用領域的結構化的百科知識庫,其中包含了大量的現實世界中的常識性知識,覆蓋面廣。領域知識圖譜又叫行業知識圖譜或垂直知識圖譜,通常面向某一特定領域,可看成是一個基于語義技術的行業知識庫,因其基于行業數據構建,有著嚴格而豐富的數據模式,所以對該領域知識的深度、知識準確性有著更高的要求。
語義集成
語義集成的目標就是將不同知識圖譜融合為一個統一、一致、簡潔的形式,為使用不同知識圖譜的應用程序間的交互提供語義互操作性。常用技術方法包括本體匹配(也稱為本體 ?映射)、實例匹配(也稱為實體對齊、對象共指消解)以及知識融合等。語義集成是知識圖譜研究中的一個核心問題,對于鏈接數據和知識融合至關重要。語義集成研究對于提升基于知識圖譜的信息服務水平和智能化程度, VI 推動語義網以及人工智能、數據庫、自然語言處理等相關領域的研究發展,具有重要的理論價值和廣泛的應用前景,可以創造巨大的社會和經濟效益。
語義搜索
知識圖譜是對客觀世界認識的形式化表示,將字符串映射為客觀事件的事務(實體、事件以及之間的關系)。當前基于關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基于實體和關系的檢索,稱之為語義搜索。語義搜索利用知識圖譜可以準確地捕捉用戶搜索意圖,借助于知識圖譜,直接給出滿足用戶搜索意圖的答案,而不是包含關鍵詞的相關網頁的鏈接。
基于知識的問答
問答系統(Question Answering, ?QA)是指讓計算機自動回答用戶所提出的問題,是信息服務的一種高級形式。不同于現有的搜索引擎,問答系統返回用戶的不再是基于關鍵詞匹配的相關文檔排序,而是精準的自然語言形式的答案。華盛頓大學圖靈中心主任 ?Etzioni ?教授 ?2011 ?年曾在 ?Nature ?上發表文章《Search Needs a ?Shake-Up》,其中明確指出:“以直接而準確的方式回答用戶自然語言提問的自動問答系統將構成下一代搜索引擎的基本形態”[Etzioni O., 2011]。因此,問答系統被看做是未來信息服務的顛覆性技術之一,被認為是機器具備語言理解能力的主要驗證手段之一。
4. ?報告的宗旨和組織結構
中國中文信息學會語言與知識計算專委會旨在為學術界和工業界提供在知識圖譜、語義計算和語言理解等方面的產學研用的交流平臺,提升語言與知識計算學術方向在國家科學研究和國際學術方面的影響力,促進研究成果應用和向產品的轉化。
《知識圖譜發展報告》是語言與知識計算專委會邀請知識圖譜技術領域專家對本學科方向和前沿技術的一次梳理,并在今后定期更新最新進展。我們的定位是深度科普,旨在向政府、企業、媒體等對知識圖譜感興趣的研究機構和企業界介紹相關領域的基本概念、研究和應用方向,向高校、科研院所和高技術企業中從事相關工作的專業人士介紹相關領域的前沿技術和發展趨勢。
為此根據知識圖譜技術研究內容,我們邀請各個方向的學者撰寫了各個方向的報告:
前言:李涓子(清華大學)、趙軍(中國科學院自動化研究所)
知識表示與建模:陳華鈞(浙江大學)
知識表示學習:劉知遠、林衍凱(清華大學)
實體識別與鏈接:韓先培、孫樂(中國科學院軟件研究所)
實體關系學習:陳玉博(中國科學院自動化研究所)
事件知識學習:侯磊、許斌(清華大學)、胡琳梅(北京郵電大學)
知識存儲和查詢:鄒磊(北京大學)、彭鵬(湖南大學)
知識推理:漆桂林(東南大學)、王泉(中國科學院信息工程研究所)、季秋(南京郵電大學)
通用與領域知識圖譜:王昊奮(上海樂言科技)、丁軍(上海海乂知信息科技有限公司),張偉(阿里巴巴網絡技術有限公司)
語義集成:胡偉(南京大學)
語義搜索:秦兵、劉銘(哈爾濱工業大學)
基于知識的問答:劉康、何世柱(中國科學院自動化研究所)
最后由韓先培(中國科學院軟件研究所)、劉康(中國科學院自動化研究所)、侯磊(清華大學)等對初稿反饋意見,校對統一成文。
由于時間倉促,難免有疏漏,甚至錯誤的地方,僅供有志于語言與知識計算研究和知識圖譜研究和開發的同仁參考,激發更廣泛的思考和討論,期待在我們的共同努力下知識圖譜以及語義計算技術能夠取得更輝煌的成績! ?
中國中文信息學會
語言與知識計算專委會
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的连载 | 知识图谱发展报告 2018 -- 前言的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PDFMiner:python 读取
- 下一篇: 将二维列表输出到excel