技术动态 | 事理图谱,下一代知识图谱
本文轉載自公眾號:DataHorizon。
人工智能與認知智能
當前人工智能時代下,機器與人類之間的博弈一直在進行著。如圖1所示,從1926年達特茅斯會議的召開標志人工智能誕生到深度學習模型在若干人工智能領域大規模應用的如今,人工智能已經走過近60年的時間。人工智能的發展先后經歷了兩次黃金期以及兩次低谷。1957年第一款神經網絡的發明點燃了第一次人工智能的高潮,而隨后在20世紀70年代,受限于當時的運算資源,并不能完成大規模的數據訓練,人工智能一度陷入低谷,直到1982年德普摩爾神經網絡的提出以及BP算法的出現使得大規模神經網絡訓練成為可能后,人工智能才逐漸緩過神來,并提出了全面實現人工智能計算機的目標,掀起了第二個黃金時期。但直到21世紀初,人工智能計算機并未實現以及政府的撤資,又一次將人工智能拉入低谷。隨后,在2006年深度學習神經網絡取得突破性進展,一直到2015年深度學習算法在語音和視覺識別上取得的成功,再次引領了以深度學習為主流的人工智能時代第三個黃金期。
圖1
人工智能起起落落,但人工智能進步的步伐從未停歇。從人工智能的發展階段來看,人工智能先后經歷了從計算智能到感知智能再到認知智能的三個發展階段。在計算智能時代,以神經網絡、遺傳算法為代表的學習算法,讓機器能夠幫助人類存儲和快速處理海量數據,使得機器開始像人類一樣“能說會算”。感知智能時代,機器能夠開始看懂和聽懂,并采取一些行動和聽懂語音的音箱,幫助人類高效地完成看和聽的相關工作。認知智能時代,是人工智能的終極目標,即機器能夠像人一樣思考,并采取行動,如完全獨立駕駛的無人駕駛汽車、自主行動的機器人等,完成全面輔助或替代人類的工作。隨著數據、模型、計算能力的全面提升,計算智能和感知智能已經初步實現,而真正實現機器的認知智能依然面臨著諸多挑戰。
認知智能與知識圖譜
認知智能的核心在于機器的辨識、思考以及主動學習。其中,辨識指能夠基于掌握的知識進行識別、判斷、感知,思考強調機器能夠運用知識進行推理和決策,主動學習突出機器進行知識運用和學習的自動化和自主化。這三個方面概括起來,就是強大的知識庫、強大的知識計算能力以及計算資源。
知識存在于我們的大腦當中,我們在從事社會活動的過程中,實際上是對知識的獲取和使用過程。就知識庫言,大致兩類知識,一類是常識知識庫(commonsense knowledgebase),另一類是百科類知識庫(cyclopedia knowledgebase)。常識知識庫包括人類認知系統中的概念、語言規則知識庫,如現在的wordnet ,mindnet ,Framenet, Probase等,另一類百科知識庫,則描述了現實生活中的事實知識(fact)。如Freebase , YAGO , DBpedia等。
以描述實體與實體、實體與屬性值為形式化表示的知識圖譜目前已是大家耳熟能詳的一個概念,而何謂知識圖譜?我們可以從幾個方面來看,從AI的視角來看,知識圖譜是一種理解人類語言的知識庫,從數據庫視角來看,知識圖譜是一種新型的知識存儲結構;從知識表示視角來看,知識圖譜是計算機理解知識的一種方法;從web視角來看,知識圖譜是知識數據之間的一種語義互聯。從最初的邏輯語義網(semantic-net)、到語義網絡(semantic-web)再到Linked-data,在到現在的大規模應用的知識圖譜,已經前前后后經歷了將近50年的時間。而知識圖譜真正作為一個突出熱點走進大家眼球的,還是在2012年以收購freebase作為后臺知識圖譜的google,以簡潔答案、知識卡片的方式顛覆傳統文檔搜索形式的橫空出世,從這個時間算起,也就7年的時間,所以知識圖譜既是年老又是年輕的。
知識圖譜,是實現認知智能的知識庫,是武裝認知智能機器人的大腦,這是知識圖譜與認知智能的最本質聯系,知識圖譜,與以深度神經網絡為代表的連接主義不同,作為符號主義,從一開始提出就注定了要從知識表示、知識描述、知識計算與推理上不斷前行。目前知識圖譜在諸如問答、金融、教育、銀行、旅游、司法等領域中取得了大規模的運用。基于知識圖譜的智能問答、在抓捕本拉登時斬獲戰功的Palantir、戰勝人類的IBM深藍機器人、顛覆傳統網頁搜索模式的谷歌知識圖譜等等,都顯示出了知識圖譜的強大生命力。目前,我們以金融領域和全行業領域為試點,開展了相關對研發工作,構建起了全行業11個主流產業鏈知識圖譜,主要包括246個行業、上萬個商品品種的行業知識圖譜和涵蓋A股的上市公司金融知識圖譜。
? 1、全行業產業鏈知識圖譜
?????? 產業鏈知識圖譜,目標是構建起全行的上下行業圖譜,行業之間的上下游關系,行業中個大元素之間的關系,例如行業下產品、公司之間的關聯等等。為了保證產業鏈中數據的準確性,我們通過行業研究員人工定義本體,耗時半年時間,構建起了全行業11個主流產業鏈知識圖譜,主要包括246個行業、上萬個商品品種,幾千家上市公司,共計幾百萬條關系邊的產業鏈知識圖譜,如下圖2所示:
圖2
2、上市公司金融知識圖譜
??? 公司金融領域研究的核心對象,公司作為金融中的重要角色,構建起公司知識全景圖譜對于進一步知識整合、公司監測、公司運營等具有顯著作用。我們以A股上市公司為基本數據來源和研究對象,構建起涵蓋公司、行業、板塊、人物、原料、產品等共17類實體,并購、競爭、供應、投資等共16類實體關系,規模達百萬級的A股上市公司知識圖譜,如下圖3所示:
圖3
從知識圖譜到事理圖譜
從知識圖譜的本質上來說,是以傳統本體概念為基礎進行知識組織的,而在知識處理領域,這種傳統本體概念依然存在著一些局限性,傳統本體對于概念的描述著重對其靜態特征的描述,缺乏對動態特征的描述,經典的“網球”問題就是典型的例子。實際上,許多哲學家認為世界是物質和運動的,物質和運動的世界是由事物和事件組成,物質是相對靜態的知識形式,反映了客觀世界中事物存在的規律。然而,人類的命題記憶是以“事件”為存儲單位的,存儲的是組成事件的概念及其之間的關系以及事件及其之間的關系。以事件作為知識的基本單元更能反映客觀世界的知識,特別是知識的動態性,從認知心理學的角度來看,事件更符合人類的理解與思維習慣。人類主要是以“事件”為單位進行記憶和理解現實世界的,事件關系到多方面的概念,是比概念粒度更大的知識單元。傳統本體所使用的概念模型難以反映事件這一更高層次和更復雜的語義信息,模型缺少了更高層次的結構。
從知識刻畫上來說,知識圖譜的局限主要體現在兩個方面:一是對人類知識的刻畫上上不具備動態屬性。知識圖譜中所刻畫和描述的知識是靜態的非黑即白的一種確定性事實,而現實人類社會當中,知識是動態變化的,知識本身會因為外部條件的變化而失真。另一個是知識圖譜在應用上的一種局限性,知識圖譜只能回答什么是什么的問題,對包括基于已知知識推斷未知知識,對已知知識進行正確性校驗的知識推理,從根本上來說也沒有跳出“靜態”這一屬性。在諸如“怎么了”,“接下來會怎么樣?”,“為什么”,“怎么做”等問題上,知識圖譜顯得有些乏力。
?
事實上,目前關于這方面的知識需求應用場景有很多,如金融投資領域有捕捉外部事件、根據事件的邏輯關系進行推理、推演和預測的需求,例如“智利發生地震會對哪些商品標的造成何種影響?”,情報輿情領域有預測事件后續影響的需求、尋找事件發生原因的需求,如“目標市場區域內棉花采購量突然增多、可能的原因有哪些?”。客服及咨詢領域有正確定義、刻畫客戶服務過程中的狀態變化,以提高服務精準化的需求,如“客戶購買了此產品,如果中途贖回,哪些產品適合再次推薦給客戶?”等等。
?
傳統知識圖譜中的知識是靜態的,描述的是實體以及實體之間的關系,這些關系是相對確定和靜態的知識,這個可以作為強大的知識庫讓機器人“才高八斗,學富五車”。但如何使這“八斗才”和“五車學”給“弄活”,讓機器學會知識的運用,真正學會思考。那么就需要給這個知識再加上知識的“把玩規則”,形象的來說,就是一套邏輯規則。
圖4
?舉例來說,如圖4所示,我們在思考的過程當中,腦海里經常會比如“為什么”,“按以往的經驗”、“八成會”、“據我分析”、“這個應該是”、“怎么可能”等詞,這些詞很形象的表現表示出了我們思考的過程,我們將思考的過程,定義為運用“事理”的過程,所謂“事理”,就是“事情”的道理,是思考的那條路徑,這個“事情”就是我們所需要的事件。對于事理,我們可以有多種理解,事理是一套經驗總結,是一套對知識的規則,是一套邏輯推理的方法論,是對特定環境下知識在時空域上的展開。圖5展示了知識、事件、實體、事理之間的關系,事件高于實體,實體是事件的組成部分,事件是事理的重要組成部分,事理和實體共同組成了知識。
圖5
目前,“事理圖譜”還是較新的概念,國內多家公司和科研機構都在“事理圖譜”的相關研究上進行了探索,如哈爾濱工業大學信息檢索實驗室劉挺老師團隊首先提出了“事理圖譜”這一概念,并做了一些實驗和基礎性的工作[1][2][3];中科院自動化所趙軍老師團隊,上海大學劉宗田老師團隊分別在事件抽取[4]和事件本體表示[5]上取得了豐碩的成果。
與知識圖譜的組織形式相仿,實體通過頭尾相連,可以組織形成圖譜狀的知識圖譜,事理采用類似的組織方式,可以形成事理圖譜。知識圖譜與事理圖譜兩者之間存在著諸多異同之處,我們在參考前人的工作上,結合自己的研究工作,從描述知識、研究對象、構建目標、知識形式等共10個方面進行了總結,如圖6所示:
圖6
知識圖譜描述知識是萬物實體,所研究的對象是名詞性實體及其屬性、關系。事理圖譜所要描繪的是一個邏輯社會,研究對象是謂詞性事件及其內外聯系。兩者都是有向圖的組織性質,在知識的確定性上,知識圖譜中的知識是以事實三元組為存儲型的、確定的,知識狀態相對靜態,變化緩慢,但精度要求極高,實時性要求極高。事理圖譜中的知識時一個包含事件、論元集合、邏輯關系等的多元組,知識邏輯是不確定的,存在一種轉移概率。在應用上,知識圖譜可以完成when / who/ what/ where等常識問題。事理圖譜可以回答Why/How等動態問題。傳統概念之間的分類關系即上下文關系不同,事件與事件之間除了上下位等分類關系外,還存在非分類關系,包括組成關系、因果關系、并發關系、條件關系、排斥關系等,這些關系一起對現實動態知識種的邏輯知識進行了描述。圖7主要列舉了事理邏輯的幾種類型主要包括因果事理、條件事理、反轉事理、順承事理、順承事理、上下位事理、組成事理、并發事理共七類事理:
圖7
因果事理描述的是認知體系中的一種前因后果聯系,前面一個事件會導致后面一事件的發生;條件事理描述的是認知體系中的一種條件結果關系,是一種預設與結果邏輯;反轉事理往往描述的是認知體系中的一種互斥邏輯,是一種真假值邏輯;順承事理描述的認知體系中的一種時間上的偏序關系,是一種先后動作邏輯;組成事理,刻畫的是事件之間整體與部分的邏輯;上下位事理,描述的是事件在分類體系中一種邏輯;并發事理,描述的是事件在時間上的一種共生關系,指一個事件發生下另一個事件一定發生;
事理圖譜的構建
目前關于事理圖譜的構建方式上,主要包括領域專家手動構建以及基于海量文本自動化獲取兩種方法。前者準確率高但構建成本較大,且規模難以快速增長;后者所見即所得,構建成本較低,規模可快速擴充,能夠迅速挖掘出海量邏輯,但缺點是精確度受多方面因素影響,準確率較前者要低。事實上,目前事理邏輯廣泛存在于海量文本當中,當我們打開百度或者谷歌搜索引擎,輸入“導致”或者“lead to”這一詞時,會返回多個包含因果事理的結果,如圖8所示。此外,問答社區等資源也為基于海量文本自動化獲取事理邏輯提供了可能。
圖8
事理邏輯的挖掘,可以分成基于顯式因果邏輯的挖掘和隱式因果邏輯的邏輯兩種。前者通過人工設定因果模式可以獲取大量的因果事件對,例如對于句子“受范冰冰陰陽合同事件牽連,唐德影視、華誼兄弟開盤大跌”,可以結構化出<范冰冰陰陽合同事件,導致,唐德影視、華誼兄弟開盤大跌>這樣的因果事件對。通過對原因事件和結果事件進行進一步解析,我們可以得到原因事件的關聯主體是人物,即影視明星“范冰冰”,事件的動作是“陰陽合同”,結果事件中關聯的主體是兩家傳媒上市公司,華德影視和華誼兄弟,事件的動作是股價大跌。結合上下文,可進一步明確事件發生的時間信息,為2018年6月4日。對這樣的事件對,可進一步抽象泛化成一種邏輯規則,即影視明星“陰陽合同->傳媒公司股價下跌”這樣一條因果模式鏈。更進一步,通過對動作本身的情感極性進行泛化,我們可以發現,“陰陽合同”屬于負面消息,股價下跌這一事件屬于負面影響,因此,可以進一步泛化成“明星負面消息->公司利空”這條更為抽象的因果模式鏈。這樣,通過大量的顯示模式對事理邏輯進行結構化,對不同來源的事理知識進行融合并層層抽象,可以得到大規模不同層級的事理邏輯,借助知識圖譜首尾相接的方式,我們對構建好的一條條事理邏輯進行鏈接,就形成了一個圖譜形式的事理邏輯脈絡,即事理圖譜。
說到事理圖譜,就不得不說事件表示。事件表示是事理圖譜中的重要問題之一,目前學界和業界正在尋求一種盡可能靈活、簡單的方式去表示事件。在事件表示上,有上海大學劉宗田老師團隊提出的“事件六要素本體模型”[5],即將事件建模成e = { A,O,T,V,P,L}的表示形式, 其中: A?為動作要素; O?為對象要素; T?為時間要素; V?為環境要素; P?為斷言要素; L?為語言表現。?而這種表示方式無法直接用于圖譜節點表示,更可能成為一種事件描述信息隱藏于圖譜事件節點背后。我們在實際的工作當中,嘗試了幾種事件表示方式,如含義、舉例、優缺點如圖9所示:
圖9
當前人工智能時代下,機器與人類之間的博弈一直在進行著。如圖1所示,從1926年達特茅斯會議的召開標志人工智能誕生到深度學習模型在若干人工智能領域大規模應用的如今,人工智能已經走過近60年的時間。人工智能的發展先后經歷了兩次黃金期以及兩次低谷。1957年第一款神經網絡的發明點燃了第一次人工智能的高潮,而隨后在20世紀70年代,受限于當時的運算資源,并不能完成大規模的數據訓練,人工智能一度陷入低谷,直到1982年德普摩爾神經網絡的提出以及BP算法的出現使得大規模神經網絡訓練成為可能后,人工智能才逐漸緩過神來,并提出了全面實現人工智能計算機的目標,掀起了第二個黃金時期。但直到21世紀初,人工智能計算機并未實現以及政府的撤資,又一次將人工智能拉入低谷。隨后,在2006年深度學習神經網絡取得突破性進展,一直到2015年深度學習算法在語音和視覺識別上取得的成功,再次引領了以深度學習為主流的人工智能時代第三個黃金期。
我們從漢語句法學和語義學的角度出發,全面梳理了上千條事件邏輯關系顯示表達模式,構建起了兩千萬領域新聞資訊庫,運用事件抽取、事件對齊、事件融合以及泛化技術,形成了規模約400萬的事理圖譜,并實現了事理圖譜的動態更新。接下來,我們分別介紹在順承事理圖譜和因果事理圖譜上的一些成果:
圖10分別是部分“出行”和“烹飪”兩個順承子圖譜。從中我們看到,圍繞著“去麗江”這一事件所產生的順承邏輯,如“拿#身份證”->“去#售票口”-> “去#買票”->“遇上#旺季”->“去#麗江”這一順承邏輯,“去#麗江”-> “預訂#客棧”->“看過#攻略”->“結合#眼光”->“沒有#價值”->“擦亮#眼睛”這一順承邏輯結構。“去#莊園”->“去#竹林”->“挖#冬筍”->“切成#塊”->“配上#鳊魚”-> “勻以#薯粉”->“成#棒狀”->“入#油鍋”->“炸成#小塊”這一順承事件鏈形象地描述了“烹飪”這一事件的時序關系。這種順承事理邏輯在揭示敘述性與步驟型事務的刻畫上是一種很好的形式。
圖10
以下分別是以“銀行降準”和“智利地震”事件為核心所關聯的因果事理邏輯鏈,今年10月07日,央行宣布銀行降準,這勢必會造成多骨諾米牌效應,如圖11中所示:
圖11
銀行降準會導致保險股高開、銀行股持續走強,銀行股持續走強先后帶來銀行板塊集體拉升、板塊個股出現普漲狀態等結果。在“智利地震”這一事件因果事理圖譜中,我們可以看到受波及的一些列后續事件,如高檔魚粉價格上浮、早盤稀土板塊高開、國際紙漿價格大幅上漲等事件,這些事件又進一步傳導,最終導致之家集體反彈、北京生活用紙普遍提價、滬鋁價格波動區間上移等結果。這些因果邏輯在普通人看來,并不能立刻想到,相反的,只有具有專業背景的人員才能有這種邏輯推導思維。如此看來,事理圖譜對于這類專業的邏輯鏈條可以進行良好的組織和刻畫。
事理圖譜和知識圖譜的融合
如上面所介紹到的事理圖譜中是以事件為單位一種邏輯鏈路,而實體識事件的一個重組成部分,通過實體識別和實體鏈接技術可以將事件中的實體鏈接到相應的實體知識庫當中。如圖12所示:“范冰冰陰陽合同違法”這一事件當中,人物“范冰冰”可以鏈接到包含“范冰冰”這個人物的人物關系圖譜,如搜狗人物關系圖譜,導致光線傳媒、華誼嘉信、華誼兄弟等傳媒公司的股價下跌這一事件中,光線傳媒、華誼嘉信以及華誼兄弟這些公司類實體,實體可以進一步連接到以公司為實體的公司金融知識圖譜,該圖譜中包含了公司的主營產品、所屬板塊、競爭對手等各方面的信息,圖13顯示了融合后的狀態。
圖12
圖12顯示了事理圖譜和知識圖譜融合后的狀態(部分),通過因果關系事件,將事件中的實體進行關聯,結合實體之間的關聯,可以進一步進行拓展,查詢,從而實現整體圖譜的聯動。
圖13
除公司知識圖譜與事理圖譜的融合之外,我們在產業鏈知識圖譜和事理圖譜融合的工作上進行了嘗試,如圖14所示展示了“澳大利亞鋅礦執行復產計劃事件”的融合效果子圖(部分),從“澳大利亞鋅礦執行復產計劃事件”緩解相關鉛產量恢復等事件出發,可以將事件與“鉛”商品這一商品、有色產業鏈等行業板塊類實體與行業相鏈接,進一步找到相應的商品、個股等信息,通過這種鏈接和融合,可以進一步對事件進行知識信息的擴展,形成從事理到知識概念的通路。
圖14
事理圖譜的應用探討
事理圖譜有多種應用場景,我們在實踐過程中,主要總結出了以下5種應用形式:
1、基于事理圖譜的知識問答。由于后臺有以事件和靜態知識為核心的事理邏輯,可以在完成“when”,“who”,“what”,“where”等常識問題的同時,進一步回答“how”以及“why”的問題,這種問答的形式既可以是可視化搜索式,也可以是問答形式,如圖15所示:
圖15
?當用戶輸入“特朗普和金正恩又罵戰了會怎么樣?”這一問句后,系統能夠給出直接的回答“這很有可能會是的美國朝鮮局勢更為緊張,朝鮮局勢緊張可能會帶來全球股市走低、避險情緒升溫、金價上漲等一系列影響”。通過對該回答,再配以可視化因果邏輯鏈的展示方式,可以進一步為這一回答提供佐證。
2、基于事理圖譜的消費意圖識別。本文在前面說到,順承事理圖譜對具有時序特征的敘述性事件能夠很好的刻畫,它描繪了敘述性事件的整個階段。而我們正好可以利用這種階段性的特征,完成消費推薦的任務。如圖16所示:
圖16
例如,當用戶發出“麗江是個好地方,我想去看看”的狀態時,通過分析該用戶的消費意圖,將消費意圖識別為一個出行事件時,通過游走以“麗江出行”這一個順承圖譜可以推出多種消費行為。例如“出機場、看到接待點”這個子事件可以推出“機票預訂與推薦”與“接送機”服務;“預訂#客棧”這一子事件可以引出“酒店預訂”服務,“買臥鋪票”這一子事件可引出“火車票預訂”這項需求。全局的來看,整個出行圖譜可以作為一個整體的出行指南提供給用戶,充當用戶規劃的“探路者”與“規劃師”。
?
3、基于事理圖譜的重要新聞判別與推薦。大數據時代下,海量新聞在網絡上快速傳播,新聞個性化推薦以及重要新聞篩選成為了新聞檢索中的兩個重要任務。目前的推薦算法主要基于協同過濾、基于內容推薦和混合推薦方法,這幾種方法從本質上來說都是對內容與用戶進行建模并進行相似性計算得到的一種結果。事理圖譜的出現,提供了一種重要性判別方式和新聞推薦方式。“歷史總是相似的,重要的事情總是周而復始的出現”,在這一假設下,通過對新聞文本進行事件提取,并結合背后的事理圖譜,根據事件后續產生影響的重要性可以為整個新聞進行重要性評分,并給出該新聞事件所蘊含的已有事件和未來事件信息。通過這種方式對新聞資訊進行建模和篩選,并結合用戶興趣模型,可以完成重要新聞的判別和推薦,如圖17所示:
圖17
4、基于事理圖譜的知識管理
知識圖譜的本質上是一種以實體、實體屬性、實體與實體/屬性之間關系形成的一個知識庫。而由于知識圖譜中的知識是動態變化的,尤其在多源知識融合、知識對齊當中,為了保證知識的準確性、實時性,通常需要進行知識管理和編輯,這種操作可以類似成數據庫的增、刪、改、查操作,圖18是我們開發的一個知識圖譜編輯和管理工具,該工具可以支持對知識圖譜中知識數據的CRUD操作。當然,這種知識更新的方式是人工自動發現并進行編輯,本質上來說,并沒有實現知識圖譜中數據的全自動更新。
圖18
與知識圖譜不同,事理圖譜這一以事件為實體節點,并融入靜態實體的知識組織方式將靜態的知識和動態的邏輯規則(前面說到的多種事件關系)形緊密相連,形成一個強大的邏輯鏈路網絡,使得事理圖譜天生具備了知識更新指導能力。將事理圖譜與實際的業務邏輯系統相結合,并不斷賦予事理更全面、更精細的邏輯體系,能夠在一方面對根據外界事件知識的變化而對已有靜態知識進行及時動態更新,如銀行客服系統中的會話流程控制、互斥業務控制,用戶郵儲狀態的更新等,這將提升銀行客戶系統的體驗和智能水平。舉一個實際的例子:銀行業務中知識圖譜中有一條知識數據,即用戶同時辦理了業務A和業務B,而實際上,辦理業務A和辦理業務B兩者之間存在一種互斥關系,那么則可以通過兩個業務辦理的先后順序,更新用戶的業務知識信息,將辦理業務B這條知識進行移除。類似的例子還有很多。
?
5、基于事理圖譜的推理與輔助決策
知識推理是知識圖譜的終極目標,基于過去已知知識進行知識推理,采用如事件驅動傳導路徑等進行知識發現,能夠在業務的推理和輔助決策上也能帶來一定幫助,如智能投研中的未知風險預警、公司輿論控制等,如圖19展示了我們目前開發形成的事件驅動工具,通過人工自定義構造傳導鏈,進行既定模式檢索,可以完成對既定知識邏輯路線的發現與探索。
圖19
以上圖中描述的“尋跡”模式進行邏輯鏈條傳導的方式不同,基于事理圖譜的事件傳導中的邏輯聯系更為接近于人腦中的真實邏輯鏈條。前者傳導的路徑存在著一個基本型的假設,即知識與知識之間的屬性或關系通過人工方式強制地進行映射和編制,其中有個十分明顯的缺陷就是傳導邊上的邏輯概率量化問題。
?
“事理圖譜”的出現,則從事件狀態的邏輯轉移上為這種推理機制提供了一個新的方向。如圖20所示的demo所示,用戶輸入一個事件點擊提交之后,運用事件規范化和事件相似性計算等方法,我們會在后臺400萬個事理圖譜找到一個與用戶輸入事件最為相似的一個事件,以該事件為核心會返回多條相似事件所造成的影響事件。針對影響事件,我們運用事件重要性判定技術和事件實體鏈接技術對影響事件進行過濾,使得造成的事件中一定是某種商品或者公司的類似事件,這種方式能夠就用戶給定的事件,給出一個最為直接了當的標的結果。圖20中展示了以“螺紋鋼價格上漲”為核心的因果邏輯傳導推理鏈條,在經過不斷進行鏈條的推理擴展之后,步步推理至各類實體事件后最終產生的結果圖。從一度推理的“螺紋鋼價格上漲”導致廢鋼庫存小幅減少,到小麥期貨小幅收低等多層推理結果等,能夠在一定程度上描繪出整個邏輯鏈條的傳導機制。
圖20
當然,基于因果事理圖譜的邏輯影響推理仍然存在著諸多不足,比如多層邏輯推理上的效應傳導量化與誤差傳播問題,事件對齊與泛化問題,這些對事理邏輯的準確性都有著較大的影響,這都是后續努力攻克的方向。
事理圖譜的未來和挑戰
知識圖譜從提出至今,經過技術的更新和體系的逐步完善,已經在各方面得到了一定規模的運用,但在描述動態現實社會知識和認知智能思考上還存在一定不足,如何解決以上兩個問題,賦予知識圖譜更大的力量,將是未來知識圖譜努力的方向。就知識而言,靜態的知識需要一個上層的知識運用邏輯體系,一個知識邏輯體系需要底層強大的知識庫作為有效承載,事理圖譜,作為一個新的知識組織、表示和管理方式,是認知智能的一個重要突破口。事理圖譜是知識圖譜“動起來”的神經,知識圖譜是事理圖譜運行的血肉載體,描述知識邏輯架構的事理圖譜與刻畫靜態概念知識內容的知識圖譜攜手并進將是未來的一個趨勢。
事理圖譜是一個龐大的課題,未來還有很長的路要走,如何找到一種靈活的事件表示方式,事理的執行、預測和推演機制,構造出一種知識的自我更新和生長方式,最終實現機器知識的自我更新和生長,將是未來漫漫長路中需要攻克的難題。得益于前人在事理圖譜上的一系列非常有啟發性的探索工作,我們在知識圖譜、事理圖譜上的應用場景、技術理論、技術實現上做了一些基礎性的推進工作,未來,我們將進一步細化事理關系,完善事理圖譜各方面的技術體系,深化事理圖譜的構建以及在場景中的應用,愿同各位一道,在通往認知智能的道路上,努力前行!
?
我們將實現動態更新的400萬事理圖譜與商品產業鏈圖譜、上市公司金融圖譜進行融合,并運用事件標準化、實體鏈接、融合以及事件重要性判定等技術對事理邏輯進行約束,研制上線了商品金融領域事理圖譜Demo,Demo地址:http://39.106.1.94:8080? (請復制鏈接到PC瀏覽器中打開),歡迎體驗并提出寶貴意見。
參考文獻
[1]中科院趙軍,《開放域事件抽取》, https://www.leiphone.com/news/201807/2QQZ2aRIZNHFODBY.html
[2]哈工大信息檢索實驗室,《事理圖譜:事件演化的規律和模式》, http://blog.sina.com.cn/s/blog_72d083c70102y3jv.html
[3]哈工大信息檢索實驗室,《抽象因果事理圖譜的構建和應用》, http://www.sohu.com/a/137802985_657157
[4]哈工大信息檢索實驗室,《從知識圖譜到事理圖譜》,https://www.leiphone.com/news/201711/Fx6Mgs9WRPBshnIG.html
[5]劉宗田等,《面向事件的本體研究》[J],計算機科學,2009, vol.36
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的技术动态 | 事理图谱,下一代知识图谱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 研讨会 | CCF TF 第 17 期:
- 下一篇: 刚参加完阿里Java P6面试归来,6点