运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成
? ? ? ? 目前,事理圖譜在描述領域事件時空信息上具有獨特性,這種邏輯圖結構能夠以一種直觀的方式向我們展現出一個領域知識的鏈路信息。從學術的角度上來說,事理圖譜與事件抽取、事件關系抽取、腳本學習、事件鏈生成、篇章句間關系識別、圖譜圖結構運算等多個研究方向關系密切,具有很強的理論和技術挑戰以及研究價值;與學界不同,工業界則更多地考慮事理圖譜的落地實現,即解決抽象技術理論與實際業務場景之間的結合問題。我們目前在事理圖譜中積累了一些經驗,并積累形成了400W規模的全行業事理圖譜,實現了從領域事理到領域知識圖譜(公司知識圖譜、產業鏈知識圖譜)的通路,并在此基礎上,不斷尋求應用場景,下面是我們目前已經或正在嘗試的應用點,供大家一起討論。
一、基于金融事理圖譜的新聞預警
? ? ? ? 事件預警是目前我們使用事理圖譜的應用嘗試,事件預警是一個面向商品領域的重要資訊預警產品。我們通過監控上千家全行業網站,實時采集相關資訊,通過抽取識別資訊中的事件,將事件與事理圖譜中的事件進行鏈接,結合情感分析技術、文本標簽技術、文本重要性判定技術對具有影響力的資訊進行過濾,最終為用戶實現自定義標地的預警資訊篩選以及基于該預警資訊的影響尋跡探索。
圖1
如下圖1所示,對于采集到的資訊,我們會對其進行判定,給出該資訊所能造成的影響,為了能夠對最終結果給出影響的原因解釋,我們給出了該影響所遵循的事理圖譜鏈條,如頁面的右側所示的事理圖譜縮略圖。在點擊事理圖譜縮略圖后,可進入詳情頁
圖2
如圖2所示,頁面給出資訊全文,影響事件事理圖譜(可支持全屏點擊拓展查看),在頁面的右側,我們列舉了與當前資訊具有事件影響相關的歷史資訊,類似于kensho的做法,通過這種方式,我們嘗試將歷史事件影響應用于當前的資訊推薦與風險預警當中。事件預警是其中的一個應用例子,此外我們還正在開展事理圖譜在其他領域的嘗試,如文本理解可視化系統等,歡迎持續關注我們的工作。
二、基于事理抽取技術的文本可視化
? ? ? ? 文本可視化技術是自然語言處理技術在信息抽取領域與信息領域中的一項重要技術,涉及文本分析、數據挖掘、數據可視化、計算機圖形學、人際交互等理論方法,通過該技術,可以進一步將人從大段文本中解放出來,從而更好的理解復雜的文本內容、結構以及內在規律,目前文本可視化的方法[1]主要包括基于此品的可視化(標簽云);以網絡圖、后綴樹、鏈路圖等表示方法來展示文本內在關系;利用網絡圖等反映文本間的飲用等外在關系。將事理圖譜和文本可視化技術進行融合,可以提供一種新型的文本可視在這里插入圖片描述化方法。
? ? ? ? 接下來,我們對比兩種可視化的方法。一種是對文本進行關鍵詞提取、命名實體識別(人名、地名、機構名)進行事件識別,形成的知識網絡,這種網絡化展示方式能夠借助知識實體、實體所屬的知識類型、實體之間的歸屬關系對文章進行一種結構化的信息展示,如圖3所示。
另一種是通過提取文章中的實體性事件,抽取事件之間的關系,并以此形成事件鏈的形式,這種形式與前一種方式相比,更具有邏輯性和時空屬性,如圖4所示。
四、基于出行事理的路徑規劃與推薦
? ? ? ? 事理圖譜本身所刻畫的是一種具有時空屬性的關系型知識,而在我們現實生活當中,具有時空屬性(包括先后順序,空間的先后順序)的例子有許多。
圖5
根據火車網huoche.net中有所有車次的信息顯示,其中T字頭的有564趟,D字頭有3712趟,C字頭1538趟,G字頭3011趟,K字頭2968趟,Z字頭354趟,L字頭418趟,Y字頭55趟,S字頭30趟。 這些火車在既定的路線上行駛,形成一個龐大的有向環圖,而如果對這個有向環圖的關系邊進行標注,我們可以形成一個以火車站點為節點的火車出行事理圖譜,基于這個事理圖譜,我們可以進行多種有意義的探索。基于一個地點,我們通過這張圖譜,可以知道在理論時間之后另一個地點上可能觸發的動作,如酒店、換乘等,這利于我們進行路徑規劃和推薦。
圖6
實際上,火車票,汽車票,飛機票,城市信息等在網絡上也較為全面,這些都為出行領域應用場景提供了數據基礎。目前,我在出行領域知識圖譜中將對該想法進行嘗試。參見:https://github.com/liuhuanyong/TravelKnowledgeGraph。
五、基于事理圖譜模型的歷時事件流生成
? ? ? ? 目前快訊在當前的流媒體中使用較多,是事件流的一種形式,快訊形式主要包括文章首句、文章摘要、基于特定模版生成的文本等。其中,文章首句這種方式是對篇章部分的截取,文章摘要通常基于textrank等方法找出文章中最重要的句子返回;基于特定模版的方式接近于基于元數據的句式生成,這通常需要人工事先進行編輯。事理圖譜為快訊的生成提供了另一種可能,通過對領域新聞報道(主要指記敘文)進行事理建模,如體育新聞中的比賽流程、地震報道中的地震->救援->重建等流程等。基于領域事理模型,將能夠更好地進行事件流。
? ? ? ? 歷時事件流,基于歷時語料,可以對特定實體的事件線進行抽取,形成以實體entity為核心的歷時事件流,這個歷時事件是特定時間內與該實體相關的重要事件,有點類似于維基百科中的人物大事記,如下圖7所示。
圖7
維基百科中的大事記這種展示方式存在兩個主要不足:一是展示的粒度太大,還可以進一步進行細化處理;而是人工編輯方式,不夠自動化。因此,使用事理抽取技術,在大規模的歷時語料庫中進行抽取,可以實現許多有趣的應用,對于英文來說,可以使用紐約時報,紐約時報從1851年創刊至今有兩百多年的歷時語料庫;對于中文來說,有人民日報語料,從1953年至今共60余年的語料;主流網絡新聞媒體如騰訊新聞有從2006年至今共12年的歷時語料,這些語料都為我們進行歷時事件抽取、事理抽取等提供了基礎,如圖8、圖9分別展示了第一次和第二次世界大戰的一個事件流。
圖8
基于該技術,我們可以形成一個歷史事件流知識庫,基于該事件流知識庫,可以支持百科知識補全、人物事件檢索及問答等服務。
圖9
總結
? ? ? ? 事理圖譜,本身是個學術概念和學術熱點,其中所涉及到的自身技術細節以及關聯學科方向決定了這個研究問題本身的困難性,在實際的研究過程中會發現諸如事件表示方式、事件關系識別、領域事件演化模型建模等多方面的技術難題,正如目前的知識圖譜一樣,我們必須承認這一點。而如何結合應用,來對事理圖譜進行檢驗,進一步倒逼技術的進步,或許是一個出路,本文主要為了解決這一問題,介紹了我們目前正在嘗試的應用場景,包括新聞預警、文本可視化、事件監測、摘要生成、歷史事件流生成等幾個應用場景,供大家討論,歡迎各位批評指正。如有合作等方面的需求,可歡迎與我們聯系,一起推動事理圖譜相關技術的進步以及在實際應用場景中的運用。
參考文獻:
[1]唐家渝, 劉知遠, 孫茂松. 文本可視化研究綜述[J]. 計算機輔助設計與圖形學學報, 2013, 25(3): 273-285.
[2]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjN2IPJ9vbfAhXIybwKHf5yBLoQjB16BAgBEAQ&url=https%3A%2F%2Fwww.tigermoon.co.uk%2Fproducts%2Fworld-war-1-timeline&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
[3]https://www.google.com.hk/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&ved=2ahUKEwjbkJjN_PbfAhVS5rwKHeVwBmUQjhx6BAgBEAM&url=http%3A%2F%2Fwww.creativoeducation.co.uk%2Fworld-war-two-timeline-wall-panel%2F&psig=AOvVaw144Z89c9OiN_4wvuhlj6ZM&ust=1547886971350928
文章為原創,如有轉載,請注明出處。
作者簡介:
劉煥勇,中國科學院軟件研究所,主要從事信息抽取、社會計算、知識圖譜與事理圖譜相關研發工作。如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系作者:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com
總結
以上是生活随笔為你收集整理的运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: Pytorch 实现 MLP