浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式
事理圖譜,不是簡單的事件識別和事件關(guān)系識別以及事件三元組存儲,是一個需要健全事件體系牽引、具有領(lǐng)域收斂特性、在構(gòu)建上需要人機(jī)協(xié)同,在應(yīng)用上擁有多種輔助范式形成的系統(tǒng)體系工程。–劉煥勇,于中科院軟件所,20191012
事理圖譜,不是簡單的事件識別和事件關(guān)系識別以及事件三元組存儲,是一個需要健全事件體系牽引、具有領(lǐng)域收斂特性、在構(gòu)建上需要人機(jī)協(xié)同,在應(yīng)用上擁有多種輔助范式形成的系統(tǒng)體系工程。
一、知識圖譜的認(rèn)識
1.1、教材中的知識圖譜認(rèn)識
知識圖譜是什么,有太多的理解,在工作過程中遇到一些朋友的需求,很多都是憑著對知識圖譜那張可視化的圖的記憶來看說,能夠幫他們做知識圖譜,這難免暴露出現(xiàn)在行業(yè)創(chuàng)新的急躁。
當(dāng)然,對于知識圖譜是什么,教材是最好的例子,目前先后有高教社趙軍老師團(tuán)隊的知識圖譜,電子工業(yè)出版社肖仰華老師的知識圖譜概念,也有陳華鈞老師的知識圖譜構(gòu)建實戰(zhàn)。第一本教材很偏學(xué)術(shù)理論,從知識工程的角度上來說的知識圖譜,作者都是做實體關(guān)系抽取、事件抽取等總結(jié)的經(jīng)驗;第二本教材很偏抽象的概念,給人一種滿滿的準(zhǔn)則感覺,第三本教材則是偏向于語義網(wǎng)的角度上來說的知識圖譜,離實際應(yīng)用還有些距離。
1.2、實際工作中的知識圖譜認(rèn)識
實際上,圖譜,這個圈子很小。以圖譜方式進(jìn)行知識單元節(jié)點形成的相關(guān)工作,都被有意無意地歸類成知識圖譜,形成了廣義而粗淺認(rèn)識的知識圖譜(外行知識圖譜),狹義而精細(xì)的知識圖譜(內(nèi)行知識圖譜)。而隨著大家對知識圖譜認(rèn)識的加深,就像一個月餅里原先包的是豆沙餡兒的換成蛋黃餡兒的,本質(zhì)上沒有太大的差別,這里的本質(zhì),在這里,更多的是圖譜的架構(gòu)問題。
二、從知識圖譜到事理圖譜的認(rèn)識
2.1、認(rèn)知智能與知識圖譜
知識圖譜是認(rèn)知智能的語義基石,基于知識圖譜中所存儲的知識,機(jī)器可以像人一樣去進(jìn)行知識應(yīng)用,知識推理筆記看過很多博文的人都會有這種的認(rèn)同感,這沒有什么問題。認(rèn)知,是人類相較于其他動物最大的區(qū)別,在我看來,認(rèn)知能力主要包括概括能力和類推能力兩種,概括能力是能夠基于大量既定事實總結(jié)經(jīng)驗規(guī)律模式,并形成具有一定層級的模式思維能力。類推能力,更像是概括能力的反向用力以及應(yīng)用,即常說的思考或舉一反三。因此,既然認(rèn)定知識圖譜是認(rèn)知的基礎(chǔ),那勢必需要滿足這兩種基礎(chǔ),即概括基礎(chǔ)和類推基礎(chǔ)。
概括基礎(chǔ)形式化體現(xiàn)出來,是具有概括性的能力,以概括抽象性的能力以及抽象概念性知識庫作為輸出。說到這個,又要說到人的認(rèn)知體系問題,人類的認(rèn)知體系是以名詞性實體為核心還是以動詞性事件為核心的,不同的核心決定了不同的概括需求。事實上,作為一個由社會活動驅(qū)動的人類,是動詞性事件為核心的,動詞性事件支配名詞性實體,因此概括性能力應(yīng)該包括名詞性能力和動詞性能力。但即便是如此,人類在顯式的表達(dá)自己的知識時,還是以選擇名詞性實體進(jìn)行表達(dá),是因為名詞性實體比事件更為細(xì)粒度,也更為穩(wěn)定,也是好習(xí)得,好操作,即先知道what is what再知道do what 。
2.2、名詞性實體知識圖譜與動詞性事件類圖譜
名詞性能力這方面代表性的工作有大詞林、wordnet,這兩個是我認(rèn)為真正意義上做到這點的工作,一個是抽象,二是分層,沒有進(jìn)行分層的概念性是零散的(一堆高度稀疏的isa),這方面的工作包括cnprobase,以及conceptgraph。但是,對于這種概括性知識圖譜而言,還是基本上集中在名詞性實體上,究其原因,一是因為好建模(可以利用實體鏈接,背后有百科類實體作為支撐,好操作),二是因為數(shù)據(jù)的可獲得性,有大量認(rèn)為預(yù)定好的層級(目錄樹,網(wǎng)頁導(dǎo)航,黃頁)等。當(dāng)然,在這個方面,各大電商,醫(yī)療,工業(yè),領(lǐng)域等積累了大量的材料,如阿里商品等,基于商品的挖掘,可以快速搭建一個面向商品消費的層級性實體概括性知識庫。
動作性的概括性圖譜目前還相對空白。與名詞概括性圖譜不一樣,名詞性的概括性可以用is-a表達(dá),而動詞性概括圖譜更多的是一種part-of關(guān)系,事件具有組成性的特征。相關(guān)的工作更多的是集中在事件的邏輯性的挖掘上(因果邏輯,條件邏輯,上下位邏輯)。有必要說明的是,其中的上下位(包括基于名詞性實體的上下位以及基于動詞性實體的上下位)是這種概括性圖譜中的一部分。比如結(jié)婚這個動作,包括領(lǐng)證、辦喜酒、發(fā)請?zhí)葞讉€組成性事件。前者所描述的是一種諸如貨幣貶值下的美元貶值、人民幣貶值、日元貶值。一種在形式上有交集,可以找到規(guī)則,另一種沒有形式規(guī)則可言。所以,前者的挖掘難度要比后者簡單地多,而意義上后者則要強得多。
2.3、事件類圖譜:向上概括的抽象事理與向下泛化的領(lǐng)域事件拓?fù)?br /> 同一個事件知識,如果只關(guān)注單個事件集合之間的關(guān)系(上下位,組成、因果、時序),那么就會走向具有三層結(jié)構(gòu)的事件類知識庫(抽象事理圖譜),這類圖譜的特點是只考慮事件名以及事件名個體經(jīng)過加工、抽象、模式規(guī)約后形成的體系關(guān)系,而不考慮具體的事件富信息。其中的三層結(jié)構(gòu),第一層是事件頂層,也可稱為事件類型,用最頂層的事件類型名稱對下沿事件進(jìn)行統(tǒng)籌。第二層,是事件抽象模式層,也叫事件類簇代表,統(tǒng)籌基于該事件模式下存在不同表述的事件個體。第三層,是事件事例層,屬于具體的事件名稱(如巴西發(fā)生大火)。
與漫步的抽象事理圖譜不同,它考慮的更為周全,且體現(xiàn)在領(lǐng)域性上。周全,即在滿足事件名的基礎(chǔ)上,能夠以事件槽的方式挖掘事件的不同側(cè)面信息,例如殺人事件中的時間、被害人、犯罪嫌疑人、地點等。領(lǐng)域性,即該事件領(lǐng)域的刻畫,領(lǐng)域的事件具有領(lǐng)域的屬性特征,具有領(lǐng)域的槽位側(cè)面,用于描述領(lǐng)域性的事件信息。當(dāng)然,這種領(lǐng)域性包括通用領(lǐng)域和垂直領(lǐng)域(金融、社會治理等),領(lǐng)域的槽位數(shù)量和角度都各不相同。領(lǐng)域事件圖譜借助這種信息的復(fù)雜性,能夠支持更多方位的信息檢索、分析和追蹤服務(wù)。但往往會因為包袱過重,無法大規(guī)模施展開來。這種包袱體現(xiàn)在槽位的定義,事件的定義上,通用的槽位數(shù)量太少(如SEM設(shè)計的事件本體)不足以體現(xiàn)領(lǐng)域特性和功效,領(lǐng)域的槽位(如ACE實在有限,framenet略多實則有限)需要精心設(shè)計,不具有擴(kuò)展性,工程周期長。
漫步與包袱互助,事件快跑。抽象事理圖譜甩掉了包袱,在抽象概括性知識上深耕,事件類圖譜在實例事件上小步慢行。兩者分別從向上和向向下兩個角度在做(腦補亞里斯多德與阿基米德的畫面)。兩者融合是一個大方向(或許早已有之,但沒有大規(guī)模工程化,技術(shù)手段需要深思考)能夠樹立起整個事件知識基石。抽象事理圖譜的技術(shù)難點和核心在于“抽象”二字,把握抽象粒度,動態(tài)變通事件體系,在此基礎(chǔ)上再進(jìn)行平級邏輯挖掘,終極目標(biāo)在于抽象能力的自主習(xí)得和體系的自我構(gòu)建、更新與完善。領(lǐng)域事件類圖譜核心和難點在于“領(lǐng)域”兩個字,自動梳理和劃分領(lǐng)域事件類別,自我習(xí)得既定類別的具體槽位,突破人工手動,解放業(yè)務(wù)專家。兩類圖譜,以事件名或者事件實例作為中間鍵進(jìn)行連接。
三、事理圖譜的應(yīng)用認(rèn)知
3.1基于事理圖譜的可解釋性推薦
基于事理圖譜的可解釋性推薦,是沿襲知識圖譜可解釋推薦的應(yīng)用特性來說的。事理圖譜中包括豐富的事件邏輯關(guān)系,包括縱向方向上的上下位、組成關(guān)系,橫向方向上的因果、時序關(guān)系,也包括事件豐富的槽位信息(不同的側(cè)面),這都為可解釋性推薦提供了數(shù)據(jù)基礎(chǔ)。
從應(yīng)用形式上看,包括基于上下位關(guān)系進(jìn)行推薦,例如根據(jù)貨幣貶值,推薦美元貶值、人民幣貶值等;基于組成關(guān)系進(jìn)行推薦,例如根據(jù)結(jié)婚這一事件場景,推薦訂婚、領(lǐng)證、買婚紗、買戒指等;基于因果、條件等預(yù)設(shè)性邏輯關(guān)系進(jìn)行推薦,例如根據(jù)暴雨,推薦受災(zāi)、抗洪等;基于時序性關(guān)系進(jìn)行推薦,例如根據(jù)買票這一事件,推薦刷身份證、坐車等;基于關(guān)聯(lián)實體知識圖譜的實體推薦,例如根據(jù)范冰冰偷稅漏稅,推薦關(guān)聯(lián)的股票如唐德影視等;基于事件屬性槽面值的相關(guān)性推薦。例如,地震這一事件,可以推薦地震級別高于5級的地震,震源深度小于20km的地震等。
從實現(xiàn)技術(shù)上來看,可解釋性推薦包括基于事理圖譜的可解釋推薦應(yīng)用需要用到事件識鏈接、推薦算法。其中:事件識別指識別出給定文本中的事件片段或事件名稱,事件鏈接指將識別出來的事件在整個事件庫中找到唯一的鏈接事件。事件識別可以借助事件名匹配與切分的方法,也可以借助序列標(biāo)注的方式進(jìn)行事件名的識別,也可以結(jié)合依存句法等特征相結(jié)合的方式完成事件識別。在事件鏈接上,可以采用實體鏈接的方式進(jìn)行鏈接,通常可以表現(xiàn)為借助上下文表征或者詞干化的事件相似度計算方法。事件推薦技術(shù)指的是可以根據(jù)事件子圖匹配進(jìn)行推薦,也可以對事件進(jìn)行建模進(jìn)行匹配。另外,推薦也可以通過內(nèi)置的推理路徑規(guī)則進(jìn)行推理指導(dǎo),給出相應(yīng)結(jié)果。
3.2基于事理圖譜的問答系統(tǒng)
基于事理圖譜的問答與基于知識圖譜的問答類似,目的是以用戶一問一答的方式完成對特定知識的獲取,例如特定任務(wù)的辦公流程詢問,圍繞特定實體展開的相關(guān)事件獲取,獲取特定事件的前序和后續(xù)事件的獲取,基于問答者輸入特定事件的標(biāo)的物影響獲取等服務(wù)。
從技術(shù)實現(xiàn)上來看,基于事理圖譜的問答系統(tǒng)包括事件識別鏈接、事件操作意圖的識別、問答查詢轉(zhuǎn)換與生成三個重要技術(shù)。事件識別鏈接指的在用戶的自然問句中進(jìn)行事件所指(even mention)的識別,并鏈接到已有的事理圖譜當(dāng)中;事件操作意圖的識別指的是識別出用戶自然問句中希望完成的事件相關(guān)操作,即事件的邏輯關(guān)系、事件的關(guān)聯(lián)屬性等;問答查詢轉(zhuǎn)換與生成,指的是將解析生成的事件及目標(biāo)操作意圖轉(zhuǎn)換成可供圖譜查詢的語句并執(zhí)行查詢返回結(jié)果。事件識別鏈接是其中的一個難點,用戶的自然問句形式可以多種多樣,同一個問句中也很有可能包括多個事件,需要準(zhǔn)確地識別出事件邊界。除此之外,基于事理圖譜的會話管理與控制也是保證多輪問答成功性的必要條件。
3.3 基于事理圖譜的標(biāo)的預(yù)測
所謂標(biāo)的預(yù)測,指的是與事件相關(guān)的標(biāo)的物預(yù)測,例如股票價格、期貨收盤價、商品價格、貨物產(chǎn)量等的預(yù)測。
傳統(tǒng)的標(biāo)的物預(yù)測,往往是基于量化數(shù)據(jù)進(jìn)行的預(yù)測,而近年來,基于文本的預(yù)測工作逐步展開。以預(yù)測股票價格為例,可根據(jù)股票的新聞文本進(jìn)行文本-價格建模,形成基于文本的預(yù)測模型。在這個建模過程當(dāng)中,可以根據(jù)具體的文本進(jìn)行向量表示,向量化的方式包括:基于全文的向量化表示、基于全文摘要的向量化表示、基于詞的(關(guān)鍵詞、主題詞、實體詞)的向量化表示、基于元組的向量化表示,此外還可以加入情感極性、主觀性等特征融入到上述向量化表示當(dāng)中。
事理圖譜的出現(xiàn),為標(biāo)的物的預(yù)測提供了兩個方向。即:基于事件鏈接和標(biāo)的物關(guān)聯(lián)路徑匹配的預(yù)測,融合事件圖結(jié)構(gòu)表示的標(biāo)的物預(yù)測。基于事件鏈接和標(biāo)的物關(guān)聯(lián)路徑匹配的預(yù)測指的是基于已有的事理知識,對文本中的事件進(jìn)行識別和鏈接,通過關(guān)聯(lián)的標(biāo)的物路徑,形成對標(biāo)的物品方向性的預(yù)測;融合事件圖結(jié)構(gòu)表示的標(biāo)的物預(yù)測,指的將基于鏈接的事件,將事件中的各個維度特征融入到圖結(jié)構(gòu)當(dāng)中,通過預(yù)先標(biāo)注關(guān)聯(lián)的標(biāo)的物及其變化方向,訓(xùn)練分類模型,從而實現(xiàn)標(biāo)的物的最終預(yù)測。
3.4基于事理圖譜的實證性素材驗證
所謂事理圖譜的實證性素材驗證,是作為一項輔助邏輯正確性以及寫作推薦的應(yīng)用提出的。由于事理圖譜中的事件實例層中積累了大量的事件原始描述,這些原始描述都來源于某個文本,具有一定的上下文信息,形成了豐富的事件素材。這個可以在以下幾個方面發(fā)揮作用:
1) 基于事理圖譜的寫作素材推薦
基于事件實例庫,寫作者在敘寫某個事件時,可以將該事件的原始描述和事件上下文進(jìn)行素材的推薦。典型的,可以充分利用事件之間的邏輯關(guān)系進(jìn)行關(guān)聯(lián)事件推薦,如給定事件推薦該事件發(fā)生的條件、后續(xù)的動作、引起的結(jié)果、相關(guān)聯(lián)的上位事件和組成事件等。
2) 基于事理圖譜素材成立性驗證
事理圖譜素材成立的驗證指的是針對寫作者所列舉的事件關(guān)聯(lián)性,給出具有實際可供驗證的描述性文本。例如給定一個特定的因果事件對:豬瘟->豬肉價格上漲,可以從事件實例庫中找到支持該事件對的原始描述。
3.5 基于事理圖譜的增強型輿情監(jiān)控
所謂增強型輿情監(jiān)控,指的是充分利用事理圖譜知識刻畫優(yōu)勢和結(jié)構(gòu)優(yōu)勢進(jìn)行的輿情監(jiān)控增強。輿情監(jiān)控,指對特定文本進(jìn)行文本情緒、傳播、演化等計算。就目前而言,輿情監(jiān)控的主要集中在對特定網(wǎng)站或文本進(jìn)行采集,通過主題分析,情感計算,熱點發(fā)現(xiàn)與統(tǒng)計、標(biāo)簽化等手段進(jìn)行輿情建模。而基于事理圖譜,可以從以下幾個方面進(jìn)行增強:
1) 特定信息的采集
在采集上,大都基于關(guān)鍵詞搜索的方式來獲取某一關(guān)注事件的文本信息,為了擴(kuò)大文本的召回,大都會采用關(guān)鍵詞擴(kuò)充的方法加以拓展(如采用同義詞表、近義詞表等)。而若以前置構(gòu)建好的事理圖譜作為知識基礎(chǔ),可以充分利用事件詞之間的各類關(guān)系進(jìn)行擴(kuò)充,如上下位關(guān)系,組成關(guān)系,因果關(guān)系,順承關(guān)系等,因為從本質(zhì)上來說,這類事件直接有些很強的緊密結(jié)合性和相關(guān)性。這種擴(kuò)充,一方面可以提升監(jiān)測的廣度和完整性,另一方面也隱性地將網(wǎng)頁文本套進(jìn)了事件體系之中。
2) 特定事件的分析
如果有實現(xiàn)構(gòu)建好的事件層級,那么在對事件的分析上就更具備有針對性,即可以預(yù)先了解需要分析的角度。如分析銀行降準(zhǔn)這個事件,可以從降準(zhǔn)的粒度、降準(zhǔn)整個體系、降準(zhǔn)的方向、降準(zhǔn)實施者、降準(zhǔn)所帶來的影響、降準(zhǔn)的起因等幾個角度去進(jìn)行全方位分析,不再局限于某一個點。如此一來,得到的結(jié)果也能更為多元化且有說服力。
3) 預(yù)警性事件的監(jiān)控
預(yù)警性事件,指的是基于已有事理圖譜中存在時序或因果邏輯關(guān)系的后續(xù)事件。如豬瘟事件出來之后,根據(jù)已有的事理邏輯關(guān)系,可以得出豬肉價格上漲,出欄率下跌,飼料價格下跌等多個后續(xù)事件,而后續(xù)事件不會全部或者一直發(fā)生,往往是個別事件發(fā)生,或者極少數(shù)事件持續(xù)發(fā)生。這時,通過對這些事件進(jìn)行監(jiān)測,能夠針對性地篩選出個別事件自己極少數(shù)事件,這對于后期的控制和預(yù)警具有很大幫助。此外,還可以在事件中融入一些具有風(fēng)險性和標(biāo)簽化的手段,對事件本身貼上一定的類別標(biāo)簽,能夠進(jìn)一步增強預(yù)警性事件監(jiān)控的有效性。
6、基于事理圖譜的知識管理
所謂基于事理圖譜的知識圖譜,指借助事理圖譜中以事件為核心,事件體系為整個骨骼支撐起來,對具體事件、實體、邏輯等的統(tǒng)一管理。知識管理是知識情報管理中的重要組成部分,包括對不同形態(tài)的知識單元進(jìn)行存儲管理,實現(xiàn)對知識的收集、增添刪除、編輯改寫、查詢等。事理圖譜的出現(xiàn),為知識管理提供了以事件體系為架構(gòu)的知識管理新模式。
以事件體系為架構(gòu)的知識管理可以形成一個領(lǐng)域事件管理平臺。具體包括事件的體系定義模塊、事件知識的編輯模塊、事件知識的更新模塊、事件知識的導(dǎo)出模塊。事件的體系定義模塊指使用者根據(jù)領(lǐng)域特性,自頂向下的事件的層次體系,相當(dāng)于事件知識的多級目錄。事件知識的編輯模塊包括對事件的錄入、事件的刪除、事件的導(dǎo)入、事件的關(guān)聯(lián)等操作;事件知識的更新模塊指對現(xiàn)有數(shù)據(jù)進(jìn)行更新,包括自更新和用戶手動更新兩種模式,同時也包括對事件知識的版本更新問題。事件知識的導(dǎo)出模塊指的是對現(xiàn)有事 件知識進(jìn)行導(dǎo)出、備份以及共享,用于后續(xù)事件分析、事件保存等用途。
與基于知識圖譜的知識管理不同,以事件體系為架構(gòu)的知識管理可以充分發(fā)揮出事件層級性結(jié)構(gòu)信息、事件的邏輯關(guān)聯(lián)關(guān)系、事件的關(guān)聯(lián)實體信息等,具有更大的知識統(tǒng)籌能力,將實體性知識與動態(tài)性事件知識結(jié)合在一起,并將視頻、音頻、圖片等多模態(tài)信息進(jìn)行關(guān)聯(lián),更具備全局性。
7、基于事理圖譜的文本表示模型
所謂事理圖譜的文本表示模型,指的是借助事理圖譜的知識組織體系,用于單個文本或多文本的結(jié)構(gòu)化表示,這種結(jié)構(gòu)化表示包括形式化的表示和分布式的表示。形式化的表示,指以事件節(jié)點和事件關(guān)聯(lián)實體進(jìn)行表示,分布式的表示,指充分利用事件圖譜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)將形式化的事件結(jié)構(gòu)化應(yīng)設(shè)成一個低維稠密的向量表示。
傳統(tǒng)的文本形式化表示主要有以詞為單位的,以句子段落為單位的,以信息元組為單位的。其中以詞為單位一級的有高頻詞、關(guān)鍵詞、實體詞、主題詞這四大類,分別從文本中詞語的高頻出現(xiàn)、關(guān)鍵區(qū)別能力、實體性以以及主題三個方面出發(fā),在技術(shù)上分別對應(yīng)于高頻詞提取、關(guān)鍵詞提取以及實體識別;以句子為單位的,主要有摘要或簡寫的形式,分成生成和摘取兩種,生成指根據(jù)全文自動生成若干個沒有在原文中實際出現(xiàn)的句子。摘取指從全文的句子集合中篩選出重要的句子,加入連貫性等操作,形成的句子集合;以信息元組為單位的,包括二元組字典形式,如以what、when、where、who為鍵相應(yīng)數(shù)值為值的存儲形式來揭示單個或多篇文檔中的各個不同側(cè)面信息;也包括以主謂賓為結(jié)構(gòu)的三元組形式,其中主語和賓語可以唯一的缺失。
基于以鏈圖為單位的表示方法。指將詞、句子段落、信息元組通過某種關(guān)聯(lián)規(guī)則進(jìn)行連接,形成一種具有鏈圖結(jié)構(gòu)的文本圖表示。如將信息元組根據(jù)元組的共同起止元素進(jìn)行首尾相接,就可以得到一個有向有環(huán)狀的文本鏈路圖。基于這個文本鏈路圖,一方面可以較為清晰地看出整個文章的行文脈絡(luò),如在記敘文中看出事件的演化順序,議論文體中看出主題的論點網(wǎng)絡(luò)。另一方面,可以揭露出關(guān)鍵信息之間的網(wǎng)狀邏輯關(guān)聯(lián)信息,為后續(xù)基于該結(jié)構(gòu)化圖譜的應(yīng)用包括基于文本的問答、信息檢索、交互性可視化等提供支持。
四、事理圖譜的技術(shù)體系認(rèn)知
4.1事件表示技術(shù)
事件表示包括形式化事件表示和分布式事件表示兩種表示方法:
1、形式化事件表示。指運用形式化數(shù)據(jù)結(jié)構(gòu)對事件進(jìn)行表示,具體有以下幾種:
1)事件字典形式。以key-value事件元數(shù)據(jù)對進(jìn)行事件表示。如針對地震這一事件,可以以地震的地點、時間、震級、震源深度作為k,相應(yīng)的值作為value,作為事件表示。
2)事件三元組形式。事件三元組,與知識圖譜知識三元組相對應(yīng),顯式地表示稱<subject,predicate,object>的形式,其中,subject和object可以缺省,或者以某個特殊標(biāo)志符進(jìn)行表示。
3)事件字符序列形式。事件字符序列形式,指的是以自然語言形式對結(jié)構(gòu)化事件進(jìn)行口語化復(fù)述的自然語句片段,這個片段可以是一個短語,也可以是一個短句,也可以是一個長句或者段落。
形式化事件表示的優(yōu)勢在于可以讓人可清晰、明了的看到一個事件的整體描述,難度在于無法直接交給計算機(jī)進(jìn)行處理,為此,往往需要對這種形式化的事件進(jìn)行分布式表示,編碼成一個低維稠密的事件分布式表示。
2、事件分布式表示。指的是將事件映射成低維稠密的向量形式。主要有以下幾種方式:
1)事件字典形式的向量化。這個可以采用類似于onehot的形式,針對字典的所有key,可以將key作為向量化的維度特征,每個value作為向量化的一個具體的值。這種表示方法在事件類型較多時,會出現(xiàn)稀疏的問題。
2)事件三元組形式的向量化。這個時候可以利用類似于trans系列的事件建模思想,得到subject,predicate,object的向量化表示。基于單個元素的向量化表示,可以通過拼接、加權(quán)求和等方式得到整個事件三元組的分布式表示。當(dāng)然,還可以在這種表示的基礎(chǔ)上加上其他的特征,如時態(tài)、情態(tài)、標(biāo)簽等特征。
3)事件字符序列的向量化。事件字符序列已經(jīng)是一個文本字符串,這個文本字符串可以利用常用的文本表示方法進(jìn)行表示,傳統(tǒng)的onehot,基于char-embedding,token-embedding,ngram-embedding進(jìn)行的加權(quán)表示,基于sent2vec,skip-thought等的方式進(jìn)行預(yù)先深度學(xué)習(xí)表示。
4.3事件抽取技術(shù)
事件抽取技術(shù)是構(gòu)建事理圖譜的最核心技術(shù)部分,從抽取技術(shù)上來說,可以細(xì)分為事件抽取和事件關(guān)系識別兩個組成要素。從抽取的文本對象來說,可以分成基于單句、跨句、段落以及篇章的事件抽取。
事件抽取包括事件mention抽取和事件元素抽取,事件mention抽取指在文本中識別出事件的描述性片段,即事件名稱,該名稱通常包括事件的觸發(fā)詞,該觸發(fā)詞唯一地規(guī)定了該事件的事件類型。事件mention的識別包括基于開放事件抽取的方式、基于給定觸發(fā)詞的規(guī)則識別、基于序列標(biāo)注的識別、基于閱讀理解問答的識別四種方式。基于開放事件抽取的方式將事件名抽取的問題轉(zhuǎn)換成一個事件主謂賓三元組的抽取問題,包括基于依存句法及語義分析的規(guī)則式抽取、基于序列標(biāo)注的主謂賓三元組抽取方法。基于給定觸發(fā)詞的規(guī)則識別,指通過制定特定的事件觸發(fā)詞,圍繞該觸發(fā)詞設(shè)定事件名識別規(guī)則如事件長度、事件單位、事件成立性要素等識別出事件描述片段。基于序列標(biāo)注的識別,指通過訓(xùn)練連續(xù)事件字符序列模型,對給定文本識別出事件的起始位置和終止位置。基于閱讀理解模型的事件名識別,指運用閱讀理解模型對給定文本,以答案作為原始事件序列的方式訓(xùn)練問題-文本-答案三者的模型,很對給定文本識別出新事件的起始位置和終止位置。
2)事件元素抽取
事件元素信息抽取,指抽取該事件類型所對應(yīng)的事件槽位屬性信息,如結(jié)婚事件中的結(jié)婚時間、結(jié)婚人物、結(jié)婚地點等信息。
基于串行方法的事件元素抽取將整個流程分成事件觸發(fā)詞識別、事件分類、事件元素候選識別、事件元素角色標(biāo)注幾個步驟,通過對事件名稱進(jìn)行觸發(fā)詞識別,再進(jìn)行事件分類,并觸發(fā)相關(guān)的事件要素進(jìn)行實體識別形成候選事件要素,并將候選事件要素與事件觸發(fā)詞組成對,對候選事件元素進(jìn)行角色識別,放入指定的事件槽中。基于并行方式的事件元素識別直接對整個輸出端進(jìn)行標(biāo)簽序列化,利用端到端的模型一步到位地得到各個事件的元素以及元素角色。
從實現(xiàn)方法的類別來看,該抽取主要包括基于句法模板規(guī)則、基于分類的方式、基于序列標(biāo)注、基于閱讀理解多輪問答的方式,從實現(xiàn)的流程上來看,包括基于串行的事件元素抽取和基于聯(lián)合的事件元素抽取。基于句法模板規(guī)則的識別,指結(jié)合依存句法,語義分析,在經(jīng)過候選元素識別后通過句法和語義上的路徑對事件元素進(jìn)行定位。基于分類的方式將事件元素的抽取轉(zhuǎn)變成一個基于多步驟分類任務(wù),通過分類模型得到候選事件元素,通過分類模型對處觸發(fā)詞-事件元素二元組進(jìn)行語義角色分類,如此集成多個分類器。基于序列標(biāo)注的方式,則將事件元素的抽取過程轉(zhuǎn)換成一個事件標(biāo)簽的預(yù)測過程,標(biāo)簽對應(yīng)于事件的元素角色。基于閱讀理解多輪問答的方式,將事件元素抽取轉(zhuǎn)換成一個人機(jī)多輪交互問答的方式,通過迭代地詢問某一事件的各個元素,并將得到的答案進(jìn)行替換形成新的問句,循環(huán)迭代下去,最終得到每個槽位對應(yīng)的事件元素。
3)事件關(guān)系識別
事件關(guān)系識別指對給定兩個事件,抽取出兩個事件之間的邏輯關(guān)系的技術(shù),具體邏輯關(guān)系包括因果、條件、順承、組成以及上下位等邏輯關(guān)系。該關(guān)系的識別主要包括基于顯式關(guān)系識別模板以及基于關(guān)系分類模型的識別方法。基于顯式關(guān)系識別模板的方式通過結(jié)合語言學(xué)知識,如句子關(guān)聯(lián)標(biāo)記詞、關(guān)聯(lián)模式詞等進(jìn)行識別,也可以結(jié)合事件對中兩個事件之間的位置信息,進(jìn)行聯(lián)合刻畫。基于關(guān)系分類模型等識別方法,結(jié)合事件本身的特征以及事件對之間上下文特征,預(yù)先訓(xùn)練好邏輯關(guān)系識別模型對后續(xù)的事件進(jìn)行識別。前者的可以不需要預(yù)先訓(xùn)練預(yù)料,充分利用關(guān)系之間的顯性語言學(xué)特征快速識別,但對于隱式的事件對關(guān)系召回率很低。后者優(yōu)勢在于可以學(xué)習(xí)到事件之間的隱藏關(guān)系,但往往需要大規(guī)模高質(zhì)量的關(guān)系分類訓(xùn)練語料。
4.4 事件抽象與泛化技術(shù)
事件抽象的目的是通過對既有事件,通過事件聚類以及事件模式挖掘的方式形成具有抽象層級性的事件體系。事件泛化,是對事件抽象的反向操作,基于已有抽象事件進(jìn)行實例化事件生成。其中,事件抽象技術(shù),包括:
1) 基于外部層級性知識庫的抽象技術(shù)
這個抽象包括名詞性的抽象和動詞性的抽象,通過對事件中的實體元素或者動作類詞語進(jìn)行識別或者鏈接,通過原先實體抽象路徑進(jìn)行跳轉(zhuǎn)式抽象,逐步地、迭代地進(jìn)行替換和向上回溯,就可以得到借助外部原有知識體系結(jié)構(gòu)得到的概括性結(jié)果。這種技術(shù)有個很大的局限性,就是抽象的結(jié)果基本上取決于原先構(gòu)建好的外部知識庫,外部知識庫一方面在數(shù)量上很難大規(guī)模建立起來,其次其準(zhǔn)確性也至關(guān)重要。
2) 基于頻繁搭配的模式規(guī)約抽象技術(shù)
與基于外部層級性知識庫的抽象技術(shù)不同,該技術(shù)不依賴或不完全依賴于已有的外部層級知識庫,而是將關(guān)注焦點轉(zhuǎn)移到事件模式的規(guī)約和發(fā)掘上。頻繁搭配的方式有多種,有基于共現(xiàn)、基于互信息統(tǒng)計、基于點間互信息的統(tǒng)計、基于相似度的方式等聚類方式。而其中的細(xì)節(jié)也包括對原始事件語句的常規(guī)處理,包括同義詞、停用詞的處理、句子主干成分的提取等。
4.5事件融合技術(shù)
事件融合包括兩個方面的融合,即事件名稱的融合和事件元素的融合,事件元素之間的融合可以解決事件元素的稀疏性。
五、事理圖譜的工業(yè)化認(rèn)知
1、 事理圖譜的領(lǐng)域應(yīng)用問題
事理圖譜是一個具有多層級結(jié)構(gòu)的知識庫,但在回答在具體應(yīng)用場景中是否應(yīng)該使用事理圖譜作為技術(shù)選型顯得很重。經(jīng)驗的來說,選擇事理圖譜需要考慮以下幾點:一是否具有事理圖譜的可建模性。有的領(lǐng)域事件很少或很難對事件進(jìn)行定義,往往在事理圖譜的建模性上存在問題;二是領(lǐng)域事件或事件邏輯關(guān)系規(guī)模是否小型且有限,如果規(guī)模很小的話,那么直接使用人工構(gòu)建的方式即可,可以不引入相關(guān)的自動化構(gòu)建方法。三是可供挖掘事件或事件關(guān)系的文本可獲得性,如果可獲得的量非常少或極少,那么就缺少了整個事理運行的可能性;四是是否利用先前的知識庫形式已經(jīng)可以解決問題,例如是否是實體性知識圖譜已經(jīng)可以解決相關(guān)問題,如果能,則可以不使用該圖譜技術(shù)。
2、事理圖譜的人機(jī)協(xié)同機(jī)制
人機(jī)協(xié)同機(jī)制是整個自然語言處理領(lǐng)域保證工業(yè)化的真理。一方面,由于自然語言處理技術(shù)自身的局限性,在對事件以及事件關(guān)系體系的挖掘上,往往存在誤差,而且這種誤差會隨著處理流程的鏈路不斷傳播,需要加以控制;另一方面,知識性的提取技術(shù)對知識的準(zhǔn)確性上要求特別高,這種準(zhǔn)確性的影響因素來源于本身知識輸入源以及提取技術(shù)兩個方面。知識輸入源中的文本產(chǎn)生于人工,人工產(chǎn)生的文本會在常識表述、行文不規(guī)范上存在一定的錯誤,質(zhì)量上參差不齊。在通過自然語言技術(shù)處理之后形成的數(shù)據(jù)自然就存在置信度問題。因此,為了充分保證較高的置信度,人機(jī)協(xié)助是最可行的方式。
總結(jié)
以上是生活随笔為你收集整理的浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Java】Stream流和方法引用
- 下一篇: Android官方开发文档Trainin