【再认识】认知智能下需要的实体知识与事件知识
1,知識(shí)圖譜理想上雙層結(jié)構(gòu),實(shí)際單層
知識(shí)圖譜是個(gè)雙層結(jié)構(gòu)。模式層和實(shí)例層,模式層,又稱為本體層,模式層分成兩個(gè)部分,一個(gè)是概念的上下層級(jí),另一個(gè)是概念之間的關(guān)系層或者概念的自身屬性信息層。前者規(guī)定了概念類之間的類關(guān)系,賦予了概念之間可以繼承的特性,后者定義了不同類自身的屬性和關(guān)系變體。嚴(yán)格意義上來(lái)說(shuō),知識(shí)圖譜中的模式層對(duì)數(shù)據(jù)項(xiàng)的取值是有嚴(yán)格定義的,例如數(shù)據(jù)庫(kù)中的各種數(shù)據(jù)類型(字符串型、float型、list型),但這種做法在工業(yè)界往往用不到,因?yàn)槌浞诌m應(yīng)這種數(shù)據(jù)類型的規(guī)定是非常需要費(fèi)時(shí)費(fèi)力的。在很多人的認(rèn)知里,知識(shí)圖譜就是知識(shí)三元組,僅保留實(shí)例層,這是現(xiàn)實(shí)中的大現(xiàn)實(shí),因?yàn)檫@來(lái)的快,拿來(lái)就用。表面上看起來(lái)很舒服,搞上面這一層太費(fèi)腦筋,而且有太多業(yè)務(wù)知識(shí),很多人辦不到,尤其是焦慮的工業(yè)界。
2,知識(shí)圖譜是可解釋性,也是個(gè)災(zāi)難。
知識(shí)圖譜=可解釋性,這種論斷被炒的很火,不能說(shuō)對(duì),也不能說(shuō)錯(cuò),標(biāo)桿在于對(duì)可解釋的定義。大體認(rèn)為知識(shí)圖譜是可解釋的是沿襲了“眼見為實(shí)”的思維,即,我看到的實(shí)實(shí)在在的東西,可以形式化的顯示性地表達(dá)出來(lái)時(shí),我才認(rèn)為我可以把一個(gè)問(wèn)題解釋給對(duì)此毫無(wú)背景的人聽。也就是看重的是一種過(guò)程性的符號(hào)佐證,一種缺乏思考能力和基礎(chǔ)知識(shí)卻想掌握某一現(xiàn)象的人來(lái)說(shuō)的。而深度學(xué)習(xí)中學(xué)習(xí)到的系數(shù)或值缺少實(shí)際的物理意義,從而被認(rèn)為是不了解釋的,因?yàn)槿狈π问交H绻覀冋J(rèn)可了這樣一種標(biāo)桿,那么也自然成立,但這種成立性帶來(lái)了巨大的災(zāi)難,即可解釋性的數(shù)據(jù)荒災(zāi)難,為了支持一個(gè)既定的事實(shí),背后需要大量的知識(shí)作為支撐,但現(xiàn)在的規(guī)模是遠(yuǎn)遠(yuǎn)不夠的,幾千億,幾萬(wàn)億估計(jì)都不夠。退回來(lái)說(shuō),這個(gè)知識(shí)的來(lái)源,人工編輯收集的方式很局限,不可面面俱到。基于抽取的方法可以海量的挖掘,撇開技術(shù)性能不說(shuō),海量挖掘的目的在于知識(shí)的曝光度,曝光才是抽取的前提,但有太多長(zhǎng)尾的知識(shí)是壓根不被報(bào)道或?qū)懗鰜?lái)的,換句話說(shuō),目前可以拿到的數(shù)據(jù)資源可能只是所有重要知識(shí)的百分之幾,甚至千分之幾,萬(wàn)分之幾。所以,認(rèn)定了知識(shí)圖譜是通向可解釋智能的路,那么這條路注定是個(gè)big problem.
3,認(rèn)知需要層級(jí)性的動(dòng)作性和實(shí)體性知識(shí)基礎(chǔ)
知識(shí)圖譜是認(rèn)知智能的語(yǔ)義基石,基于知識(shí)圖譜中所存儲(chǔ)的知識(shí),機(jī)器可以像人一樣去進(jìn)行知識(shí)應(yīng)用,知識(shí)推理筆記看過(guò)很多博文的人都會(huì)有這種的認(rèn)同感,這沒(méi)有什么問(wèn)題。認(rèn)知,是人類相較于其他動(dòng)物最大的區(qū)別,在我看來(lái),認(rèn)知能力主要包括概括能力和類推能力兩種,概括能力是能夠基于大量既定事實(shí)總結(jié)經(jīng)驗(yàn)規(guī)律模式,并形成具有一定層級(jí)的模式思維能力。類推能力,更像是概括能力的反向用力以及應(yīng)用,即常說(shuō)的思考或舉一反三。因此,既然認(rèn)定知識(shí)圖譜是認(rèn)知的基礎(chǔ),那勢(shì)必需要滿足這兩種基礎(chǔ),即概括基礎(chǔ)和類推基礎(chǔ)。
概括基礎(chǔ)形式化體現(xiàn)出來(lái),是具有概括性的能力,以概括抽象性的能力以及抽象概念性知識(shí)庫(kù)作為輸出。說(shuō)到這個(gè),又要說(shuō)到人的認(rèn)知體系問(wèn)題,人類的認(rèn)知體系是以名詞性實(shí)體為核心還是以動(dòng)詞性事件為核心的,不同的核心決定了不同的概括需求。事實(shí)上,作為一個(gè)由社會(huì)活動(dòng)驅(qū)動(dòng)的人類,是動(dòng)詞性事件為核心的,動(dòng)詞性事件支配名詞性實(shí)體,因此概括性能力應(yīng)該包括名詞性能力和動(dòng)詞性能力。但即便是如此,人類在顯式的表達(dá)自己的知識(shí)時(shí),還是以選擇名詞性實(shí)體進(jìn)行表達(dá),是因?yàn)槊~性實(shí)體比事件更為細(xì)粒度,也更為穩(wěn)定,也是好習(xí)得,好操作,即先知道what is what再知道do what 。
名詞性能力這方面代表性的工作有大詞林、wordnet,這兩個(gè)是我認(rèn)為真正意義上做到這點(diǎn)的工作,一個(gè)是抽象,二是分層,沒(méi)有進(jìn)行分層的概念性是零散的(一堆高度稀疏的isa),這方面的工作包括cnprobase,以及conceptgraph。但是,對(duì)于這種概括性知識(shí)圖譜而言,還是基本上集中在名詞性實(shí)體上,究其原因,一是因?yàn)楹媒?可以利用實(shí)體鏈接,背后有百科類實(shí)體作為支撐,好操作),二是因?yàn)閿?shù)據(jù)的可獲得性,有大量認(rèn)為預(yù)定好的層級(jí)(目錄樹,網(wǎng)頁(yè)導(dǎo)航,黃頁(yè))等。當(dāng)然,在這個(gè)方面,各大電商,醫(yī)療,工業(yè),領(lǐng)域等積累了大量的材料,如阿里商品等,基于商品的挖掘,可以快速搭建一個(gè)面向商品消費(fèi)的層級(jí)性實(shí)體概括性知識(shí)庫(kù)。
動(dòng)作性的概括性圖譜目前還相對(duì)空白。與名詞概括性圖譜不一樣,名詞性的概括性可以用is-a表達(dá),而動(dòng)詞性概括圖譜更多的是一種part-of關(guān)系,事件具有組成性的特征。相關(guān)的工作更多的是集中在事件的邏輯性的挖掘上(因果邏輯,條件邏輯,上下位邏輯)。有必要說(shuō)明的是,其中的上下位(包括基于名詞性實(shí)體的上下位以及基于動(dòng)詞性實(shí)體的上下位)是這種概括性圖譜中的一部分。比如結(jié)婚這個(gè)動(dòng)作,包括領(lǐng)證、辦喜酒、發(fā)請(qǐng)?zhí)葞讉€(gè)組成性事件。前者所描述的是一種諸如貨幣貶值下的美元貶值、人民幣貶值、日元貶值。一種在形式上有交集,可以找到規(guī)則,另一種沒(méi)有形式規(guī)則可言。所以,前者的挖掘難度要比后者簡(jiǎn)單地多,而意義上后者則要強(qiáng)得多。
4,事件類圖譜的殊途同歸:向上概括與向下泛化
漫步的抽象事理圖譜。同一個(gè)事件知識(shí),如果只關(guān)注單個(gè)事件集合之間的關(guān)系(上下位,組成、因果、時(shí)序),那么就會(huì)走向具有三層結(jié)構(gòu)的事件類知識(shí)庫(kù)(抽象事理圖譜),這類圖譜的特點(diǎn)是只考慮事件名以及事件名個(gè)體經(jīng)過(guò)加工、抽象、模式規(guī)約后形成的體系關(guān)系,而不考慮具體的事件富信息。其中的三層結(jié)構(gòu),第一層是事件頂層,也可稱為事件類型,用最頂層的事件類型名稱對(duì)下沿事件進(jìn)行統(tǒng)籌。第二層,是事件抽象模式層,也叫事件類簇代表,統(tǒng)籌基于該事件模式下存在不同表述的事件個(gè)體。第三層,是事件事例層,屬于具體的事件名稱(如巴西發(fā)生大火)。
周全的領(lǐng)域事件圖譜。與漫步的抽象事理圖譜不同,它考慮的更為周全,且體現(xiàn)在領(lǐng)域性上。周全,即在滿足事件名的基礎(chǔ)上,能夠以事件槽的方式挖掘事件的不同側(cè)面信息,例如殺人事件中的時(shí)間、被害人、犯罪嫌疑人、地點(diǎn)等。領(lǐng)域性,即該事件領(lǐng)域的刻畫,領(lǐng)域的事件具有領(lǐng)域的屬性特征,具有領(lǐng)域的槽位側(cè)面,用于描述領(lǐng)域性的事件信息。當(dāng)然,這種領(lǐng)域性包括通用領(lǐng)域和垂直領(lǐng)域(金融、社會(huì)治理等),領(lǐng)域的槽位數(shù)量和角度都各不相同。領(lǐng)域事件圖譜借助這種信息的復(fù)雜性,能夠支持更多方位的信息檢索、分析和追蹤服務(wù)。但往往會(huì)因?yàn)榘み^(guò)重,無(wú)法大規(guī)模施展開來(lái)。這種包袱體現(xiàn)在槽位的定義,事件的定義上,通用的槽位數(shù)量太少(如SEM設(shè)計(jì)的事件本體)不足以體現(xiàn)領(lǐng)域特性和功效,領(lǐng)域的槽位(如ACE實(shí)在有限,framenet略多實(shí)則有限)需要精心設(shè)計(jì),不具有擴(kuò)展性,工程周期長(zhǎng)。
漫步與包袱互助,事件快跑。抽象事理圖譜甩掉了包袱,在抽象概括性知識(shí)上深耕,事件類圖譜在實(shí)例事件上小步慢行。兩者分別從向上和向向下兩個(gè)角度在做(腦補(bǔ)亞里斯多德與阿基米德的畫面)。兩者融合是一個(gè)大方向(或許早已有之,但沒(méi)有大規(guī)模工程化,技術(shù)手段需要深思考)能夠樹立起整個(gè)事件知識(shí)基石。抽象事理圖譜的技術(shù)難點(diǎn)和核心在于“抽象”二字,把握抽象粒度,動(dòng)態(tài)變通事件體系,在此基礎(chǔ)上再進(jìn)行平級(jí)邏輯挖掘,終極目標(biāo)在于抽象能力的自主習(xí)得和體系的自我構(gòu)建、更新與完善。領(lǐng)域事件類圖譜核心和難點(diǎn)在于“領(lǐng)域”兩個(gè)字,自動(dòng)梳理和劃分領(lǐng)域事件類別,自我習(xí)得既定類別的具體槽位,突破人工手動(dòng),解放業(yè)務(wù)專家。兩類圖譜,以事件名或者事件實(shí)例作為中間鍵進(jìn)行連接。
5,實(shí)體性知識(shí)圖譜與事件類圖譜的融合
事件類圖譜以事件為核心,事件中包括各類實(shí)體,在類型劃分上,實(shí)體可以是領(lǐng)域性實(shí)體,也可以是開放域?qū)嶓w,一般來(lái)說(shuō),實(shí)體類型和實(shí)體信息越豐富,事件類圖譜與實(shí)體類知識(shí)圖譜的聯(lián)通度和稠密度就越高。以金融領(lǐng)域來(lái)說(shuō),可以鏈接公司、商品、貨幣、醫(yī)藥、水果、人物、高管等實(shí)體,開放域的話,可以通過(guò)概念性實(shí)體的類型進(jìn)行識(shí)別。識(shí)別的過(guò)程,包括實(shí)體識(shí)別和實(shí)體鏈接兩個(gè)部分(對(duì)于具有歧義的實(shí)體尤其有必要,在實(shí)際操作中根據(jù)實(shí)際情況進(jìn)行考慮)。
總結(jié)
以上是生活随笔為你收集整理的【再认识】认知智能下需要的实体知识与事件知识的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【Tensorflow】打印输出tens
- 下一篇: Android官方开发文档Trainin