知识图谱——感知智能通往认知智能的基石
導(dǎo)語(yǔ)
人工智能的三個(gè)階段
計(jì)算智能:目前機(jī)器的計(jì)算智能已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人類水平。
感知智能:感知智能也基本達(dá)到(或超過(guò))了人類水平。語(yǔ)音和圖像相關(guān)的智能被稱為感知智能,感知智能只需要識(shí)別客體信號(hào)就行,比如目標(biāo)檢測(cè)只要檢測(cè)到畫(huà)面中有某個(gè)物體,做的其實(shí)就是信號(hào)匹配的工作。
認(rèn)知智能:認(rèn)知智能只有人類六歲兒童的水平。認(rèn)知智能則需要會(huì)推理、規(guī)劃、聯(lián)想、創(chuàng)作。
自然語(yǔ)言處理
在人工智能領(lǐng)域,大家公認(rèn)的是自然語(yǔ)言處理(NLP)比計(jì)算機(jī)視覺(jué)(CV)更難,一個(gè)明顯的證據(jù)就是目前成熟的 CV 應(yīng)用(人臉識(shí)別、目標(biāo)檢測(cè)、語(yǔ)義分割、AI安防、自動(dòng)駕駛等)非常多,而且這方面的創(chuàng)業(yè)公司也非常多,著名 AI 獨(dú)角獸公司的有 CV 四小龍(曠視、商湯、依圖、云從);而在 NLP 領(lǐng)域卻鮮有獨(dú)角獸公司出頭,且也僅有機(jī)器翻譯這一 NLP 應(yīng)用較為成熟。
伴隨著計(jì)算機(jī)算力的大幅提升、數(shù)據(jù)的爆炸式增長(zhǎng),深度學(xué)習(xí)的研究也迅速發(fā)展,感知智能的水平突飛猛進(jìn),一度達(dá)到里程碑的水平;然而強(qiáng)大的計(jì)算能力和巨量的數(shù)據(jù)并不能對(duì)認(rèn)知智能的提升有多大幫助,無(wú)怪乎大家都大呼#自然語(yǔ)言處理太難了#[1]。
NLP 的難點(diǎn)一個(gè)在于語(yǔ)義理解,機(jī)器很難理解一句話的真正含義,語(yǔ)句中多一個(gè)字、少一個(gè)字、變換一個(gè)字的順序、同一句話由不同的人說(shuō)出的,所表達(dá)的意思都可能天差地別;
另一個(gè)難點(diǎn)在于知識(shí)的推理、聯(lián)想等需要額外的外界知識(shí)作為基礎(chǔ)。
說(shuō)了這么多,和本文所要說(shuō)的知識(shí)圖譜又有什么關(guān)系呢?業(yè)界的基本共識(shí)是,知識(shí)圖譜是感知智能通往認(rèn)知智能的基石,因?yàn)樗芙鉀Q語(yǔ)義理解問(wèn)題,也能解決知識(shí)推理問(wèn)題。由此可知,知識(shí)圖譜是多么具有研究的必要!
知識(shí)圖譜的誕生和應(yīng)用場(chǎng)景
知識(shí)圖譜的發(fā)展最早可追溯到二十世紀(jì)六十年,如下圖所示。它的誕生過(guò)程經(jīng)歷過(guò)語(yǔ)義網(wǎng)、描述邏輯和專家系統(tǒng)等階段[2]。
知識(shí)圖譜(Knowledge Graph)一概念最早是由谷歌公司于 2012 年提出的,他們的目的是想借助知識(shí)圖譜技術(shù)來(lái)優(yōu)化搜索引擎的搜索效果。
沒(méi)有知識(shí)圖譜時(shí),搜索服務(wù)提供商只能提供信息的檢索,也就是當(dāng)你輸入一句話到搜索引擎,它就會(huì)返回那些包含了你所輸入語(yǔ)句中的關(guān)鍵詞的網(wǎng)頁(yè)鏈接,你如果想了解你所搜索問(wèn)題的答案,那么你只能一個(gè)一個(gè)網(wǎng)頁(yè)的點(diǎn)進(jìn)去,然后快速瀏覽該網(wǎng)頁(yè)去尋找你要的答案;
搜索引擎無(wú)法直接告訴你想要的結(jié)果,一是因?yàn)樗赡?strong>無(wú)法理解你搜索語(yǔ)句的具體語(yǔ)義,二是搜索引擎里面存儲(chǔ)的只有離散的信息,而沒(méi)有結(jié)構(gòu)化的知識(shí)。為了保證讓你點(diǎn)擊更少的網(wǎng)頁(yè)來(lái)找到你想要的答案,谷歌開(kāi)發(fā)了一個(gè)叫 pagerank 的算法來(lái)計(jì)算網(wǎng)頁(yè)的重要性,在返回搜索結(jié)果的時(shí)候,按照計(jì)算的網(wǎng)頁(yè)重要性進(jìn)行排序給你展示,由于眾所周知的原因,我這里用百度搜索來(lái)展示一下普通的檢索結(jié)果是怎樣的。
如上圖所示,搜索引擎先將我所輸入的查詢語(yǔ)句進(jìn)行了分詞處理,然后在全網(wǎng)檢索網(wǎng)頁(yè),看哪些網(wǎng)頁(yè)里包含了我所查詢語(yǔ)句中的關(guān)鍵詞,然后按照網(wǎng)頁(yè)權(quán)重得分給我展示了一些網(wǎng)頁(yè),如果我想知道所有劉德華主演的電影,那么我需要把所有網(wǎng)頁(yè)都點(diǎn)進(jìn)去看,然后自己一一進(jìn)行統(tǒng)計(jì)記錄,之后我才能知道劉德華主演的電影都有哪些。
當(dāng)有了知識(shí)圖譜的時(shí)候,檢索結(jié)果是這樣的:
如上圖所示我根本不需要點(diǎn)進(jìn)某些網(wǎng)頁(yè)去自己統(tǒng)計(jì)記錄,搜索引擎直接告訴了我答案,而且將這些電影分門別類按類型、地區(qū)、年代給我展示了劉德華在什么年份主演了什么類型的什么電影,以及主演了多少部電影,返回結(jié)果具有更精準(zhǔn)、結(jié)構(gòu)化的特點(diǎn)。
上述例子是信息檢索,如果我們想搜索知識(shí),那么情況會(huì)怎樣呢?下面我們以搜索“姚明的女兒的國(guó)籍是哪里”為例。
顯然也是對(duì)網(wǎng)頁(yè)的檢索、召回,雖然我們可以直接通過(guò)網(wǎng)頁(yè)標(biāo)題就能獲知答案,但是還是不那么直接。接下來(lái)是知識(shí)圖譜搜索出來(lái)的結(jié)果:
?回答結(jié)果一目了然,除了直接告訴你想要的結(jié)果之外,它還告訴了你姚明女兒的姓名、出生日期等其他信息。知識(shí)圖譜為什么能直接告訴你結(jié)果呢?因?yàn)樗斫饬四愕牟樵冋?qǐng)求,而且它具有結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),這個(gè)知識(shí)庫(kù)里正好有你需要的知識(shí),另外它還具有推理能力。比如上例中,搜索引擎準(zhǔn)確的理解了你想問(wèn)的是“姚明女兒”這個(gè)人的“國(guó)籍”是哪里,所以它先找到了姚明女兒是“姚沁蕾”這個(gè)事實(shí),然后找到姚沁蕾的“國(guó)籍”屬性值是“美國(guó)”,于是它返回了搜索結(jié)果--美國(guó),這就是一個(gè)完整的推理過(guò)程。
知識(shí)圖譜除了應(yīng)用于搜索引擎做語(yǔ)義檢索以外,還有非常多的應(yīng)用場(chǎng)景,如智能問(wèn)答客服、金融風(fēng)控、人物關(guān)系圖譜、決策輔助、智能制造等。貝殼借助知識(shí)圖譜應(yīng)用于他們的貝殼找房系統(tǒng)中,以提升對(duì)用戶的搜索意圖的理解、提升向用戶推薦相關(guān)房子的智能推薦能力以及搭建智能問(wèn)答系統(tǒng)來(lái)輔助經(jīng)紀(jì)人回答用戶有關(guān)房子的問(wèn)答[3]。阿里巴巴將知識(shí)圖譜作為阿里小蜜機(jī)器人的知識(shí)庫(kù)的一部分,阿里小蜜是一個(gè)基于大數(shù)據(jù)和人工智能技術(shù)的智能化、體系化客服系統(tǒng),它支持向用戶提供 KBQA 和 EBQA等智能問(wèn)答服務(wù)[4]。美團(tuán)將知識(shí)圖譜技術(shù)應(yīng)用于他們的 APP 中,他們使用基于知識(shí)圖譜的問(wèn)答(KBQA)來(lái)完成和用戶之間的搜索交互任務(wù),比如幫助用戶找到合適的餐飲門店、商超、購(gòu)買電影票以及預(yù)定酒店服務(wù)[5]。
知識(shí)圖譜的定義以及相關(guān)概念
知識(shí)圖譜并不是突然由某一個(gè)人或機(jī)構(gòu)發(fā)明的,它經(jīng)歷過(guò)早期本體時(shí)代、語(yǔ)義網(wǎng)時(shí)代的發(fā)展、積累,最后才發(fā)展衍生出知識(shí)圖譜這一概念,所以研究知識(shí)圖譜的流派也非常多,因此對(duì)它的定義也是多種多樣。
但是最起碼的共識(shí)定義是:知識(shí)圖譜的本質(zhì)是一個(gè)語(yǔ)義網(wǎng)絡(luò),它旨在描述客觀世界的概念實(shí)體事件以及及其之間的關(guān)系,并且對(duì)它們進(jìn)行語(yǔ)義建模;知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)和邊構(gòu)成,每個(gè)節(jié)點(diǎn)表示一個(gè)“實(shí)體”,每條邊為實(shí)體之間的“關(guān)系”。早期的語(yǔ)義網(wǎng)絡(luò)受限于我們的處理方法以及技術(shù)水平,它更多是依賴于專家的經(jīng)驗(yàn)規(guī)則去構(gòu)建,在規(guī)模方面受限于特定領(lǐng)域的數(shù)據(jù);而目前的的知識(shí)圖譜所說(shuō)的語(yǔ)義網(wǎng)絡(luò)就不需要那么依賴于專家的經(jīng)驗(yàn)去構(gòu)建了,它使用成熟的 NLP 技術(shù)去自動(dòng)挖掘“實(shí)體”以及“關(guān)系”用于構(gòu)建語(yǔ)義網(wǎng)絡(luò)。
如上圖所描述的[6],在知識(shí)圖譜中,各個(gè)節(jié)點(diǎn)(現(xiàn)實(shí)世界中的事件、數(shù)據(jù)、信息)不再是孤立的,它們是通過(guò)特定的關(guān)系(邊)鏈接在一起,從而形成結(jié)構(gòu)化的知識(shí)表示,這種圖數(shù)據(jù)結(jié)構(gòu)很容易被人們理解接受,并且也很容易被計(jì)算機(jī)識(shí)別和處理。
知識(shí)圖譜的核心其實(shí)就是三元組,三元組是由實(shí)體(Entity)、屬性(Attribute)和關(guān)系(Relation)組成的,形式為<實(shí)體,關(guān)系,實(shí)體>或<實(shí)體,屬性,屬性值>;而這樣的三元組正好可以構(gòu)建成圖數(shù)據(jù)格式,如上圖所示的示意圖,可以拆分成三元組的形式如下:
<麗江,屬于,云南><大理,屬于,云南><洱海,屬于,大理><小秦,住在,麗江><小明,住在,大理><小明,朋友,小秦>同理,上述三元組也可以組成一個(gè)圖結(jié)構(gòu)。在上述三元組中我們只看到了<實(shí)體,關(guān)系,實(shí)體>類型的三元組,其實(shí)在上文中的知識(shí)問(wèn)答搜索例子中我們已經(jīng)見(jiàn)識(shí)過(guò)<實(shí)體,屬性,屬性值>類型的三元組了,比如<姚沁蕾,國(guó)籍,美國(guó)>,其中姚沁蕾表示一個(gè)實(shí)體“人”,“國(guó)籍”就是實(shí)體“人”的一個(gè)屬性,而“美國(guó)”正是該屬性的“屬性值”。
基于已有三元組可以推導(dǎo)出新的關(guān)系三元組,這對(duì)構(gòu)建知識(shí)圖譜非常重要,同時(shí)這也是知識(shí)圖譜具有推理能力的基礎(chǔ)。比如由兩個(gè)三元組<翅膀 part-of 鳥(niǎo)>,<麻雀 kind-of 鳥(niǎo)>,可以推導(dǎo)出<翅膀 part-of 麻雀>這樣一個(gè)事實(shí)。
開(kāi)放領(lǐng)域知識(shí)圖譜和垂直領(lǐng)域知識(shí)圖譜
開(kāi)放領(lǐng)域(通用)知識(shí)圖譜面向通用領(lǐng)域,面向的用戶是全部的互聯(lián)網(wǎng)用戶,實(shí)際上是谷歌或者百度這樣的搜索公司在構(gòu)建,它的構(gòu)建是以常識(shí)性的知識(shí)為主,包括結(jié)構(gòu)化的百科知識(shí),它更強(qiáng)調(diào)知識(shí)的廣度,而對(duì)深度不做更多要求。
垂直領(lǐng)域(行業(yè))知識(shí)圖譜的定位是面向特定的領(lǐng)域或者行業(yè),比如醫(yī)療知識(shí)圖譜、工業(yè)知識(shí)圖譜等,他的數(shù)據(jù)來(lái)源是特定的行業(yè)語(yǔ)料,它強(qiáng)調(diào)知識(shí)的深度,而不是廣度。
然而通用知識(shí)圖譜和行業(yè)知識(shí)圖譜之間并不是相互獨(dú)立的,他們是具有互補(bǔ)的關(guān)系,一方面前者會(huì)吸納后者的知識(shí)來(lái)擴(kuò)充它的知識(shí)面,增加知識(shí)廣度;另一方面,構(gòu)建行業(yè)知識(shí)圖譜也可以從通用知識(shí)圖譜里吸納一些常識(shí)性的知識(shí)作為補(bǔ)充,以形成更完整的行業(yè)知識(shí)圖譜。
構(gòu)建知識(shí)圖譜的流程
看到這里,你可能覺(jué)得“二十一世紀(jì)就是知識(shí)圖譜的世紀(jì)”啊!它太重要了,它是人工智能能夠真正走向認(rèn)知智能的基石,雖然有些是夸張的,但是顯然各行各業(yè)都在談知識(shí)圖譜,各大小公司都要建知識(shí)圖譜。那么如何構(gòu)建屬于自己的知識(shí)圖譜呢?
本節(jié)簡(jiǎn)單介紹一下構(gòu)建知識(shí)圖譜的一般流程和所需知識(shí)棧,如下圖(均來(lái)自網(wǎng)絡(luò))所示:
構(gòu)建一個(gè)完整的知識(shí)圖譜一般會(huì)經(jīng)歷如下步驟:
收集數(shù)據(jù),確認(rèn)擁有什么可使用的數(shù)據(jù),去收集,然后對(duì)數(shù)據(jù)做最基本的處理;
知識(shí)定義,結(jié)合所擁有的數(shù)據(jù)以及知識(shí)圖譜的用途,定義知識(shí)模式,定義實(shí)體類型和實(shí)體之間的關(guān)系;
獲取知識(shí),前面收集的數(shù)據(jù)僅僅是一些零散的信息,距離它們成為能用的知識(shí)還很遠(yuǎn),因此需要使用命名實(shí)體識(shí)別、關(guān)系抽取、屬性抽取等技術(shù)去獲取知識(shí);
知識(shí)融合,由于知識(shí)的來(lái)源可能多種多樣,當(dāng)獲取了知識(shí)之后,我們有必要將知識(shí)做融合,比如我們獲取了有關(guān)“成龍”、“Jack Chen” 等相關(guān)知識(shí),眾所周知 Jack Chen 就是成龍,成龍就是 Jack Chen,那么有必要將這兩者進(jìn)行實(shí)體對(duì)齊等操作;
知識(shí)存儲(chǔ),當(dāng)有了知識(shí)后,我們需要將其存儲(chǔ),存儲(chǔ)的目的是方便對(duì)知識(shí)的查詢和推理應(yīng)用,目前流行的是使用圖數(shù)據(jù)庫(kù),比如 neo4j,來(lái)存儲(chǔ),當(dāng)然你也可以不使用圖數(shù)據(jù)庫(kù),完全看你的喜歡;
知識(shí)賦能應(yīng)用,有了知識(shí)圖譜,那么就可以利用其去支持一些應(yīng)用了,一些常見(jiàn)的應(yīng)用場(chǎng)景我們?cè)谏衔囊步榻B了。
參考資料
[1]自然語(yǔ)言理解難在哪兒? - 知乎
[2]http://m.elecfans.com/article/739264.html
[3]回顧·知識(shí)圖譜在貝殼找房的從0到1實(shí)踐
[4]知識(shí)結(jié)構(gòu)化在阿里小蜜中的應(yīng)用
[5]基于知識(shí)圖譜的問(wèn)答在美團(tuán)智能交互場(chǎng)景中的應(yīng)用和演進(jìn)
[6]知識(shí)圖譜是什么? | 人人都是產(chǎn)品經(jīng)理
總結(jié)
以上是生活随笔為你收集整理的知识图谱——感知智能通往认知智能的基石的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 关于魔浪o5的连接出现的问题解决办法
- 下一篇: VR安全普法教育的新模式|广州华锐互动