漆桂林 | 知识图谱的应用
本文作者為東南大學(xué)漆桂林老師,首發(fā)于知乎專(zhuān)欄知識(shí)圖譜和智能問(wèn)答
前面一篇文章“知識(shí)圖譜之語(yǔ)義網(wǎng)絡(luò)篇”已經(jīng)提到了知識(shí)圖譜的發(fā)展歷史,回顧一下有以下幾點(diǎn):
1. 知識(shí)圖譜是一種語(yǔ)義網(wǎng)絡(luò),即一個(gè)具有圖結(jié)構(gòu)的知識(shí)庫(kù),這里圖的節(jié)點(diǎn)可以是概念(比如說(shuō)大學(xué)),可以是實(shí)例(比如說(shuō)東南大學(xué)),可以是一個(gè)literal(比如說(shuō)一個(gè)數(shù)字,一個(gè)日期,一個(gè)字符串),而圖的邊就是一個(gè)關(guān)系(比如說(shuō)漆桂林 就職于 東南大學(xué),這里“就職于”就是一個(gè)關(guān)系)。
2. 語(yǔ)義網(wǎng)絡(luò)的表達(dá)能力還是很強(qiáng)的,即一階謂詞邏輯可以表達(dá)的知識(shí)都可以用語(yǔ)義網(wǎng)絡(luò)來(lái)表達(dá)。
3. 語(yǔ)義網(wǎng)絡(luò)可以有邏輯推理能力,而推理可以通過(guò)規(guī)則來(lái)實(shí)現(xiàn),也可以通過(guò)父子節(jié)點(diǎn)的繼承實(shí)現(xiàn)。
那么,知識(shí)圖譜到底有些什么用呢?知識(shí)圖譜比較適合需要建立數(shù)據(jù)關(guān)聯(lián)和需要從非結(jié)構(gòu)化數(shù)據(jù)中轉(zhuǎn)化出結(jié)構(gòu)化數(shù)據(jù)的場(chǎng)景。下面是幾個(gè)應(yīng)用場(chǎng)景(還會(huì)持續(xù)更新,也歡迎提意見(jiàn))。
一、語(yǔ)義搜索
知識(shí)圖譜這個(gè)概念是谷歌提出的,谷歌做知識(shí)圖譜自然是跟搜索引擎相關(guān),即提供語(yǔ)義搜索。這里語(yǔ)義搜索跟傳統(tǒng)搜索引擎的區(qū)別在于搜索的結(jié)果不是展示網(wǎng)頁(yè),而是展示結(jié)構(gòu)化知識(shí),如下圖(圖1)所示:
圖1 語(yǔ)義搜索示例
在圖1中,當(dāng)用戶輸入“jackie chan",搜索引擎可以識(shí)別出jackie chan其實(shí)就是成龍,而且,會(huì)給出成龍的各種屬性信息,比如說(shuō)出生日期、國(guó)籍、配偶等。這些都是以前基于關(guān)鍵詞的檢索做不到的,有了知識(shí)圖譜以后,就可以即問(wèn)即答了。點(diǎn)擊成龍的配偶“林鳳嬌”,可以直接進(jìn)入她的知識(shí)卡片,見(jiàn)圖2:
圖2 ?語(yǔ)義導(dǎo)航示例
然后還可以繼續(xù)點(diǎn)擊房祖名看他的信息。這里我們可以把成龍、林鳳嬌、房祖名看出圖的節(jié)點(diǎn),成龍跟林鳳嬌之間有一個(gè)關(guān)系,即夫妻關(guān)系,林鳳嬌跟房祖名之間有一個(gè)關(guān)系,即母子關(guān)系,這就是成龍家庭的一個(gè)小的關(guān)系圖譜。
二、股票投研情報(bào)分析
通過(guò)知識(shí)圖譜相關(guān)技術(shù)從招股書(shū)、年報(bào)、公司公告、券商研究報(bào)告、新聞等半結(jié)構(gòu)化表格和非結(jié)構(gòu)化文本數(shù)據(jù)中批量自動(dòng)抽取公司的股東、子公司、供應(yīng)商、客戶、合作伙伴、競(jìng)爭(zhēng)對(duì)手等信息,構(gòu)建出公司的知識(shí)圖譜。在某個(gè)宏觀經(jīng)濟(jì)事件或者企業(yè)相關(guān)事件發(fā)生的時(shí)候,券商分析師、交易員、基金公司基金經(jīng)理等投資研究人員可以通過(guò)此圖譜做更深層次的分析和更好的投資決策,比如在美國(guó)限制向中興通訊出口的消息發(fā)布之后,如果我們有中興通訊的客戶供應(yīng)商、合作伙伴以及競(jìng)爭(zhēng)對(duì)手的關(guān)系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國(guó)際國(guó)內(nèi)上市公司從而挖掘投資機(jī)會(huì)或者進(jìn)行投資組合風(fēng)險(xiǎn)控制(圖3)。
圖3 股票投研情報(bào)分析
三、公安情報(bào)分析
通過(guò)融合企業(yè)和個(gè)人銀行資金交易明細(xì)、通話、出行、住宿、工商、稅務(wù)等信息構(gòu)建初步的“資金賬戶-人-公司”關(guān)聯(lián)知識(shí)圖譜。同時(shí)從案件描述、筆錄等非結(jié)構(gòu)化文本中抽取人(受害人、嫌疑人、報(bào)案人)、事、物、組織、卡號(hào)、時(shí)間、地點(diǎn)等信息,鏈接并補(bǔ)充到原有的知識(shí)圖譜中形成一個(gè)完整的證據(jù)鏈。輔助公安刑偵、經(jīng)偵、銀行進(jìn)行案件線索偵查和挖掘同伙。比如銀行和公安經(jīng)偵監(jiān)控資金賬戶,當(dāng)有一段時(shí)間內(nèi)有大量資金流動(dòng)并集中到某個(gè)賬戶的時(shí)候很可能是非法集資,系統(tǒng)觸發(fā)預(yù)警(圖4)。
圖4 ?公安情報(bào)分析
四、反欺詐情報(bào)分析
通過(guò)融合來(lái)自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜,同時(shí)引入領(lǐng)域?qū)<医I(yè)務(wù)專(zhuān)家規(guī)則。我們通過(guò)數(shù)據(jù)不一致性檢測(cè),利用繪制出的知識(shí)圖譜可以識(shí)別潛在的欺詐風(fēng)險(xiǎn)。比如借款人張xx和借款人吳x填寫(xiě)信息為同事,但是兩個(gè)人填寫(xiě)的公司名卻不一樣, 以及同一個(gè)電話號(hào)碼屬于兩個(gè)借款人,這些不一致性很可能有欺詐行為 (圖5)。
圖5 反欺詐情報(bào)分析
五、面向多源異構(gòu)關(guān)系數(shù)據(jù)的自然語(yǔ)言問(wèn)答
現(xiàn)在很多企業(yè)都有自己的數(shù)據(jù)庫(kù),而且這些數(shù)據(jù)庫(kù)因?yàn)椴皇峭慌藰?gòu)建的,所以維護(hù)數(shù)據(jù)庫(kù)的成本很高,訪問(wèn)數(shù)據(jù)庫(kù)也很不方便,而且數(shù)據(jù)庫(kù)之間的關(guān)聯(lián)也很難發(fā)現(xiàn)。通過(guò)構(gòu)建一個(gè)本體(該本體可以是從數(shù)據(jù)庫(kù)的schema抽取后,然后通過(guò)人工來(lái)修改得到),然后構(gòu)建本體和數(shù)據(jù)庫(kù)的schema的映射以及數(shù)據(jù)之間的匹配,就可以方便的實(shí)現(xiàn)數(shù)據(jù)的集成和數(shù)據(jù)的語(yǔ)義關(guān)聯(lián),并且可以利用構(gòu)建的本體和通過(guò)本體集成得到的知識(shí)圖譜來(lái)對(duì)自然語(yǔ)言做解析,從而將自然語(yǔ)言查詢直接轉(zhuǎn)化為SQL去查數(shù)據(jù)庫(kù),并且給出答案,答案可以是用圖表的方式來(lái)給出。下面給出一個(gè)例子(圖6):
圖6 ?數(shù)據(jù)庫(kù)集成和問(wèn)答系統(tǒng)示例
如用戶提問(wèn)“龍?bào)绰犯哞F南站出口2013年8月1日經(jīng)過(guò)的本田車(chē)輛有哪些”,系統(tǒng)直接給出結(jié)果。
六、面向知識(shí)圖譜的智能問(wèn)答
最近幾年,問(wèn)答(Question answering)重新受到廣泛的關(guān)注,主要原因還是因?yàn)橛蠭BM Watson的出現(xiàn)(見(jiàn)The AI Behind Watson - The Technical Article)。Watson雖然號(hào)稱(chēng)可以做很多領(lǐng)域(比如說(shuō)法律有ROSS ROSS and Watson tackle the law - Watson),但是事實(shí)上,Watson最早提出的時(shí)候只是為智力競(jìng)賽節(jié)目Jeopardy(Jeopardy! Official Site | Jeopardy.com,類(lèi)似開(kāi)心辭典和一站到底)定制的,類(lèi)似下面這種:
Category: General Science?
Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.?
Answer: Light (or Photons)
也就是說(shuō),問(wèn)題會(huì)有一些分類(lèi),然后出題的人會(huì)給出一些暗示(Clue),做題的人或者機(jī)器根據(jù)這些暗示給出答案。
Watson的問(wèn)答系統(tǒng)采用了wikipedia和DBpedia、Yago等半結(jié)構(gòu)化數(shù)據(jù)以及圖譜數(shù)據(jù),但是更多的還是從文本中提取各種證據(jù)(evidence)來(lái)回答。IBM Watson系統(tǒng)架構(gòu)見(jiàn)下圖(圖7)。
圖7 ?IBM Watson系統(tǒng)架構(gòu)
IBM Watson系統(tǒng)被神化成可以在任何領(lǐng)域適用,導(dǎo)致只要做問(wèn)答相關(guān)項(xiàng)目,都容易被挑戰(zhàn)跟Watson有什么差異。事實(shí)上,Watson系統(tǒng)和很多人工智能系統(tǒng)一樣,是高度定制化的,當(dāng)然,相關(guān)技術(shù)確實(shí)是可以用到多個(gè)領(lǐng)域,但是需要有一定的變化。
東南大學(xué)認(rèn)知智能研究所借鑒了Watson技術(shù),啟動(dòng)了一個(gè)佛學(xué)考試機(jī)器人項(xiàng)目,旨在回答佛學(xué)相關(guān)問(wèn)題。為了做這個(gè)系統(tǒng),需要先構(gòu)建一個(gè)佛學(xué)知識(shí)圖譜,通過(guò)圖譜和佛學(xué)相關(guān)的網(wǎng)頁(yè),利用問(wèn)答技術(shù)解題。考試題目例子如下:
1.僧伽是①涅槃義②和合眾③殺賊義。
2.「諸行無(wú)常、諸法無(wú)我、涅盤(pán)寂靜」稱(chēng)為①三種無(wú)常②三法印③三乘道。
3.人生最大的錯(cuò)誤是①殺生②妄語(yǔ)③邪見(jiàn)。
下面是系統(tǒng)的截屏:
七、輔助判案
知識(shí)圖譜技術(shù)可以幫助我們快速構(gòu)建一個(gè)法律知識(shí)圖譜,目前還缺乏法律知識(shí)圖譜的理論工作。跟其他領(lǐng)域的知識(shí)圖譜相比,法律知識(shí)圖譜需要考慮法律的邏輯,下面就是一個(gè)法律知識(shí)圖譜的片段:
從上面這個(gè)例子可以看出,每一個(gè)犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個(gè)關(guān)于犯罪行為的圖譜,而通過(guò)對(duì)海量判決書(shū)的挖掘,可以建立犯罪行為之間的關(guān)聯(lián),比如說(shuō),防衛(wèi)過(guò)當(dāng)和故意傷害之間有一個(gè)關(guān)聯(lián),即誤判為的關(guān)系。通過(guò)這個(gè)圖譜,給定一個(gè)判決書(shū),可以輔助法官判的一個(gè)案件是否有誤判,是否需要補(bǔ)充信息。
致謝:感謝王昊奮博士對(duì)本文部分內(nèi)容的建議。
OpenKG.CN
中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱(chēng)OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的漆桂林 | 知识图谱的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 神经网络不应视为模型,推理过程当为机器学
- 下一篇: 仅使用numpy从头开始实现神经网络,包