技术动态 | 大规模中文概念图谱CN-Probase正式发布
本文轉(zhuǎn)載自公眾號知識工場。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
歷時多年的研發(fā),復(fù)旦大學(xué)知識工場實驗室正式推出大規(guī)模中文概念圖譜——CN-Probase,用于幫助機器更好的理解人類語言。概念圖譜中包含實體(比如“劉德華”)、概念(比如“演員”),實體與概念之間的類屬關(guān)系(又稱isA關(guān)系,比如 “劉德華 isA 演員”),概念與概念之間的 subclass of 關(guān)系(比如 “電影演員”是“演員”的子類)。通常后面兩類關(guān)系,又統(tǒng)稱為 isA 關(guān)系。如果 A isA B,通常稱A為B的下位詞(hyponym),或者B為A的上位詞(hypernym)。
概念的形成是人類認(rèn)知從具體進(jìn)入抽象的第一步。人類通過概念認(rèn)知世界,概念是人類認(rèn)知世界的基石。概念是人腦對客觀事物本質(zhì)的反映,是思維活動的結(jié)果和產(chǎn)物,是思維活動借以開展的基本單元。比如“恐龍”這一概念讓我們能夠認(rèn)知形形色色的恐龍,把握其共性本質(zhì),而無需糾纏于不同特定恐龍的細(xì)微差別。建立概念分類體系,并為數(shù)以千萬計的實體建立概念圖譜,是我們在讓機器具備認(rèn)知能力的征程中所邁出的至關(guān)重要的一步。
人類通過分類結(jié)構(gòu)(Taxonomy)來組織和表示概念。最早可以追溯到亞里士多德時代。隨后的幾千年來,人類一直在不斷完善概念的分類體系,并于近些年涌現(xiàn)了很多分類體系,如Cyc,WordNet等,這些概念分類體系大都由專家手工構(gòu)建,質(zhì)量精良,但是構(gòu)建代價高昂,規(guī)模有限。
現(xiàn)在知識工場采用自動的方法,基于CN-DBpedia以及海量中文網(wǎng)頁語料等多個數(shù)據(jù)源,構(gòu)建了大型中文概念知識圖譜——CN-Probase。針對中文語言的特性,采用了全新的抽取策略,達(dá)到質(zhì)和量的全面升級。
CN-Probase是由復(fù)旦大學(xué)知識工場實驗室研發(fā)并維護(hù)的大規(guī)模中文概念圖譜,是目前規(guī)模最大的開放領(lǐng)域中文概念圖譜和概念分類體系,isA關(guān)系的準(zhǔn)確率在95%以上。相比較于其他概念圖譜,CN-Probase具有兩個顯著優(yōu)點:
一、規(guī)模巨大,基本涵蓋常見實體和概念。包含約1700萬實體、27萬概念和3300萬isA關(guān)系。
二、嚴(yán)格按照實體進(jìn)行組織,有利于精準(zhǔn)理解實體的概念。例如,“劉德華”這個名字,可能對應(yīng)很多叫“劉德華”的人,在CN-Probase里搜索“劉德華”,會出現(xiàn)按照典型性排序的很多實體,排在第一個的是大家提及名字都會聯(lián)想到的歌手“劉德華”。
有了CN-Probase,計算機就能像人類一樣具有常識。例如,計算機可以知道鯉魚和鯊魚都是魚,但鯉魚是一種淡水魚,而鯊魚是一種海水魚。
與此同時,CN-Probase還可以廣泛應(yīng)用于各種場景:
例一:搜索意圖理解
用戶搜索“西游記”,我們通過它的概念“中國古代四大名著”、“小說”可以理解用戶是在搜索小說類名著。對于用戶搜索意圖的精準(zhǔn)理解可以進(jìn)一步幫助改進(jìn)檢索、排序與推薦。
例二:實體相似性判斷
當(dāng)用戶需要判斷“復(fù)旦大學(xué)”和“上海交大”是否相似時,僅僅根據(jù)字面相似性,很難知道它們是相似實體。但是通過CN-Probase,我們可以看到它們的概念是差不多的(如下圖),從而可以判斷它們在語義上是相似的。
例三:可解釋實體推薦
當(dāng)用戶先后搜索“復(fù)旦大學(xué)”、“上海交通大學(xué)”,“上海理工大學(xué)”時,我們?nèi)祟惪梢宰匀坏赝茢嘤脩羰窃谒阉魃虾8咝!H缃?#xff0c;機器通過檢索CN-Probase,發(fā)現(xiàn)這三個實體共享“上海高校”這個概念,從而也可以準(zhǔn)確識別用戶的搜索意圖,進(jìn)一步推薦“上海外國語大學(xué)”,“同濟大學(xué)”等實體,并給出用戶是在搜索上海高校這一解釋。
目前,知識工場提供兩種方式訪問CN-Probase:
頁面直接訪問。進(jìn)入http://kw.fudan.edu.cn/cnprobase即可訪問CN-Probase頁面。
API接口訪問。我們提供了全套數(shù)據(jù)訪問API,大家可以訪問http://kw.fudan.edu.cn/apis/cnprobase/ 查看具體訪問方法。
值此發(fā)布之際,特向大規(guī)模概念圖譜的“前輩們”,包括德國馬普研究所的Yago、微軟亞洲研究院的Probase、微軟的概念圖譜以及哈爾濱工業(yè)大學(xué)的大詞林,表示崇高的敬意。
點擊“閱讀原文”查看CN-Probase頁面
更多產(chǎn)品試用請點擊知識工場網(wǎng)站主頁:http://kw.fudan.edu.cn/
合作意向、反饋建議請聯(lián)系我們:
info.knowledgeworks@gmail.com
或直接聯(lián)系知識工場負(fù)責(zé)人肖仰華教授:
shawyh@fudan.edu.cn
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
總結(jié)
以上是生活随笔為你收集整理的技术动态 | 大规模中文概念图谱CN-Probase正式发布的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP-NER】命名实体识别
- 下一篇: 解决cuda版本与pytorch版本不兼