知识图谱中的关系方向与强度研究
知識圖譜中的關系方向與強度研究
臧根林1,2, 王亞強1,2, 吳慶蓉1,2, 占春麗1,2, 謝新揚1,2
1 拓爾思知識圖譜研究院,廣東 廣州 510665
2 廣州拓爾思大數據有限公司,廣東 廣州 510665
摘要:目前普遍的知識圖譜構建思路是圖譜中的關系標簽采用文字描述,這樣很難對圖譜中的關系進行計算。針對這個問題,提出了關系方向、強度因子和時態因子的概念,關系的正負、強度和時態可以通過有監督機器學習的方法形成自動模型,從而在領域知識圖譜中實現關系的量化計算。這種知識圖譜構建方法在計算事件輿情走向、計算企業合作與競爭情況變化、分析銷售人員市場拓展情況等領域,形成了一種新的數據分析模式,對人工智能在具體行業的落地應用很有意義。
關鍵詞:知識圖譜 ; 關系方向 ; 關系強度 ; 負關系 ; 時態關系
論文引用格式:
臧根林,王亞強,吳慶蓉,占春麗,謝新揚. 知識圖譜中的關系方向與強度研究. 大數據[J], 2019, 5(3):96-103
ZANG G L, WANG Y Q, WU Q R, ZHAN C L, XIE X Y.Study on direction and strength of relation based on knowledge graph. Big Data Research[J], 2019, 5(3): 96-103
1 引言
知識圖譜本質上是一個用圖數據結構等技術作為載體,描述客觀事物及其關系的大型知識庫。在具體實現上,知識圖譜用語義網(semantic web)中的資源描述框架(resource description framework,RDF)對知識體系和實例數據兩個層面的內容進行統一表示,共同構成一個完整的知識系統。
世界本身不存在結構化問題或非結構化問題,在信息化時代之前也沒有人區分結構化或非結構化,但人類進入信息化時代后,什么都想通過計算得到結果,這就產生了信息是否要結構化的問題,因此這是人類為了將就計算機而產生的問題。知識圖譜把這個問題進一步加深了,因為大家不僅想讓計算機計算信息,還想讓計算機學會跟人類一樣思考和判斷,也就是現在很熱門的人工智能。為了教會計算機看懂人類的知識,人們將知識整理成了知識圖譜。
雖然知識圖譜的概念由谷歌公司在2012年5月首次提出,但知識圖譜這樣的理念和表達思路在中國已經存在了超過2000年,五行理論和相生相克圖就是一個典型的知識圖譜結構。知識圖譜描述的3個關鍵要素是實體、屬性和實體之間的關系,五行相生相克圖(如圖1所示)完整表達了這3個要素,金、木、水、火、土每個字不但表達一種實體類型,而且字面本身已經蘊含了屬性解釋,如“水”字是指世界上一切液體性質的實體,每個實體都和另外4個實體發生聯系,4條連線代表了實體之間相生或相克的關系。
圖1???五行相生相克圖
由于技術原因,五行相生相克圖并不能表達更多的信息,如各個實體的屬性特征(如火對應紅色、對應南方,水對應黑色、對應北方等)只能用很多外延說明進行表達?,F在的技術可以很容易解決這樣的知識表達,不僅可以用知識圖譜方式表達出關系,還能把圖片、聲音、視頻、文檔等很多信息直接關聯上去。
由于知識圖譜技術研究剛剛興起,目前學術界還沒有找到統一的知識圖譜定義,在知識表達上還存在諸多缺陷。比如在五行相生相克圖中,每個實體都有4條邊相連,也就是存在4個關系,但是每一條邊的含義都不同。如果把作為計算中心點的實體稱為主體,其他與之關聯的實體稱為關聯體,那么每一個主體都存在2條關系指向主體,另外2條關系指向關聯體。而在指向主體的2個關系中,一個是相生關系,另一個完全相反,是相克關系。從主體指向關聯體的2條關系亦然,分別是相生關系和相克關系。
谷歌公司提出的知識圖譜思路和存儲架構在智能檢索、機器問答等方面有一定優勢,因此絕大多數知識圖譜研究機構采用了和谷歌公司類似的知識圖譜構建思路。但事實上,在很多領域人們對知識圖譜的需求不僅僅是檢索、問答等,還有計算。比如,用知識圖譜結構畫出一個企業的合作與競爭態勢,其中有10家合作關系企業和5家競爭關系企業,經過一年的營銷努力,該企業的合作企業數量和競爭企業數量雖然沒有改變,但營業額發生了很大變化,這意味著該企業與合作企業的合作力度加強了,從競爭企業手上搶到了更多的市場份額。如果用目前一般的知識圖譜構建方法描述這樣的一種變化,合作關系企業和競爭關系企業數量沒有變化,則只能在關系描述上用文字進行說明,無法描述清楚合作和競爭的變化趨勢,更無法量化該趨勢。同樣,在銷售人員與企業聯系的例子中,僅使用文字描述關系,只能說明銷售人員與企業進行了聯系,無法表達出聯系的數量和效果等情況,如圖2所示。
圖2???僅用文字描述銷售人員與企業的關系
筆者認為,在知識圖譜中的關系類型上增加“負關系”,在關系屬性上增加“強度因子”和“時態因子”,可以在某些具體領域知識圖譜上實現量化計算,從而讓知識圖譜更加準確地描述事實。目前雖然有一些研究提到了“逆關系”等涉及關系方向的問題[1],也提到了關系強度問題,但并沒有系統性地提出關系方向、關系強度的問題,特別是關系中存在完全相反的關系。在與時間相關的關系中,目前都是在關系上直接用文字標簽進行描述,無法對關系進行計算。關系的正負、強度和時態可以通過有監督機器學習的方法形成自動模型,從而在領域知識圖譜中實現關系的量化計算,在計算事件輿情走向、計算企業合作與競爭情況變化、分析銷售人員市場拓展情況等很多領域形成一種新的研究思路,對人工智能在具體行業中的落地應用很有意義。
2 知識圖譜中的關系方向
知識圖譜中核心的3個元素是實體、屬性和關系。實體實際上包含了客觀世界的事物、概念、信息等,屬性是對實體的描述,這兩個元素是相對固定的,如五行中“金”的含義相對固定,而對“金”的屬性描述也相對固定。關系則要復雜得多,有相對固定的關系,也有與時間強相關的、變化的關系,有對主體有利的關系,也有對主體有害的關系。
知識圖譜中的關系是有方向性的。有一些關系是雙向的,還有一些關系是單向的;有一些關系方向是可逆的,還有一些關系方向是不可逆的。在圖1中,所有的關系是固定不變的,而且不可逆,如“水克火”這條邊,方向不可能倒過來,因為水能滅火,是先民們總結出來的共識,已經形成了固定知識。用大火可以把水燒干,是不是就把方向逆轉了?這個就是下文要研究的關系強度問題,五行相生相克圖是在強度均衡情況下的共識,如果強度嚴重不一致,就會出現共識的破壞,會產生不正常的后果,這個正是“五行缺X”的含義,表示不正常了。再比如知識圖譜中的父子關系也是不可逆的,這樣的例子很多。
很多時候關系是固定的,也是可逆的。圖3是公安部門數據存儲的常用分類。數據被分為人(人口信息)、地址(門牌樓等)、案件、物品(刀、槍、毒品等)及組織(某黑社會、邪教組織等)。例如,某犯罪嫌疑人和一個手機號碼,可以從機主關聯到手機號碼,也可以從手機號碼關聯到機主,這就是可逆的關系,可逆的關系不用畫箭頭,因為畫箭頭也是雙向箭頭,沒有意義。
圖3???公共安全領域五要素
有一些關系方向會發生變化。比如一個犯罪分子和一個犯罪組織的關系,可能在某個時間點之前,該犯罪分子是犯罪組織的團伙成員,經過某些思想工作突然棄暗投明,成為線人,在搗毀這個犯罪組織的過程中起到了關鍵作用,這實際上就是關系方向發生了變化,這樣的關系被稱為時態關系。
圖1中每一個實體都有4個關系:2個箭頭向內,2個箭頭向外。同樣向內的箭頭實際上含義正相反,一個是相生,另一個是相克,筆者把對主體有利的關系稱為正關系,而對主體有害的關系稱為負關系。雖然關系的方向相同,但可能產生的含義是相反的。
3 負關系與時態關系
在五行相生相克圖中可以看到,并不是轉換一下箭頭方向就可以轉換關系的正負的。實際上對于主體而言,每一個關系要承載相生、相克、被相生、被相克4個信息。箭頭只能表達主動與被動的關系,或者表達關系的發起方和接受方,卻無法表達有利還是有害。在紙面上,可以用“金克木”“木生火”等標注表達關系,但在知識圖譜的存儲里,這樣的非結構化表達卻讓計算機更難理解,筆者認為直接用“負關系”表達可以為知識圖譜的知識智能計算創造條件。
有一些關系是穩定的,但有一些關系卻與時間強相關。比如銷售人員與某個企業曾經是友好合作關系,后來因為項目工作沒有做好,企業對該銷售人員表達了強烈的不滿,銷售人員與企業的關系變差。經過銷售人員的努力挽回,企業又認可了銷售人員的工作效果,雙方又變成了友好關系。在知識圖譜里如何表達這樣的知識?筆者認為,關系中應加入時態信息,與時態強相關的關系被稱為時態關系。
時態關系分為無頭無尾、有頭有尾、有頭無尾、無頭有尾4類。無頭無尾的時態關系就是一般的關系類型,沒有時間起點和終點,如五行中的相生相克關系;有頭有尾的時態關系是指在某一個時間段內存在,但之前和之后都不存在的關系;有頭無尾的時態關系是指一旦發生就永遠保存的關系,比如一個人的犯罪記錄,一旦產生就會一直保存下去;無頭有尾的時態關系是指曾經一直存在,但隨著時間推移或技術進步,突然失去了存在價值的關系。
4 關系強度
五行相生相克實際上是先民們總結出來的一套平衡理論,把世界上的客觀存在劃分成金、木、水、火、土五大要素,每個要素相互有生有克,從而達成大自然的平衡。這套理論也映射到了人的身體里面,五行對應人體五臟,若要身體健康就必須保持人體內五行的平衡,這實際上說的就是關系強度的問題。相生相克的前提是強度對等,比如水可以克火,但如果關系強度不對等,火就把水燒干了。
在知識圖譜里也存在著關系強度問題。在不同領域、不同體系里人們對強度的定義不一樣,筆者認為在大范圍的知識圖譜里,知識圖譜計算或者知識智能的推進是沒有意義的,很難形成一個有效的計算模型。但在特定的領域、特定的范圍里,人們可以通過機器學習或其他方法,逐步提煉出一些關系特征,建立關系強度定義規則,并對關系進行計算。比如,如果一個企業要畫出方方面面的與自身相關的關系是非常復雜的,但如果只畫出該企業的客戶關系、盟友關系、競爭對手關系,就可以將合同金額、合作簽約金額、被競爭對手搶走的合同金額等數字作為強度計算依據,計算出一個量化的數字,若第二年還用相同的規則進行計算,根據得出的同比數字就可以看出企業生存環境的變化情況。當然這只是一個非常簡單的例子,實際中的數學模型建立會復雜很多。
負關系在關系強度計算上起到負面的作用,而時態關系則需要增加一個時間系數。知識圖譜計算不是簡單地正關系累加后減去負關系,而是一個考慮多種約束條件和權重的復雜模型。
5 應用案例
某銷售人員客戶關系知識圖譜的關系方向和強度實現了對銷售人員和企業在客戶關系中的量化分析。通過對客戶聯系數量、聯系效果等進行情感分析,再結合時態因子和加權計算,可以實現對銷售人員客戶關系的量化評分,用同樣的方法可以實現企業的友好度情況分析,從而表達出事件和企業、銷售之間的基于時態的關系度量。
在對銷售人員與企業的聯系情況進行分析的過程中,在關系屬性上增加強度因子(聯系數量、聯系效果)和時態因子(聯系月份)可以更細化地描述實體之間的關系,進而更準確地描述事實,如圖4所示。關系的強度因子和時態因子都可用于量化計算,其計算結果可用于對實體之間宏觀變化情況的分析。
圖4? ?引入強度因子和時態因子后,銷售人員與企業的關系
從圖4可以看出,引入了強度因子和時態因子并進行量化計算后,銷售人員與企業之間的關系有了新的分析角度,根據計算結果可以得到銷售人員的企業關系變化趨勢,如圖5所示。
圖5???引入強度因子和時態因子后的關系運算結果
6 結束語
本文研究了知識圖譜中的關系方向問題和關系強度問題,系統性地提出了關系中存在的負關系、時態關系等概念,并對關系強度及可能的關系計算提出了初步探索,筆者認為在某些特定領域內,知識圖譜是可以建立有效的模型且可計算的。本文提出的關系類型比大部分已有研究更細化,更能精確地表達實體與實體之間的關系,但也給知識圖譜的知識構建、關系抽取、圖譜存儲等方面增加了復雜度。目前業界大部分知識圖譜平臺可能還無法支持這樣的關系結構,需要進一步進行研究。在知識圖譜計算方面,算法模型的設計必將是一個難點,在較大范圍內實現計算還不現實,在一些特別行業或領域內建模計算也需要大量的機器學習和模型訓練過程,因此需要根據領域特點進行專門研究。
作者簡介
臧根林(1963 - ),男,博士,拓爾思知識圖譜研究院院長,廣州拓爾思大數據有限公司首席營銷官,主要研究方向為知識圖譜、知識工程、大數據應用、企業管理、企業文化。
王亞強(1971- ),男,拓爾思知識圖譜研究院首席科學家,廣州拓爾思大數據有限公司常務副總經理,主要研究方向為領域知識圖譜、知識工程。
吳慶蓉(1972- ),女,拓爾思知識圖譜研究院研究員,廣州拓爾思大數據有限公司第三事業部副總經理,主要研究方向為領域知識圖譜、知識工程。
占春麗(1975- ),女,拓爾思知識圖譜研究院研究員,廣州拓爾思大數據有限公司研發中心總經理,主要研究方向為領域知識圖譜、知識工程。
謝新揚(1976- ),男,拓爾思知識圖譜研究院研究員,廣州拓爾思大數據有限公司副總經理,主要研究方向為領域知識圖譜、知識工程。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
“智慧法院”數據融合分析與集成應用
大數據治理標準體系研究
綜合交通大數據應用技術的發展展望
邊緣智能:現狀和展望
我國地方大數據政策的擴散模式與轉移特征研究
總結
以上是生活随笔為你收集整理的知识图谱中的关系方向与强度研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 函 float *search(fl
- 下一篇: STM32寄存器与输入捕获