甲子光年 | 为什么知识图谱终于火了?
本文轉載自公眾號甲子光年。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯。
?
?作者|金絲猴
編輯|甲小姐
設計|孫佳棟
微信|甲子光年 (ID:jazzyear)
?
“知識圖譜”相較于AI其他分支,似乎是最后一個熱起來的賽道:
?
「甲子光年」對國內某數據平臺上的企業標簽進行了統計,國內AI初創企業所涉及的技術標簽全部加起來近3000個,其中,“計算機視覺”出現255次,“語音識別”出現81次,“自動駕駛”出現152次,“自然語言處理”188次,“芯片”51次……而“知識圖譜”僅出現10次,是所有標簽中,出現頻次最低的。
?
也就是說,作為一項AI領域底層技術,知識圖譜并不是大部分AI創業者的興趣所在;作為一個創業方向,這條賽道還遠遠談不上擁擠。
?
不過近來,升溫趨勢開始出現。
?
最近一段時間,“知識圖譜”這個詞被頻頻提及,做知識圖譜的公司開始增多,甚至一些大數據公司開始在自己的名字后面加上這四個字。
?
部分知識圖譜領域創業者向「甲子光年」描述了他們感受到的市場變化:
?
“2014年、2015年我出去宣傳知識圖譜,當時大部分人都問我:你是做圖片處理的嗎?但近兩年邀請我去講知識圖譜的會越來越多了,大家對這個技術已經建立了基本的認知?!睖Y亭科技(DataExa)CEO洪萬福說。
?
“我以前出去談客戶,客戶都是搓著手問我有哪些AI技術可以拿來用。而現在客戶直接就說:我們需要應用于一套管理XX的知識圖譜的系統?!边_觀數據CEO陳運文說。
?
為什么知識圖譜近來突然火了?
?
“升溫”背后的前世今生
?
本質原因,是人工智能火了,而深度學習并非放之四海皆管用,人們開始意識到:“知識”是“智能”的前提。
?
“一個邏輯學家,不需要親眼見過,或聽過大西洋和尼亞加拉大瀑布,他能憑借一滴水推測出它們的存在。所以整個生活就是一個巨大的鏈條,只要見到其中一環,整個鏈條的情況就可推想出來?!卑⑸た履稀さ罓栍醒浴?/span>
?
他所描繪的,是人類大腦對知識天然的聯想能力,對人類理解世界、學習新知起著至關重要的作用。
?
如果知識是人類進步的階梯,知識圖譜就是AI進步的階梯——這正是知識圖譜對于AI的核心意義。
?
什么是知識圖譜?
?
知識圖譜(Knowledge Graph)旨在描述客觀世界的概念、實體、事件及其之間的關系——簡言之,就是誰是誰的“爸爸”,誰是誰的“兒子”,這些概念之間的關系。
全球第一個大規模開放域鏈接數據項目DBpedia的知識圖譜示意圖
?
2012年5月,Google推出Google知識圖譜(Google Knowledge Graph),并利用其在搜索引擎中增強搜索結果。這是“知識圖譜”名稱的由來,也標志著大規模知識圖譜在互聯網語義搜索中的成功應用。
搜索關鍵詞Google會給出與之相關的詳細搜索結果
?
事實上知識圖譜技術淵源已久,只是在不停地換名字而已——從上世紀70年代的“專家系統(Expert System)”,到萬維網之父Berners-Lee提出“語義網(Semantic Web)”,再到他后來提出的“鏈接數據(Linked Data)”,都是知識圖譜的前身。
?
伴隨著Web技術的不斷演進與發展,人類先后經歷了以文檔互聯為主要特征的“Web 1.0”時代與以數據互聯為特征的“Web 2.0”時代,正邁向基于知識互聯的“Web 3.0”時代。
?
可以說,知識圖譜的升溫,是AI對數據處理和理解需求逐日增加所導致的必然結果,而其發展有賴于專家系統、語言學、語義網、數據庫,以及信息抽取等眾多領域,是一個交叉融合的產物。
?
平臺巨頭紛紛重倉
?
2012年Google知識圖譜一出激起千層浪:微軟必應、搜狗、百度等搜索引擎公司在短短一年內紛紛宣布了各自的“知識圖譜”產品,如百度“知心”、搜狗“知立方(現更名為‘立知’)”等。
?
據百度副總裁王海峰介紹,目前百度知識圖譜在百度眾多產品線中已廣泛應用,從2014年上線開始,知識圖譜服務規模三年間增長了大約160倍。
?
搜狗CEO王小川則告訴「甲子光年」:“搜狗是國內首家構建和應用知識圖譜的搜索引擎。知識圖譜也是搜狗的基礎能力,服務于搜索引擎和其他多個產品?!备鶕压?016年財報顯示,其搜索流量急速攀升,尤其移動搜索流量增長70%,背后原因很大程度上因為其將基于知識圖譜的AI技術和差異化內容武裝到產品。
?
以社交為主戰場的騰訊也利用其數據優勢構建了自己的社交知識圖譜。騰訊研究院稱,其匯總了微信、QQ和公眾號超過20萬億次的閱讀點擊量、數百億筆支付數據、全年約1300億次視頻點擊量、70億次新聞點擊量、四十余萬款上線APP等數據。基于這些數據,騰訊構建出的知識圖譜可以服務于其眾多產品,并在語音搜索、智能問答等新趨勢中積蓄勢能。
?
以電商為主戰場的阿里也基于自身的數據庫建立起了知識圖譜。阿里生態內有來自于淘寶、天貓、1688、AliExpress等多個市場和品牌商、行業運營、治理運營、消費者、國家機構、物流商等多種角色,基于阿里知識圖譜的個性化推薦系統為其營收立下了汗馬功勞。
?
2013年,Facebook推出社交圖譜搜索工具Graph Search。隨即,“美國版大眾點評”Yelp股價大跌7%?!哆B線》雜志評論:GraphSearch的兩大野心,一是在網頁搜索領域干掉Google;二是在垂直搜索領域干掉所有對手,包括求職領域的LinkedIn,約會領域的Match,以及餐館點評領域的Yelp。
?
介紹Facebook GraphSearch的Zuckerberg
?
雖然現在看來Facebook的野心并未實現,但巨頭平臺紛紛重倉,知識圖譜的應用崛起不容小覷。
?
和巨頭們的熱情比起來,如開篇所述,創業公司看起來對這個賽道興趣不大,對比之下,也暗含著這個領域小公司的“蜀道之難”。
?
創業公司的生存空間
?
國內第一梯隊的知識圖譜創業公司們告訴「甲子光年」:“活得還不錯,這是一個藍海市場?!背^半數的公司都表示知識圖譜技術目前“供不應求”——由于團隊大小限制,有時候客戶都接不過來。
?
國內知識圖譜創業公司并不算多,為避免與BAT直接交鋒,他們往往從垂直領域作為市場切入點。目前,國內智能客服、金融、法律、公安、航空、醫療等“知識密集型”領域的山頭都已被瓜分。
?
少數公司只做單一垂直領域,如文因互聯、智言科技專注于金融領域。更多公司則會選擇多個垂直領域同時推進,如明略數據主打公安、金融(大銀行客戶)、工業;擅長長文本分析的達觀數據則主攻金融(審計)、制造業、法律;海知智能主攻智能家居、醫療、金融;淵亭科技則在航空、醫療、軍工、通信、教育等多個領域均有涉足。
?
各家公司在商業模式上打法不同,主要分為三類:
?
第一類,以產品+定制化解決方案的形式進行直客服務。優點是能夠與客戶深度綁定積累行業經驗,缺點是通常耗時耗力。例如,明略數據在金融、公安、工業領域積累深厚,其技術合伙人何鑫告訴「甲子光年」,正因此前以這一類模式深入行業和客戶深度綁定,才構建起技術及行業壁壘。
?
第二類,通過集成商銷售通用性較高的模塊化功能。其優點是節省人力,缺點是客單價偏低。例如,淵亭科技在公安領域中通常將模塊化工具提供給軟件集成商,由集成商組合后再向客戶進行銷售。
?
第三類,成為第三方技術提供商,專注于特定技術環節,通過和不同客戶合作,以產品分成或項目方式獲得營收。其優點是應用領域相對寬泛靈活,缺點是對技術要求較高。海知智能是典型代表,他們不獨立服務客戶,而是選擇某一環節提供技術,小米、百度度秘、平安、海爾等都是其合作伙伴。
?
值得關注的是,雖然各家在打法上有不同偏好,但沒有任何一家公司采用單一商業模式。因為身處于初期市場中,打法往往跟著客戶來,因為他們很難向客戶說不。
?
為了保證知識圖譜的準確率,現在的普遍現象是:構建過程中仍需要采用較多的人工干預。
?
“目前客戶更多還是以結果為導向,至于人工+智能的比例是怎樣不太重要。”達觀數據CEO陳運文告訴「甲子光年」。
?
采訪近十家知識圖譜創業公司,「甲子光年」試圖量化前文各家口中的“活得還不錯”:
?
就目前階段而言,大部分知識圖譜創業公司為了深度滲透行業,都在干著“臟活累活”。其服務周期短則數月,長則一至兩年,客單價根據項目復雜程度,在幾十萬元到幾百萬元區間不等,單筆訂單價超過200萬元的公司是極少數。
?
不止一家公司創始人告訴「甲子光年」,其戰略是先在各垂直行業打一口又一口深井,井聚成湖,湖化為海。
?
那么,商業化的天花板能否捅破?
?
閉環之痛
?
回顧上述各類打法,可以看出,無論哪一種打法,市場增量空間都相對較窄,目前尚看不到可以N方增長的商業化出路。
?
知識圖譜初創公司要想真正捅破天花板,面臨著客戶服務和數據閉環的雙重挑戰。
?
先看客戶服務的挑戰。
?
目前絕大多數知識圖譜創業公司都是面向B端客戶,B端客戶分為大B和小B。
?
大B客戶通常是國資背景的大型企業。其優點是有預算、有耐心。但他們尋求AI技術的原因往往來自于上層文件和指示,至于該用哪些技術、怎么用、用在哪、有多好用?客戶并不了解,雙方需要經過漫長的磨合、試錯。然而,除了少部分有懂行的領導牽頭的項目,很多時候技術并不能有效地用起來,對于雙方來講,磨合的過程反而是資源浪費。
?
某業內人士向「甲子光年」感慨,每年兩萬億人民幣數字化轉型的國家經費,真正轉化成價值的比例非常低。
?
此外,與大B客戶合作通常還會受制于其公司的層級限制。
微軟亞洲互聯網工程院副院長于偉告訴「甲子光年」,他們在和國內某運營商合作時就遇到過尷尬的局面。“以前地方獨立運營,同樣的產品和服務每個省份都需要單獨談單獨簽”。好在此運營商最近對架構進行了一次梳理,優化了其權限結構。
而服務小B客戶的情況更為艱難。最大問題在于客單價低,其次是需求不明確,此外,如果長期只做小B客戶,難以通過實戰提升技術、積累經驗。
?
一位知識圖譜公司CEO告訴「甲子光年」,“客戶篩選”是他工作中很重要的一個環節?!敖?#xff0c;還是不接?要從公司的技術積累、生產力和賬面等多方面做權衡?!?/span>
?
雖然行業明顯升溫,但由于知識圖譜本身是一項底層技術,且尚處于發展初期,還在實現“從無到有”搭建知識庫的過程,給客戶的是一種能力,卻無法用直觀、量化的商業價值測算。
?
換句話說,知識圖譜不能直接給客戶創收,這也使得對于很多客戶來講,這項服務并不是生死攸關的剛需,更像是對于明天的“理想追求”。
?
文因互聯CEO鮑捷告訴「甲子光年」,坦率來講,他認為在金融領域中,目前沒有哪一家公司能夠真正通過知識圖譜技術提高客戶的投資回報率,提高的只是客戶的投研效率。“但我們能幫助客戶在單位時間內看更多報告、公司,這難道就沒有作用?”
?
公子小白CTO王昊奮認為這并不是知識圖譜公司應該停留的狀態。他告訴「甲子光年」:“當技術離開學術界走向市場之后,創造商業價值才是硬道理,畢竟客戶最終看的還是效果。”
?
再看數據閉環的挑戰。
?
跟坐擁海量數據的BAT相比,知識圖譜創業公司的最大問題在于無法形成數據閉環。
?
形成閉環,要求數據能夠自我生長、消化吸收、形成新的知識體系。如果無法解決閉環問題,知識圖譜公司就只能停留在做數據的轉化、錄入和分析層面,注定無法分得更多的蛋糕。
?
打一個比方,為什么同樣背景的學生在后來的實際工作中會有天壤之別?其關鍵是后續學習能力。如何基于已有背景知識快速學習新知,并構建新的知識體系,才是知識圖譜技術應當攻克的核心難點。
?
今日頭條就是一個正面教材,它的知識圖譜一直在自我生長。每一個用戶的每一次操作行為都幫助了它提高關系的準確度和維度,以此構建更加完善和聰明的知識圖譜。
這樣的良好循環對于作為知識圖譜技術服務方的創業公司來講,幾乎很難實現。
在各垂直行業,如果客戶產品不能與用戶持續進行交互,就意味著客戶自身尚不具備閉環數據生產的能力,何況技術服務商。
當下運用知識圖譜技術服務金融、法律、公安、醫療、航空等知識密集領域的公司,都在“被動”獲取數據(客戶給的,或者爬蟲獲得的),這樣的做法更使得技術提供商處于食物鏈底端,無法最大化知識圖譜的價值。
王小川告訴「甲子光年」:“如果某天B端客戶發現數據的消費和生產能夠形成閉環,他很可能就自己干,或者把你收了。他才不會開環去做一個本該閉環的事,避免把數據和核心能力流到外面去?!?/span>
對于知識圖譜創業公司們來講,能不能形成閉環、能不能快速迭代、能不能持續學習將成為企業的核心競爭力。
這個問題對于創業公司們來講也很頭疼,目前沒有很好的對策。
于偉告訴告訴「甲子光年」,想要在目前的技術條件下打通數據閉環并不容易,但也不是不可能。首先,在進入市場應該選擇同質化程度較高的領域進行切入,比如,銀行、保險、大型制造業等。當你在行業中打磨得足夠優秀了,可以嘗試在自己的產品中建立AI大腦,以此形成數據的閉環,快速迭代。
后深度學習時代
?
歸根結底,知識圖譜的意義在于在盤根錯節的數據海洋中進行梳理和串聯,讓以前模糊的世界變得更加清晰。
?
人類對于知識體系的整理,始終未曾停歇。從永樂大典,到四庫全書,再到各式各樣的百科全書。作為編纂者,必須要思考的是:如何整理、組織信息,并以何種方式進行呈現?
?
目前,全球最大的“自由的網絡百科全書”維基百科已經收錄了超過2200萬詞條,僅英文版就超過400萬條,遠超紙質英文百科全書中最權威的大英百科全書的50萬條,是全球瀏覽人數排名第6的網站。
?
2012年,大英百科全書宣布停止印刷版發行,全面轉向電子化。這直接反映了當前社會的信息容量的爆發式增長程度。
?
以往線性的、疏離的、非結構化的知識體系已經無法滿足需求——人們迫切需要尋找新的方法來呈現人類過往知識。
?
這也是人類文明從語言文字向數據化時代進步的關鍵一步:以前人類用文字符號代表和區分世間萬物,而知識圖譜是在此基礎上的巨大創新。
?
前Google杰出工程師阿米特·辛格博士(Amit Singhal)在介紹知識圖譜時是這樣講的:“The world is not made of strings , but is made of things.(構成這個世界的是實體,而非字符串)”
前Google工程師阿米特.辛格博士
?
反觀這波AI浪潮,以深度學習為代表的大數據AI獲得巨大進展,但深度學習的不透明性、不可解釋性已成為制約其發展的障礙,所以,“理解”與“解釋”是AI需要攻克的下一個挑戰,而知識圖譜為“可解釋的AI”提供了全新的視角和機遇。
?
研究“可解釋AI”的前提是梳理人類自身的認知機制。人類最擅長的思考方式就是將點和線關聯起來,并由點及面、抽絲剝繭、慢慢理清其中的邏輯關系。知識圖譜正試圖抽絲剝繭,“像人類大腦一樣思考”。
?
認清我們自己,才能將人類的能力賦予機器,重新審視人類自我,將是未來AI研究過程必不可少的環節。
?
“Knowing yourself is the beginning of all wisdom.”亞里士多德的這句話,正是知識圖譜使命最好的概括。
END.
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的甲子光年 | 为什么知识图谱终于火了?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python实现拆分、合并、删除pdf
- 下一篇: 基于深度学习的信息抽取技术