开源开放 | 开源网络通信行业知识图谱(新华三)
轉載公眾號 | 數字化領航
OpenKG地址:http://openkg.cn/dataset/network-communication
文章作者:新華三集團
出品平臺:數字化領航
OpenKG是中國中文信息學會語言與知識計算專業委員會所倡導的開放知識圖譜社區項目。旨在推動以中文為基礎的知識圖譜數據、算法和工具的開源和開放工作。近期,紫光股份旗下新華三集團在OpenKG上創建資源池(http://openkg.cn/dataset/network-communication)并貢獻網絡通信行業知識圖譜。
新華三集團上傳的知識庫,主要是面向行業產品領域,包括:產品類型、系列、型號、規格指標、場景配置、組網方案、運維指導等方面詞法以及常識類知識。這些知識可以直接用新華三的圖數據引擎HKG進行知識的導入、管理、計算。也可經過簡單的模板轉換后存儲到任意圖或者關系型數據庫。
知識獲取
行業知識獲取之初存在著諸多挑戰。雖然擁有大量的數據,但是這些數據結構化程度不高,大量有價值的知識更多是存在于非結構化的文本中。這些數據專業性強、術語繁多,從理解上來看與通用語言理解存在很深的鴻溝,從邏輯上來看場景又十分復雜。而在當時,開源的電子信息或者網絡通信行業詞庫知識為零,常識知識為零,帶標注可訓練的數據為零。而要實現該行業的知識抽取,就必須在眾多困難中不斷破冰。
知識處理一定是一個從易到難,從粗到細、從人工到自動的過程。首先,為了構建一個初始的知識庫,首要的目標是數據結構化。資料管理通常是樹形結構,如新華三官網,以樹狀結構梳理了產品類型-產品系列-規格型號的關系,在產品規格型號一頁,又以表格記錄了產品的各種軟硬件規格描述。所以,可以使用爬蟲系統收集和解析產品之間“isA”和“sameAs”的關系,以無監督+詞向量的方式對齊了產品規格特性,最終以模板映射到圖上三元組關系。
圖1.HTML數據的本體、實體抽取示例
圖2.產品規格示例
然后再采用各種手段進行知識擴充。包括無監督算法進行數據海選后專家標注小樣本數據然后再采用半監督方式進行知識增強,當知識規模十分龐大的時候,可逐步實現自動大量標注,從而實現各種基于深度學習的知識自動化抽取能力。
應用場景
場景一:
行業內企業大腦常識庫
以新華三集團為例,這種面向全產業鏈多發展的企業,若擁有一個知識大腦,可以做到從市場到解決方案到研發到供應鏈,從芯片到云到網、邊、端的知識全面拉通。而構建數字大腦的基礎,首先需要行業常識庫(http://openkg.cn/dataset/network-communication),這個常識庫可以從詞匯及理解每一個環境的行業要素。相當于以常識庫為紐帶,全面支撐起“物-料-人-法-環”的各類關系。當各環節部門眾包自己的數據,數據經過與核心常識庫的實體、本體進行融合、對齊、消歧,知識大腦認知能力逐漸提升,最終形成的知識網絡將時數據能量將務必巨大。
圖3. 知識大腦概念圖
場景二:
行業語義理解常識庫
在行業搜索引擎或者智能問答領域中,當沒有行業知識庫時,通用搜索引擎幾乎只能通過字符串命中的方式進行搜索召回。這將帶來很多理解偏差。尤其是在實體識別、意圖識別、專業推理等方面。
實體識別場景
在行業場景中存在著大量同名實體,比如說”vxlan”,它既是一種網絡形式、也是配置命令、也是設備規格特性。有了網絡常識庫,解釋NLP語義分析技術,便可以識別類似這樣的詞匯在當前語境中所表達的含義。
實體對齊場景
行業場景中,不通的人員個體對同一名詞的表述不一樣。比如對于“irf3.1組網”,有人以“縱向堆疊”口語化表達,有人以“802.1br”協議代指,甚至有人以“1br”組網相關協議簡稱代指。但是如果機器沒有相關常識庫,則對于以上類似的案例無法做到一致理解。而網絡常識庫利用具有“isA”同等功能的屬性整理了眾多行業同義詞,可以在機器中通過“實體對齊”環節幫助機器理解相關行業詞匯。
語言理解場景
如果用戶提問“s12500設備板卡類型都有哪些?”,若數據庫上相關記錄是“數據中心框式設備單板大全”。這會造成什么問題呢?就是明明數據庫里有問題,但是由于用戶輸入的關鍵字和數據庫記錄的倒排索引詞匯覆蓋率非常低而導致正確答案會無法被命中召回。怎么解決這個問題呢?給底層搜索邏輯關聯“行業知識庫”。之前正是由于機器沒有“知識”,從而無法理解“s12500”是一款“數據中心框式設備”,也無法理解“單板”是“板卡”。但有了“行業知識庫”的存在,便可以嫁接語言表達鴻溝,提升語義理解能力。
意圖識別場景
專業場景的意圖識別可以通過基于槽填充的模板解析,本知識庫有(“xx本體”-“屬于”-“槽”)和(“槽”-“屬于”-“意圖”)的本體關系。其中“槽”是多個本體的上位概念,比如:“產品類型槽”包含“交換機”、“路由器”、“服務器”、“存儲”、“無線”、“操作系統”、“新網絡產品”等多個概念。“意圖”是多個“槽”的上位概念,比如“產品篩選意圖”包含“產品類型槽”、“規格屬性槽”、“計算邏輯槽”、“計算單位槽”等多個槽位概念。有了這樣的通信行業搜索意圖識別模板知識庫,在相關專業自然語言搜索前預處理階段,“命名實體識別”、“槽識別”、“意圖識別”等環節一氣呵成快速完成。
邏輯推理場景
如果用戶提問“某款交換機支持直流供電嗎?”,對于傳統的FAQ機器人,如果機器人沒有記錄這條問答對兒知識將無法回答用戶問題。而擁有了“常識庫”的機器人,他不但能回答這個問題,他還能告訴用戶這款交換機的所有特性或者支持直流供電的所有交換機。
場景三:
行業智能運維本體庫
隨著知識圖譜在消費場景的成熟運用,能否賦能工業是對知識圖譜提出的下一個任務命題,工業智能化的實現是知識圖譜技術的重大使命。網絡行業常識庫總結了運維知識可用于指導設備級問題故障定位。這些知識包括實體級的。比如“xxx故障怎么排查”。也包括概念級的,即“流程圖”本體,通過"iTask"來管理各個流程圖實體,"rTaskSameas"管理流程圖之間的等價關系,"iTaskNodes"管理每個流程圖節點,"rTaskEdges"管理流程關系。該知識庫使用者,可以基于這樣的額本體定義來填充自己的流程圖實例,從而將流程圖映射到知識庫指導工業推理。
足下起步謀千里之行,工業智能化才是整個行業的愿景,這一愿景的實現離不開整個行業甚至各行各業的支持。新華三集團愿意在這個探索過程中與開源開放世界對話,愿意并持續貢獻行業知識,并致敬每一位同路行人!
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 开源网络通信行业知识图谱(新华三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Netty异步非阻塞事件驱动及原理详解
- 下一篇: 技术动态 | 知识图谱上的实体链接