应用实践 | 南方科技大学研发基于新型冠状病毒知识图谱模式挖掘系统
本文轉載自公眾號:南方科技大學計算機科學與工程系。
隨著新型冠狀病毒疫情的不斷發展,有關疫情的各類信息也在不斷更新,如何利用知識圖譜從大量新型冠狀病毒肺炎信息中高效挖掘相關頻繁模式(如病毒的宿主、傳播途徑)成為輔助專業人士迅速掌握病毒來源、有效提高臨床治療效果等問題的關鍵因素。
南方科技大學計算機系唐博教授領導的數據庫研究團隊與澳門大學智慧城市物聯網國家重點實驗室數據科學研究中心主任余亮豪教授團隊緊急聯合啟動基于新型冠狀病毒知識圖譜模式挖掘系統(下稱“新冠圖譜挖掘系統”)的研發,目前新冠圖譜挖掘原型系統正式推出,該系統實現關于新型冠狀病毒的不同知識圖譜的前K頻繁模式的高效挖掘,為專業人士分析病毒相關問題提供決策依據。
新冠圖譜挖掘系統架構如圖1所示,數據層首先預處理大量新冠圖譜數據,如清洗、整合等,隨后建立圖譜索引結構以支撐計算層進行高效頻繁模式挖掘,通過用戶層輸入模式挖掘需求到圖譜挖掘系統,通過計算層挖掘頻繁模式并返回用戶進行可視分析。計算層的核心技術來源項目團隊的科研課題與技術積累[1]。根據初步研究結果顯示,計算效率較目前學術界最優算法提高10倍到20倍,研究成果能有效提升系統面對大量復雜知識圖譜查找及實時數據處理的需求。
?
圖1:新冠圖譜挖掘系統架構
該系統可用于分析各類新冠圖譜,包括不僅限于新冠科研圖譜、新冠健康圖譜、新冠物資圖譜、新冠英雄圖譜等。如下圖2所示,基于新冠科研圖譜數據[2]該系統挖掘毒株的變異模式可得到(1)挖掘結果包含了新冠病毒變異分支,產生城市,病毒載體等相關信息,系統通過出現次數不同進行排序。(2)圖中排序第二的模式揭示了2019-nCOV毒株的發現城市與變異分支的具體情況:2019-nCOV毒株來源城市有武漢(21株)、深圳(8株),巴黎(4株),杭州(4株),悉尼(3株)等;(3)不同城市的毒株的變異分支不同,如武漢的部分毒株變異于分支036,巴黎的部分毒株變異于分支043。這些分析結果能幫助領域專家快速了解不同城市的2019-nCOV病毒毒株特征,從而快速檢測毒株種類、輔助病例治療等。
?
圖2:新型冠狀病毒知識圖譜挖掘系統
新冠圖譜挖掘系統中圖譜數據來自中文開放知識圖譜新冠專題[3],新冠知識圖譜基于統一的命名規范和語義格式,采用 CC-by SA 相似署名開放許可協議。新冠圖譜挖掘系統的主要貢獻者是南方科技大學2018級博士曾劍、2016級本科生唐千棟和楊川。此外本項目開發團隊熱烈歡迎不同領域專家一起加入該系統的研發,以增強系統分析功能與使用范圍。
?
[1] 本項目的核心技術研發來自國家自然科學基金青年項目和深圳市基礎研究自由探索項目的支持。
[2]http://openkg.cn/dataset/covid-19-research
[3] http://openkg.cn/group/coronavirus
點擊閱讀原文,進入新冠圖譜專題。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
總結
以上是生活随笔為你收集整理的应用实践 | 南方科技大学研发基于新型冠状病毒知识图谱模式挖掘系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 熵简科技 AI Lab 开
- 下一篇: BAT Java面试笔试33题:Java