图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建
轉載公眾號 | DataFunSummit
分享嘉賓:徐美蘭?浙江數字醫療衛生技術研究院 數字醫學知識中心主任
編輯整理:李杰 京東
出品平臺:DataFunTalk
導讀:數研院這些年在知識圖譜建設上取得了豐碩成果,今天我們將圖譜構建過程中的經驗、心得分享給大家,歡迎大家討論交流。本次分享的題目為:深度應用驅動的醫學知識圖譜構建,主要內容包含4方面:
國內外醫學知識圖譜發展情況
醫學知識圖譜的領域特征和應用需求
數研院醫學知識圖譜構建:模型建立、“七巧板”本體術語集構建、“匯知”圖譜構建
醫學知識圖譜應用案例
01
國內外醫學知識圖譜發展情況
1.?知識圖譜概念
知識圖譜廣義概念:作為一種技術體系,指大數據知識工程的一系列代表性技術的總稱。
知識圖譜狹義概念:作為一種知識表示形式,知識圖譜是一種大規模語義網絡,包含實體、概念及其之間的各種語義關系。如下圖中的二甲雙胍知識圖譜片段。
2.?國外醫學知識圖譜
UMLS:由美國國家醫學圖書館自1986年起研究和開發的一體化醫學語言系統,包含超級詞表、語義網絡、專業詞典和詞匯處理工具。其規模:語義網絡包含133種語義類型,54中語義關系。超級敘詞表包含300多萬概念,1300多萬概念名稱。
SNOMED CT:2002年1月,SNOMED首次發布,它由兩大醫學術語SNOMED RT與CTV3合并而來,國際版SNOMED CT在每年的1月和7月更新一次。SNOMED CT核心構建是概念、描述(術語)和關系。其規模:目前包含19種語義類型,50多種語義關系,35萬概念,120萬描述(術語),110萬關系。
3.?國內醫學知識圖譜
CUMLS:由中國醫學科學院醫學信息研究所基于UMLS開發的中文一體化醫學語言系統,包含醫學詞表、語義網、構建工具與平臺。其規模:共收錄醫學主題詞3萬余條、入口詞3萬余條、醫學術語10萬余條、醫學詞匯素材30萬余條。
醫藥衛生知識服務系統:由中國醫學科學院醫學信息研究所承建,通過對資源的深度挖掘和關聯分析,建設了知識圖譜、知識脈絡分析等特色知識服務和應用。其規模:已發布疾病和藥品領域知識圖譜,其中疾病涵蓋心腦血管疾病、呼吸系統疾病、免疫系統疾病、消化系統疾病、腫瘤等。
中醫藥知識圖譜:中國中醫科學院中醫藥信息研究所依托中醫藥學語言系統(TCMLS)構建了中醫藥知識圖譜。其類型包括:基于中醫藥學語言系統的知識圖譜、中醫美容知識圖譜、中醫養生知識圖譜、中國臨床知識圖譜。
OpenKG:由中國中文信息學會倡導的中文領域開放知識圖譜社區項目,主要工作內容包括:OpenKG.CN(開放圖譜資源庫)、cnSchema(中文開放圖譜Schema)和Openbae(開放知識圖譜眾包平臺)。
02
醫學知識圖譜的領域特征和應用需求
1.?醫學知識的特點
醫學術語多樣性:不同知識源對同一個概念采用了不同術語進行表達。比如:糖尿病又可稱為消渴癥、消渴、DM等。
精度要求高:醫學知識專業性強,醫學應用場景容錯率低,因此醫學知識圖譜的精確度要求高。
復雜度高:醫學是經驗總結的科學,醫學概念的內涵往往比較豐富,且有些醫學知識復雜很難用簡單三元組表達。
2.?醫學知識圖譜應用場景
醫學知識圖譜的不同應用場景需求側重點也有所不同,需要最大化的滿足才能提高圖譜的適用性。如下所示:
3.?定制化解決方案
為滿足行業深度應用需求,醫學知識圖譜構建時需引入更多定制化解決方案,如下所示:
03
數研院醫學知識圖譜構建
1.?模型建立
醫學領域的知識圖譜由于其知識專業性強,行業通常采用自上而下的方式,先構建Schema,再抽取知識。
數研院醫學知識圖譜Schema主要參考了UMLS語義網絡、Schema.org、cnSchema等。相關數據涉及四大領域:疾病、藥品、手術操作、檢驗檢查。當然我們在知識圖譜的構建過程中,會根據抽取和應用的實際情況,不斷完善和優化Schema。數研院醫學知識圖譜于2019年8月首次發布Schema,目前包含72種語義類型、493種語義關系。Schema查詢和下載地址為:http://schema.omaha.org.cn/class/Thing#。
Schema分別用于指導“七巧板”醫學本體術語集和“匯知”醫學知識圖譜的構建,完善醫學知識表達的體系。我們之所以在一個模型指導下構建兩個知識庫,是為了解決不同的問題。“七巧板”采用本體解決與邏輯定義(即內涵定義)相關的關系,以及層次關系。“匯知”采用語義網絡解決可能性、經驗性的關系,并且無層次關系。具體請看下圖:
2.?“七巧板”本體術語集構建
本體術語集的構建整體有6個步驟,依次如下所示:
Step1:確定領域范疇。當前我們以滿足臨床診療需求為切入點,開始嘗試構建醫學知識圖譜。主要涉及范圍:疾病、癥狀、體征,手術操作、檢驗檢查,藥品,人體形態結構,基因,醫療器械。
Step2:選取合適的知識源。充分收錄行業現行標準、教科書、指南等權威知識源,并同時補充臨床病歷、互聯網診療中的術語等。
Step3:梳理重要術語。梳理領域中的重要術語,并由領域專家進行語義層面的實體歸一,完成概念化。相關流程如下所示:
Step4:建立關系。“七巧板”醫學本體術語集的核心構建包括:概念、術語、關系及映射。如下圖所示:
充分保留知識源中的已有層級關系,通過機器推理、人工添加的方式進行優化。挖掘知識源中的屬性關系,并通過機器推薦、人工添加進行補充。制定明確的映射規則,采用機器推薦、專家審核的方式建立映射。
Step5:存儲和瀏覽。采用關系型數據庫,分為概念表、術語表、關系表、映射表進行存儲,且保留歷史痕跡。術語瀏覽器實現術語集構建的快速查找,并可按需實現子集定制。如查看關系操作如下所示:
Step6:平臺及工具支撐。自研的知識庫維護平臺(CoWork),內嵌術語集研制規則,支持多人共同協作。CoWork中“七巧板”的功能如下所示:
CoWork中術語集編輯器可實現概念層面的編輯功能需求,并支持多人同時在線協作,協作方式為不創建分支,采用編輯鎖。術語映射工具利用算法推薦,調高映射效率。目前“七巧板”術語集收錄97萬概念、123萬術語和292萬關系,包含疾病、操作、藥品等語義類型。我們在持續進行更新維護,按季度發布,每季度第一個月20號發布新版本。
3.?“匯知”圖譜構建
“匯知”知識圖譜的構建有五個步驟,分別如下:
Step1:選取合適的知識源。選取臨床指南、臨床路徑、醫學書籍文獻等權威知識源,并同時補充醫學百科類知識。簡言之,即非結構化知識源+半結構化知識源+結構化知識源。
Step2:知識抽取。具體內容包括:實體識別和關系抽取。
實體識別通過基于規則的命名實體識別+專家審核提高標注效率,產生的標注數據用于訓練深度學習模型。具體流程如下所示:
關系抽取基于實體識別的結果,專家標注關系,產生的標注數據用于句法規則總結和半監督學習。具體流程如下所示:
Step3:知識融合。最大化地將“匯知”圖譜與“七巧板”術語集融合,可為圖譜的深度應用打下基礎。其過程大致包括實體歸一、實體對齊、關系融合等階段。具體操作如下所示:
Step4:知識存儲和檢索。除傳統的三元組外,加入“屬性組”和“來源”字段,使知識表達更加準確,同時確保知識的可溯源性。保留三元組的來源,滿足三元組在不同場景應用的需求。還可通過可視化搜索,快速直觀地查看圖譜數據,如下圖所示:
Step5:平臺及工具支撐。自研知識庫維護平臺(CoWork),內嵌知識圖譜集研制規則,支持多人共同協作。CoWork中“匯知”的功能描述如下:
用戶可創建多種自定義標注方案,批量上傳和分配任務,在基于brat的文本標注工具上,各地志愿者可合作共建知識圖譜。“匯知”圖譜目前已發布7個領域,共計約11萬實體,82萬三元組,每個季度第二個月20號發布新版本。前述7個領域如下所示:
最后,數研院發起的知識圖譜協作項目已持續開展5年,已有百名個人志愿者、多家優秀企業參與。貢獻榜如下所示:
04
醫學知識圖譜應用案例
1.?智能預警
知識圖譜作為底層支撐,輔以更多規則,實現更全面的臨床診療推理。如下低鉀案例所示:
此外,還可基于知識圖譜進行推理,實現實驗室危急結果的預警和處方異常預警。如下胸痛案例所示:
2.?指南推薦
基于醫學本體層級關系推理后進行推薦,使推薦結果更豐富。如下科塔爾綜合征案例所示:
另外,還可根據患者信息,推薦相似病歷、臨床路徑、指南等,輔助醫生制定治療計劃、規范治療流程。如下案例所示:
3.?數據直報
將醫學知識圖譜中的部分內容作為信息模型中的值集,實現醫療數據與醫學知識之間的綁定。術語綁定指:將醫學術語集中的概念分配臨床信息模型中的具體數據單元,從而實現醫學術語和臨床信息模型的聯系和賦予某種程度上的語義。讀者可參考下圖理解:
也可在信息系統中提前設定相應規則,基于“法定傳染病”子集,進行傳染病直報判斷與提示。如下圖所示:
除此以外,其他應用還包括:智能編碼、科研分析等。如果讀者感興趣可關注我們的官網動態~
今天的分享就到這里,謝謝大家。
分享嘉賓:
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于知识库的自然语言理解
- 下一篇: 论文浅尝 - AAAI2020 | 多模