生物医学知识库/知识图谱(英文+中文)盘点
生活随笔
收集整理的這篇文章主要介紹了
生物医学知识库/知识图谱(英文+中文)盘点
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
因為碩士研究方向是基于知識圖譜的中文醫學問答系統,所以調研了下現有的生物醫學(BioMedical)和醫學(Medical)知識庫。
首先需要對上述兩個概念做個區分,從我的理解來看,生物醫學更加微觀,偏向于蛋白質/基因等各種化學物質,面向的是藥物假設發現、疾病和基因的關聯性等研究性質課題。而醫學則更宏觀,主要面向疾病、藥物、表征、治療方案等概念及他們間的關系,更適合面向智能問答、醫療助理等應用。由于現有的中文及英文醫學知識圖譜不多,所以一概而論地進行一下梳理。
首先是一些中文醫學的知識圖譜
中文醫學知識圖譜 CMKG
- 該知識庫是中科院軟件所的劉煥勇老師的工作。
- 來源:尋醫問藥網上規范的半結構化醫學知識
- 規模:包括8807種疾病、3828種藥物、5998種癥狀、3300種檢查方法等7類實體、10類關系、10種疾病相關屬性,共3萬余實體、30余萬條關系。數據和搭建方式完全開源,比較適合用來使用
- github
中文醫學知識圖譜 CMeKG
- 該知識圖譜是北大、鄭大和鵬程實驗室的聯合工作
- 來源:是利用自然語言處理與文本挖掘技術,基于大規模醫學文本數據,以人機結合的方式研發的中文醫學知識圖譜
- 規模:包含11076種疾病,18471藥物,14794癥狀,3546診療技術等相關知識,150余萬關系
- 網址 論文?論文2
OMAHA 藥品-疾病知識圖譜
- 來源:來源于各地藥品醫保目錄、藥品說明書等開放數據,以及中國藥典、藥理學等高質量醫學資源。
- 規模:包括2.03萬實體,13.7萬關系, 主要實體為藥物、疾病
- 網址
OMAHA 臨床路徑-疾病治療知識圖譜
- 來源:收集研究目前市面上所有的臨床路徑,構建了臨床路徑的知識表達框架,主要包括:適用對象、相適用人群、治療階段、治療方式、適用科室、就診類型、標準治療時長、治療相關檢查項目等
- 規模:6000實體、4.5萬關系,主要實體為各種臨床實體及疾病
- 網址
中醫醫案知識圖譜
- 來源:從醫案中抽取臨床知識構建知識圖譜,幫助用戶了解中醫特色療法,以及疾病(如“慢性胃炎”)的臨床表現、相關療法、相關養生保健方法等。
- 中醫系列網址
然后是一些中文/英文醫學的知識庫
UMLS(Unified Medical Language System) 2004 (工業界和科研都會用)
- 介紹:UMLS是比較早的生物醫學知識庫,整合了MeSH等一堆人工構建知識的醫學庫的信息,因此質量高但規模受限預定義的關系類型很規范,通常會被其他知識庫參考;收錄的實體概念通常會直接被其他知識庫引用;提供一些額外的服務,比如MetaMap,可以將醫學文本鏈接到UMLS的實體上,因此被后續的醫學知識庫廣泛使用
- 網址? 論文(The Unified Medical Language System (UMLS): integrating biomedical terminology)
SemMedDB 2012(工業界和科研都會用)
- 介紹:知識抽取技術構建的醫學知識庫,基于PebMed上的醫學文章的標題及摘要;規模大但質量有限。
- 作者搭建該知識庫的目的:基于文獻的知識發現、假設生成
- 基于SemRep進行關系分類,MetaMap進行實體鏈接。
- 由于知識都是從文本中抽取的,不一定準確,因此同樣的實體對可能有多個關系,但每個關系都提供了相關句子可以被進一步分析;
- SDB中的實體概念是與UMLS對齊的,30種常見預定義關系是從UMLS的預定義關系中引出的;
- 論文:SemMedDB: a PubMed-scale repository of biomedical semantic predications
- 這個知識庫目前應用的比較廣泛,可能因為大規模知識抽取+知識校準才是大勢所趨,依賴人工搭建知識庫成本還是太高
Medical KB 2014(偏科研)
- 以疾病為中心、面向一些常見關系的知識庫;作者搭建該知識庫的目的:回答醫學問題
- 論文:Medical Relation Extraction with Manifold Models
dRiskKB 2014(偏科研)
- 構造疾病-疾病之間的關系庫,每個疾病都和一些基因、表現型等鏈接,適合用來研究疾病機制和藥物發現
- 論文:dRiskKB: a large-scale disease-disease risk relationship knowledge base constructed from biomedical text
OMAHA 七巧板中文醫學術語集
- 介紹:是基于本體方式構建,經過驗證的,語義豐富的術語集。它既可以幫助規范醫學術語表達,同時又可以提升不同系統間的語義互操作能力。
- 規模:主要包含疾病、癥狀、解剖、手術、生物、藥品、醫療器械、檢驗檢查、影像、護理、基因、基因突變等醫學領域的術語內容。
- 網址
?
?
總結
以上是生活随笔為你收集整理的生物医学知识库/知识图谱(英文+中文)盘点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为云如何绑定/解绑二次验证码/虚拟MF
- 下一篇: 怎样搭建企业内部知识库