clinvar数据库
遺傳變異的數據庫注釋非常簡單,就是從數據庫里面下載記錄文件,然后根據坐標對應一下即可,甚至很多成熟的工具都可以自動下載數據庫以及比對,就跟我們前面講到的把vcf文件注釋到dbSNP數據庫的ID一樣簡單。而clinvar的注釋,可以尋找出對應的基因變異信息,發生頻率,表型,臨床意義,評審狀態以及染色體位置等。
ClinVar是NCBI主辦的與疾病相關的人類基因組變異數據庫。它的強大在于整合了dbSNP、dbVar、Pubmed、OMIM等多個數據庫在遺傳變異和臨床表型方面的數據信息,形成一個標準的、可信的遺傳變異-臨床相關的數據庫。
數據庫的詳細說明,我就不贅述啦。http://www.biotrainee.com/thread-991-1-1.html (閱讀原文即可)
打開那個文件,可以看到里面其實就是有dbSNP數據庫的ID了,因為能被clinvar數據庫收錄的,必然已經在dbSNP數據庫,稍微懂點腳本的都知道,完全沒必要用軟件來注釋了,就把在clinvar數據庫里面的rsID挑出來了即可。
如果你不懂如何寫程序,那么就用annovar或者snpeff這樣的傻瓜式軟件吧,稍微看點說明書也很容易學會。必然annovar注釋會挑出CLINSIG CLNDBN CLNACC CLNDSDB CLNDSDBID這些重要的記錄,放在*dropped文件里面,打開看就可以啦。
比較重要的信息如下:
CLNSIG=1;
CLNACC=RCV000319204.1|RCV000371607.1;
CLNALLE=1;
CLNDBN=Benign_familial_neonatal_seizures|Benign_Neonatal_Epilepsy;
CLNDSDB=MedGen:Orphanet|MedGen;
CLNDSDBID=C2930911:ORPHA1949|CN239199;
其中CLNDSDB指示著該記錄來源的數據庫,因為clinvar也只是一個二次整合的數據庫。CLNDSDBID記錄著來源數據庫的來源ID,CLNDBN比較重要,是描述疾病的。
最重要的就是CLNSIG,在數據庫的頭文件可以看到信息描述如下:
##INFO=<ID=CLNSIG,Number=.,Type=String,Description="Variant Clinical Significance, 0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other">
總結
以上是生活随笔為你收集整理的clinvar数据库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 软件测试外包到蚂蚁金服,2019蚂蚁金服
- 下一篇: AndroidStudio创建项目(Co