人类遗传变异神库 | ClinVar数据库详解
? ClinVar是一個免費訪問的公共數據庫,記錄了人類變異和表型之間的關系,并提供了支持性證據(supporting evidence)。ClinVar提供的變異臨床意義(clinical significance)判讀標準(Assertion Criteria)包含:pathogenic, likely pathogenic, uncertain significance, benign等。
ClinVar首頁(https://www.ncbi.nlm.nih.gov/clinvar/)
? ClinVar可處理用戶提交的病人樣本變異檢測報告、變異臨床意義的判讀、提交者的信息和其他支持數據。ClinVar將提交的等位基因映射到參考序列,并按照HGVS標準進行報告。
簡化的HGVS變異命名標準
“c.”前綴:基于coding DNA參考序列的標準變異命名;“p.”前綴:基于蛋白質水平氨基酸序列的標準變異命名
? ClinVar可將數據呈現給(網頁)交互式用戶,也可以給那些希望在日常數據分析流程和其他本地應用程序中使用ClinVar數據的用戶。ClinVar(積極地)與志同道合的組織或機構合作,盡可能高效地滿足醫學遺傳學研究人員的需求。
ClinVar數據庫變異位點統計:
? 可見目前已收錄的具有臨床判讀的變異大約100萬個(人類全外顯子序列總計約3000萬個位點,ClinVar收錄的約占3.3%)。ClinVar目前不包括來自GWAS研究的未經整理的數據集。
? 借助其它機構提交或貢獻的數據,ClinVar匯總了大量已有的研究結果,在研究人員面對個人基因組或外顯子組數據產生的海量變異位點時,ClinVar可以幫助從中篩選具有臨床意義/顯著性(clinical significance)的位點,例如P/LP(Pathogenic /?Likely Pathogenic)位點。
ClinVar數據庫在線檢索
可以按照以下關鍵詞搜索:基因名、rs號、疾病、染色體位置、UniProt標識符、HGVS表達式或物種名稱。目前不支持BLAST或基于序列的搜索。
搜索基因HBB:
上圖紅色框選擇P/LP等致病性分類,錯義或移碼變異等,SNV/InDel等:
搜索結果很多,找起來不是很方便(Glu6Val或Glu7Val),甚至感覺很難找。
搜索疾病名稱(Sickle cell anemia)試一下:
搜索結果仍比較多,很難定位到臨床上關注的主要變異位點(Glu6Val或Glu7Val)。
因此,ClinVar并不太適合像OMIM那樣,在網站上對單個疾病或基因進行檢索。如果研究文獻,你會發現ClinVar最重要的應用是從個人基因組的海量變異位點中尋找致病或可能致病(P/LP)的位點。
那么我們就需要下載ClinVar的涉及所有變異位點、所有基因的后臺數據,方便進行生物信息學的批量分析。(做過有關遺傳學的基因組或外顯子組分析的朋友可能體會到,這個功能是一個多么無敵的存在!)
ClinVa
r所有變異位點后臺數據的下載
在首頁進入:FPT site:
進入:Tab delimited
下載:variant_summary.txt.gz
用Linux系統的wget下載:
用Excel打開前5000行的數據。
先用鼠標選幾行數據,設置自動調整列寬(開始->格式):
各列的含義(詳見:README):
AlleleID:ClinVar定義的等位基因變異位點的ID。一個ID出現兩次是因為同時寫了GRCh37和GRCh38;
Type:SNV,InDel,CNV(Deletion,Duplication)和Microsatellite分類;
Name:變異的HGVS表達式;
GeneID:基因的NCBI(或Entrz)ID;
HGNC_ID:string, of format HGNC
ClinicalSignificance:臨床意義判讀。這個信息非常重要。rs號的變異位點去掉重復后(共約60萬個)的臨床意義判讀分布如下:
可見ClinVar收錄了大概10萬個P或LP變異位點
ClinSigSimple:
RS# (dbSNP):來自dbSNP的rs號;
PhenotypeList:與變異有關的表型或疾病。Phenotype/conditions。
Origin:allelic origins for this variant, germline or somatic。
其它詳見README文檔。
測試:ClinVar數據的準確性和覆蓋度
使用一些已知的致病機制模型在不同數據庫中進行相互驗證,是個很有趣的事。可以幫助我們測試某個數據庫所收錄數據的權威性、準確性和完整性。
目前從ClinVar最新獲取的SNV或InDel注釋大約有100萬個,推測包含常見疾病的、常見變異位點,但不一定收錄了所有潛在的致病位點,尤其考慮到個體的異質性及多數疾病的復雜性。接下來我們簡單測試一下ClinVar數據的準確性和覆蓋度。
我們先從權威數據庫OMIM上搜索“Sickle?cell anemia”(鐮刀型貧血癥),找其致病基因和致病變異位點,然后測試一下ClinVar是否收錄、P/LP的歸類,并配合一些其它的必要的數據庫。
1. 在OMIM搜索“Sickle?cell anemia”。鏈接:OMIM的簡介和使用。
2. 選擇第一個搜索結果:
3. 點擊致病基因的MIM編號:
4. 點擊“Allelic Variation”(等位基因變異)下的“Table View”:
5. 然后在網頁內搜索(快捷鍵:Ctrl + F):“Sickle cell anemia”
?找到致病基因的致病位點(rs334,HBB,GLU6VAL):
可見,氨基酸的變化是GLU6VAL,這印證了我們之前推文的一個致病機制圖解(如下圖)。鏈接:正常與突變蛋白三維結構模型的繪制與分析。
注意:上圖中未標明起始密碼子AUG翻譯的甲硫氨酸(Met,M)。
真核生物的起始密碼子AUG翻譯對應的是甲硫氨酸(Met,M),原核生物的起始密碼子AUG翻譯對應的是甲酰甲硫氨酸(fMet)。
6. NCBI上搜索HBB蛋白的FASTA序列:
另一個條目(NP_000509.1):
如果計算開頭的M,第7位為谷氨酸(三字母:Glu,單字母:E)?;
如果不計算開頭的M,第6位為谷氨酸(三字母:Glu,單字母:E)?。
因此,OMIM顯示的HBB蛋白的這個氨基酸變化(GLU6VAL)必然沒有計算起始密碼子翻譯的甲硫氨酸。
7. 我們查看上述HBB的rs334是否被收錄在ClinVar,以及相關的信息是否與OMIM存在沖突:
發現與OMIM不同,ClinVar顯示的是Glu7Val(c.20A>T),計數“7”應該是計算了起始密碼子翻譯的甲硫氨酸。
我們換HBB的另一個位點(rs33916412),發現對氨基酸的計數也整好差一個:
OMIM:
ClinVar:
ClinVar與其它數據庫(如:HPO,MONDO,MedGen,OMIM,Orphanet,ClinGen和UniProtKB)的編號系統有很好的匹配。
dbSNP:
https://www.ncbi.nlm.nih.gov/snp/rs33916412?horizontal_tab=true#variant_details
小節:
僅看HBB蛋白的一些突變位點,OMIM顯示的氨基酸變化序數并沒有計算起始密碼子翻譯的甲硫氨酸,但ClinVar和dbSNP數據庫都計算了。實際使用時要注意這一點。
以EGFR基因的G719C突變評估ClinVar
其實OMIM上并非所有的基因標記的氨基酸變化序數都沒有計算起始密碼子翻譯的甲硫氨酸。
例如換為EGFR基因的G719C突變,這個位點也是臨床上偶有見到的突變和藥物靶點:
http://majia.yuaigongwu.com/mag/circle/v1/forum/threadWapPage?fid=141&tid=34024
結果發現:OMIM與其它數據庫的氨基酸變化序數又能完全匹配:
OMIM:
ClinVar:
令人驚喜的是,ClinVar的這個后臺數據也能準確報告“藥物反應”和“體細胞突變”。
dbSNP:
https://www.ncbi.nlm.nih.gov/snp/rs28929495?horizontal_tab=true#variant_details
蛋白序列(NP_005219.2):
小節:
對于起始密碼子翻譯的甲硫氨酸(Met,M)是否參與突變氨基酸序數的計算,ClinVar和dbSNP數據庫都計算了,但OMIM只有部分蛋白計算。實際使用時一定要注意這一點。
以一個罕見病的藥物靶點評估ClinVar
我們從下圖中找一個罕見病。如肺動脈高壓(Pulmonary Arterial Hypertension,PAH),是一種常見病、多發病,致殘率、致死率高,獲批藥物來自Actelion公司。
https://www.sohu.com/a/376175517_139908
家族性肺動脈高壓是一種常染色體、不完全顯性遺傳性疾病,尚無法準確預測致病基因攜帶者的發病早晚、嚴重程度和進展速度等。OMIM數據庫顯示該病的致病基因為BMPR2,AD(常染色體顯性),分子機制已知。
涉及的SNV如下:
OMIM:
ClinVar:
rs137852741
rs1085307219(Del,缺失變異)
rs137852746
以上信息都能完全匹配。
一個rs號有多個RCV號的原因:
ClinVar將格式為SCV000000000.0的Accessions分配給每個提交的記錄。如果有關于同一變異/條件(Condition)對的多個提交記錄,它們將在ClinVar的數據流中聚合,并以RCV000000000.0格式作為引用加入報告。由于這個模型,每當一個變異被報告處在多個不同條件時,一個變異將被包含在多個RCV中(Because of this model, one variant will be included in multiple RCV accessions whenever different conditions are reported for that variant)。
小節:
ClinVar整合了多種來源的數據或證據。數據可被追溯。對一些罕見病的致病位點也有很好的收錄。
總結
ClinVar數據庫是與疾病相關的人類基因組變異數據庫。在多數已知的疾病模型中,ClinVar整合了OMIM、Orphanet、ClinGen、UniProtKB和dbSNP等多個數據庫的變異HGVS注釋及其編號,臨床意義的解釋也較為準確。
總體上ClinVar數據庫的準確性和覆蓋度高,提交機構不斷提交新的數據并免費提供給用戶,是相關科學研究的寶貴資源。?
最后我們看一下ClinVar數據庫Top10提交者(機構):
即使在Top50中沒有中國研究機構的身影。之后的機構粗略地看了下,有協和醫院、北京大學和其它一些中國醫院。考慮到我們國家人口及患者基數龐大,科研論文數量也已位居世界第一/第二,如何引導科研使其更好地指導社會生活和生產值得思考。
ClinVar所有變異位點后臺數據的下載鏈接:
https://pan.baidu.com/s/1ADYLM_iNbpmF5Bc5sAaJIg
提取碼:vthp
更多人類遺傳學知識、文獻和分析技術
請關注和星標聊生信、生信寶典
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的人类遗传变异神库 | ClinVar数据库详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux启动报错+centos关闭和开
- 下一篇: 嵌入式驱动开发流程