VCF格式解析
聲明:本文為轉載文章,如有侵權,請聯系,速刪!
VCF是用于描述SNP,INDEL和SV結果的文件,下面所記錄的是以GATK軟件結果的VCF文件,與SAMtools的結果有點不同
VCF文件可以分為兩部分看,最上面#號注釋的的部分是對一些參數的解釋(看英文能懂的話,下面的解釋就不用看了),而下面沒#號注釋的部分則是各個參數對應的具體的值?一般先關注以下幾列信息,從左到右為:
#CHROM POS ID REF ALT QUAL FILTER INFO 1 17538 rs200046632 C A 99.60 PASS 1 54421 rs146477069 A G 88.60 PASS 1 55299 rs10399749 C T 867.60 PASS 1 61442 rs74970982 A G 593.03 PASS 1 63268 rs75478250 T C 357.60 PASS 1 64310 rs367969174 A G 59.60 PASS- 顏色 :染色體編號
- POS:參考基因組上variant堿基的位置,如果是INDEL,則該位置是INDEL第一個堿基的位置
- ID:variant的ID,如果在dbSNP中有SNP的id,則顯示其id,不然以點表示novel variant。
- REF:參考序列上該位點對應的堿基
- ALT:與參考序列上的堿基相比發生了突變的堿基,即Variant的堿基
- QUAL:Phred格式(Phred_scaled)的質量值,表示該位點存在Variant的可能性,值越高表示突變可能性越大
- FILTER:理想情況下,QUAL這個值應該是用所有的錯誤模型算出來的,這個值就可以代表正確的變異位點了,但是事實是做不到的。因此,還需要對原始變異位點做進一步的過濾。無論你用什么方法對變異位點進行過濾,過濾完了之后,在FILTER一欄都會留下過濾記錄,如果是通過了過濾標準,那么這些通過標準的好的變異位點的FILTER一欄就會注釋一個PASS,如果沒有通過過濾,就會在FILTER這一欄提示PASS的其他信息(如:LowQual)。如果這一欄是一個"."的話,就說明沒有進行過任何過濾。
以上幾列是最先關注的,接下來還有兩列也是蠻重要的FORMAT和最后一列(最后一列一般為樣品名),兩者和一起則為基因型信息,前者為格式,后者為對應的數據,如:
GT:AD:DP:GQ:PL 0/1:6,5:11:99:138,0,153- GT:表示樣品的基因型,對于二倍體生物,GT值表示的是樣本在這個位點所攜帶的兩個等位基因。0表示跟REF一樣,1表示跟ALT一樣,2表示有第二個ALT;當只有一個ALT等位基因時:0/0表示純合子并跟REF一致;0/1表示雜合子,有兩個allele,一個是ALT,另一個是REF;1/1表示純合子并都為ALT
- AD:兩個以逗號分隔的值,分別表示覆蓋到REF和ALT堿基的reads數,也就是REF和ALT對應的測序深度
- DP:表示覆蓋在這個位點的總reads數,也就是這個位點的測序深度(并不是指具體有多少個reads數量,而是大概滿足一定質量值要求的reads數)
- PL:三個逗號分隔的值,分別對應該位點的三個基因型0/0,0/1,1/1的沒經過先驗的標準化Phred-scaled似然值(L),L=-10lgP,P為支持該基因型的概率,3個概率總和為1;因此,L這個值越小,支持概率就越大,也就是說是這個基因型的可能性越大。
- GQ:表示基因型的質量值,Phred格式(Phred_scaled)的質量值,Phred值 = -10 * log (1-p) p為基因型存在的概率,表示該位點基因型存在的可能性。
最后則是INFO列所包含的信息:
AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636 AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421- AC:表示該Allele的數目,Allele數目為1表示雙倍體的樣本在該位點只有1個等位基因發生了突變
- AF:表示Allele的頻率,Allele頻率為0.5表示雙倍體的樣本在該位點只有50%的等位基因發生了突變
- AN:表示Allele的總數目
即:對于1個二倍體 sample而言:則基因型 0/1 表示sample為雜合子,Allele數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),Allele的頻率為0.5(雙倍體的 sample在該位點只有50%的等位基因發生了突變),總的Allele為2; 基因型 1/1 則表示sample為純合的,Allele數為2,Allele的頻率為1,總的Allele為2。
- DP:樣本在這個位置的reads覆蓋度,是一些reads被過濾掉后的覆蓋度(跟上面提到的DP類似)
- FS:使用Fisher's精確檢驗來檢測strand bias而得到的Fhred格式的p值,值越小越好
- MQ:表示覆蓋序列質量的均方值RMS Mapping Quality
- BaseQRankSum:來自Wilcoxon的Z分數 Alt與Ref基本質量的秩和測試
- ClippingRankSum:Z 得分來自 Wilcoxon 的 Alt 與 Ref 硬剪切基數的秩和檢驗
- 過量Het:用于精確檢驗過量雜合度的Phred標度p值
- MLEAC:對于每個ALT等位基因,等位基因計數(不一定與AC相同)的最大似然期望(MLE),順序與列出的順序相同
- MLEAF:對于每個ALT等位基因,等位基因頻率(不一定與AF相同)的最大似然期望(MLE),順序與列出的順序相同
- MQRankSum:Z 得分來自 Wilcoxon 的 Alt 與 Ref 讀取映射質量的秩和測試
- QD:變異置信度/深度質量
- ReadPosRankSum:來自Wilcoxon的Z得分 Alt與Ref讀取位置偏差的Rancoxon秩和測試
- SOR:2x2 列聯表的對稱比值比,用于檢測鏈偏置
參考:
https://www.biostars.org/p/187068/
本文出自于?http://www.bioinfo-scrounger.com?轉載請注明出處
總結
- 上一篇: 川大计算机考研失败经历,失败过,又成功了
- 下一篇: Linux应用程序开发之man手册汉化+