當前位置：首頁 > 编程语言 > c/c++ >内容正文

c/c++

VCF格式解析

發布時間：2023/12/20 c/c++ 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 VCF格式解析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

聲明：本文為轉載文章，如有侵權，請聯系，速刪！

VCF是用于描述SNP，INDEL和SV結果的文件，下面所記錄的是以GATK軟件結果的VCF文件，與SAMtools的結果有點不同

VCF文件可以分為兩部分看，最上面#號注釋的的部分是對一些參數的解釋（看英文能懂的話，下面的解釋就不用看了），而下面沒#號注釋的部分則是各個參數對應的具體的值?一般先關注以下幾列信息，從左到右為：

#CHROM POS ID REF ALT QUAL FILTER INFO 1 17538 rs200046632 C A 99.60 PASS 1 54421 rs146477069 A G 88.60 PASS 1 55299 rs10399749 C T 867.60 PASS 1 61442 rs74970982 A G 593.03 PASS 1 63268 rs75478250 T C 357.60 PASS 1 64310 rs367969174 A G 59.60 PASS

顏色：染色體編號
POS：參考基因組上variant堿基的位置，如果是INDEL，則該位置是INDEL第一個堿基的位置
ID：variant的ID，如果在dbSNP中有SNP的id，則顯示其id，不然以點表示novel variant。
REF：參考序列上該位點對應的堿基
ALT：與參考序列上的堿基相比發生了突變的堿基，即Variant的堿基
QUAL：Phred格式（Phred_scaled）的質量值，表示該位點存在Variant的可能性，值越高表示突變可能性越大
FILTER：理想情況下，QUAL這個值應該是用所有的錯誤模型算出來的，這個值就可以代表正確的變異位點了，但是事實是做不到的。因此，還需要對原始變異位點做進一步的過濾。無論你用什么方法對變異位點進行過濾，過濾完了之后，在FILTER一欄都會留下過濾記錄，如果是通過了過濾標準，那么這些通過標準的好的變異位點的FILTER一欄就會注釋一個PASS，如果沒有通過過濾，就會在FILTER這一欄提示PASS的其他信息（如：LowQual）。如果這一欄是一個"."的話，就說明沒有進行過任何過濾。

以上幾列是最先關注的，接下來還有兩列也是蠻重要的FORMAT和最后一列（最后一列一般為樣品名），兩者和一起則為基因型信息，前者為格式，后者為對應的數據，如：

GT:AD:DP:GQ:PL 0/1:6,5:11:99:138,0,153

GT：表示樣品的基因型，對于二倍體生物，GT值表示的是樣本在這個位點所攜帶的兩個等位基因。0表示跟REF一樣，1表示跟ALT一樣，2表示有第二個ALT;當只有一個ALT等位基因時：0/0表示純合子并跟REF一致;0/1表示雜合子，有兩個allele，一個是ALT，另一個是REF;1/1表示純合子并都為ALT
AD：兩個以逗號分隔的值，分別表示覆蓋到REF和ALT堿基的reads數，也就是REF和ALT對應的測序深度
DP：表示覆蓋在這個位點的總reads數，也就是這個位點的測序深度（并不是指具體有多少個reads數量，而是大概滿足一定質量值要求的reads數）
PL：三個逗號分隔的值，分別對應該位點的三個基因型0/0，0/1，1/1的沒經過先驗的標準化Phred-scaled似然值（L），L=-10lgP，P為支持該基因型的概率，3個概率總和為1;因此，L這個值越小，支持概率就越大，也就是說是這個基因型的可能性越大。
GQ：表示基因型的質量值，Phred格式（Phred_scaled）的質量值，Phred值 = -10 * log （1-p） p為基因型存在的概率，表示該位點基因型存在的可能性。

最后則是INFO列所包含的信息：

AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636 AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421

AC：表示該Allele的數目，Allele數目為1表示雙倍體的樣本在該位點只有1個等位基因發生了突變
AF：表示Allele的頻率，Allele頻率為0.5表示雙倍體的樣本在該位點只有50%的等位基因發生了突變
AN：表示Allele的總數目

即：對于1個二倍體 sample而言：則基因型 0/1 表示sample為雜合子，Allele數為1（雙倍體的sample在該位點只有1個等位基因發生了突變），Allele的頻率為0.5（雙倍體的 sample在該位點只有50%的等位基因發生了突變），總的Allele為2; 基因型 1/1 則表示sample為純合的，Allele數為2，Allele的頻率為1，總的Allele為2。

DP：樣本在這個位置的reads覆蓋度，是一些reads被過濾掉后的覆蓋度（跟上面提到的DP類似）
FS：使用Fisher's精確檢驗來檢測strand bias而得到的Fhred格式的p值，值越小越好
MQ：表示覆蓋序列質量的均方值RMS Mapping Quality
BaseQRankSum：來自Wilcoxon的Z分數 Alt與Ref基本質量的秩和測試
ClippingRankSum：Z 得分來自 Wilcoxon 的 Alt 與 Ref 硬剪切基數的秩和檢驗
過量Het：用于精確檢驗過量雜合度的Phred標度p值
MLEAC：對于每個ALT等位基因，等位基因計數（不一定與AC相同）的最大似然期望（MLE），順序與列出的順序相同
MLEAF：對于每個ALT等位基因，等位基因頻率（不一定與AF相同）的最大似然期望（MLE），順序與列出的順序相同
MQRankSum：Z 得分來自 Wilcoxon 的 Alt 與 Ref 讀取映射質量的秩和測試
QD：變異置信度/深度質量
ReadPosRankSum：來自Wilcoxon的Z得分 Alt與Ref讀取位置偏差的Rancoxon秩和測試
SOR：2x2 列聯表的對稱比值比，用于檢測鏈偏置

參考：

https://www.biostars.org/p/187068/

本文出自于?http://www.bioinfo-scrounger.com?轉載請注明出處

總結

以上是生活随笔為你收集整理的VCF格式解析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

格式
vcf

上一篇：川大计算机考研失败经历,失败过，又成功了
下一篇： Linux应用程序开发之man手册汉化+