vcf文件格式详细解释
vcf具有表頭部分和正文部分,其中表頭部分是對正文部分中出現的縮寫的解釋。
vcf的正文部分,必須要有的是前面8列,一般來說有10列,分別是:
CHROM POS ID REF ALT QUAL FILTER [來自于##FILTER] INFO FORMAT 可能會有樣本的名稱CHROM 和 POS:參考序列名和variant的位置;如果是INDEL的話,位置是INDEL的第一個堿基位置。
ID:variant的ID。比如在dbSNP中有該SNP的id,則會在此行給出;若沒有,則用”.”表示其為一個novel variant。
REF 和 ALT:參考序列的堿基 和 Variant的堿基。
QUAL:Phred格式(Phred_scaled)的質量值,表 示在該位點存在variant的可能性;該值越高,則variant的可能性越大;計算方法:Phred值 = -10 * log (1-p)。 p為variant存在的概率; 通過計算公式可以看出值為10的表示錯誤概率為0.1,該位點為variant的概率為90%。
FILTER:使用上一個QUAL值來進行過濾的話,是不夠的。GATK能使用其它的方法來進行過濾,過濾結果中通過則該值為”PASS”;若variant不可靠,則該項不為”PASS”或”.”。
INFO:這一行是variant的詳細信息,內容很多,以下再具體詳述。
FORMAT 和 TTG11B:這兩行合起來提供了’TTG11B′這個sample的基因型的信息?!疶TG11B′代表這該名稱的樣品,是由BAM文件中的@RG下的 SM 標簽決定的。
“`
前面7列闡明該變異位點位于參考基因組的哪條染色體,哪個位置,是否被數據庫給標記了ID(通常說的是dbSNP),該位置的參考基因組是什么堿基,這個變異位點變異成了什么堿基。找到這個變異的軟件給它的質量值是多少,是否合格。
第8列 INFO 比較復雜,包含信息最多,看起來是一列,但是里面可以根據字段拆分成多列,都是 “TAG=Value”的形式,并使用”;”分隔。其中很多的TAG含義在VCF文件的頭部注釋信息##INFO中已給出。
常見的TAG有:
AC,AF 和,AN[A開頭的多和等位基因有關]:
AC(Allele Count) 表示該等位基因的數目;
AF(Allele Frequency) 表示等位基因的頻率;
AN(Allele Number) 表示等位基因的總數目。
對于1個diploid sample[二倍體樣本]而言:
基因型 0/1
表示sample為雜合子,等位基因數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),等位基因的頻率為0.5(雙倍體的
sample在該位點只有50%的等位基因發生了突變),總的等位基因為2;
基因型 1/1
表示sample為純合的,等位基因數為2,等位基因的頻率為1,總的等位基因為2。
DP:reads覆蓋度。是一些reads被過濾掉后的覆蓋度。[注意,第八列和第九列都有DP,都表示該位點覆蓋深度的信息,但是詳細意義可能是不同的大家可以探究一下,在head里面就可以找到相應信息]
Dels:進行SNP和INDEL calling的結果中,有該TAG并且值為0表示該位點為SNV,沒有則為INDEL。[可以根據這個tag分離indel和snv]
第9列信息:位點的基因型,測序深度的描述,一般有兩列內容,前者為格式,后者為格式對應的數據。
第九列包含標簽有GT,DP,FT,GL,PL,GP等等,這些標簽的含義可以在該vcf文件的表頭里面找到。即vcf文件中以 ##FORMAT 開頭的部分
GT:
樣品的基因型(genotype)。兩個數字中間用’/”分 開,這兩個數字表示雙倍體的sample的基因型。0表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個variant的allele。
因此: 0/0表示sample中該位點為純合的,和ref一致; 0/1 表示sample中該位點為雜合的,有ref和variant兩個基因型; 1/1
表示sample中該位點為純合的,和variant一致。
AD 和 DP:
AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個值,前者對應ref基因型,后者對應variant基因型;
DP(Depth)為sample中該位點的覆蓋度(一些reads被過濾掉的覆蓋度)。
GQ:
基因型的質量值(Genotype Quality)。Phred格式(Phred_scaled)的質量值,表示在該位點該基因型存在的可能性;該值越高,則Genotype的可能性越大;計算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
PL
指定三種基因型的質量值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。
總結
以上是生活随笔為你收集整理的vcf文件格式详细解释的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么30岁的工程师容易跳槽?
- 下一篇: 网页版俄罗斯方块