推荐阅读:变异检测到底应该用什么软件?
原文見:Validating generalized incremental joint variant calling with GATK HaplotypeCaller, FreeBayes, Platypus and samtools
說到變異檢測(cè),可能大家第一個(gè)想到的工具就是GATK HaplotypeCaller。它很出名,所以用的人多,為什么用的人多?是因?yàn)榇蠹衣犝f他很準(zhǔn),但是到底有多準(zhǔn)呢?其實(shí)大家都不會(huì)去深究,不過沒關(guān)系,有人會(huì)幫我們?nèi)プ鲈u(píng)測(cè)。
在2014年就有一篇博客,用NA12878/NA12891/NA12892 trio數(shù)據(jù)集對(duì)GATK HaplotypeCaller, FreeBayes, Platypus 和samtools 這五個(gè)軟件做了一個(gè)比較,下面是比較結(jié)果。
首先作者這幾個(gè)工具同時(shí)對(duì)所有樣本進(jìn)行變異檢測(cè),因?yàn)樗鼈兌继?hào)稱可以利用群體結(jié)構(gòu)相互驗(yàn)證,提高結(jié)果的正確性。
群體變異檢測(cè)先不要被這個(gè)條形圖的明顯反差誤差,以為Platypus非常差,其實(shí)它們都在一個(gè)數(shù)量級(jí)上。在同一個(gè)數(shù)量級(jí)上,GATK的HaplotypeCaller在精度和準(zhǔn)確上都的確比其他軟件好。也可以發(fā)現(xiàn)samtools其實(shí)在找indels更加的粗獷,找到了更多本來不存在的indels,但是在snp上的表現(xiàn)其實(shí)是一致的。
下一步是比較群體、混池和單個(gè)樣本檢測(cè)。這里說明一下混池,所謂的混池就是把多個(gè)樣本混在一起測(cè)序,丟失了個(gè)體信息。
為什么要研究單個(gè)樣本的變異效果呢?主要是為了提高效率,便于并行。
混池檢測(cè)表現(xiàn) 單樣本檢測(cè)這上面兩個(gè)圖其實(shí)和之前那個(gè)圖類似,但是的確在精度上和準(zhǔn)度上有些降低。并且samtools的假陽性依舊非常感人。
最后說說我的看法:
這篇博客主要是看檢測(cè)后的數(shù)據(jù)集效果,而沒有看變異過濾后效果。GATK的優(yōu)勢(shì)在于,能夠利用機(jī)器學(xué)習(xí)的方法根據(jù)已有變異數(shù)據(jù)庫進(jìn)一步提高結(jié)果的準(zhǔn)確度。但是對(duì)于植物而言,所能做的就是硬指標(biāo)過濾。
因此,如果做人類,最推薦的工具是GATK,因?yàn)楸憩F(xiàn)的確很好。而且人類還會(huì)不斷增加樣本,需要使用GVCFS文件解決N+1的問題
如果是植物,我目前就用freebayes了,效率高,表現(xiàn)也不錯(cuò)。同時(shí)強(qiáng)烈推薦閱讀這篇文獻(xiàn)"Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。
植物多倍體找SNP策略1植物多倍體找SNP策略2
還有這三篇文章(可惜已經(jīng)被原作者刪了):
- variant分析階段小結(jié)1-基礎(chǔ)知識(shí)
- variant分析階段小結(jié)2-尋找變異并過濾
- variant分析階段小結(jié)3-對(duì)變異進(jìn)行注釋
總結(jié)
以上是生活随笔為你收集整理的推荐阅读:变异检测到底应该用什么软件?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 访谈Stuart Davidson:Sk
- 下一篇: MariaDB表表达式(2):CTE