拼接 结果集_MetaQuast:评估宏基因组拼接
MetaQuast:評估宏基因組拼接
MetaQUAST: evaluation of metagenome assemblies
Bioinformatics, [4.531]
2015-11-26 Method
DOI: https://doi.org/10.1093/bioinformatics/btv697
第一作者:Alla Mikheenko
通訊作者:Alexey Gurevich
其它作者:Vladislav Saveliev
作者主要單位:
圣彼得堡國立大學(xué)轉(zhuǎn)化生物醫(yī)學(xué)研究所算法生物技術(shù)中心,圣彼得堡199034,俄羅斯(Center for Algorithmic Biotechnology, Institute of Translational Biomedicine, St. Petersburg State University, St. Petersburg 199034, Russia)
熱心腸日報(bào)
MetaQUAST是一款專門針對宏基因組拼接結(jié)果評估的工具;
評估主要步驟包括比對參考序列確定未知物種含量,提供基于多樣性參考基因組的綜合報(bào)告,通過檢測嵌合重疊群確定是否存在高度相關(guān)的物種;
通過4種常用拼接工具分析一個(gè)模擬數(shù)據(jù)集和兩個(gè)真實(shí)數(shù)據(jù)集的結(jié)果進(jìn)行評估,測試結(jié)果表明MetaQUAST性能良好,同時(shí)發(fā)現(xiàn)沒有一個(gè)軟件在各方面都能優(yōu)于其它軟件;
該軟件可為用戶選擇適合的拼接工具提供指導(dǎo)。
點(diǎn)評:宏基因組拼接軟件眾多,但由于缺少參考數(shù)據(jù)庫,拼接結(jié)果評估困難。QUAST是2013年發(fā)表于Bioinformatics,是一款非常流行的基因組拼接結(jié)果評估軟件,引用1759次。2016年又推出了專門針對宏基因組的MetaQUAST版本,引用125次(引用統(tǒng)計(jì)截止19年9月17日)。
摘要
簡介:在過去的幾年中,我們目睹了新的宏基因組拼接方法的快速發(fā)展。盡管有許多針對單基因組裝配的基準(zhǔn)實(shí)用程序,但是沒有公認(rèn)的用于宏基因組特異性類似物的評估和比較工具。在本文中,我們提出了MetaQUAST,它是QUAST的一種修改版本,是基于重疊群與參照對齊的基因組拼接評估的最先進(jìn)工具。MetaQUAST通過檢測這些宏基因組數(shù)據(jù)集的特征:(i)未知物種含量通過與下載的參考序列比對來確定;(ii)提供巨大多樣性的多個(gè)基因組的綜合報(bào)告;(iii)通過檢測嵌合重疊群而存在高度相關(guān)的物種。我們通過比較一個(gè)模擬數(shù)據(jù)集和兩個(gè)真實(shí)數(shù)據(jù)集上的幾個(gè)主要組裝軟件來演示MetaQUAST性能。
可用性和實(shí)施:http://quast.sourceforge.net/metaquast
軟件主頁,已經(jīng)更新至3.2版本,網(wǎng)站也更新,并隨整合為QUAST中的一部分
對四種宏基因組拼接軟件基于MetaHIT數(shù)據(jù)組裝結(jié)果比較
聯(lián)系方式:aleksey.gurevich@spbu.ru
1 背景
1 Introduction
宏基因組學(xué)研究直接取自環(huán)境樣品的遺傳物質(zhì)。NGS技術(shù)允許甚至從低豐度生物體中測序短讀長而無需克隆。然而,在這些實(shí)驗(yàn)中產(chǎn)生的數(shù)據(jù)往往是巨大的,嘈雜的,并且包含來自數(shù)千種物種的片段,其豐度和同源性變化很大。這些挑戰(zhàn)導(dǎo)致了宏基因組裝的新計(jì)算問題,其次是多種方法(Boisvert等,2012; Peng等,2012; Haider等,2014),這需要標(biāo)準(zhǔn)的基準(zhǔn)程序進(jìn)行比較。
大多數(shù)現(xiàn)有的組裝評估方法不適用于宏基因組。然而,存在計(jì)算關(guān)于組裝的讀長可能性的方法(Clark等人,2013; Ghodsi等人,2013),或確定單拷貝保守的普遍存在的基因含量(Parks等人,2015; Simao等人,J.Biol.Chem.2007,1987)。,2015)。不幸的是,沒有一個(gè)使用重疊群比對與密切相關(guān)的參考基因組。在本文中,我們介紹了MetaQUAST,這是一種基于QUAST的宏基因組特異性修改版軟件(Gurevich等,2013)。QUAST基于與給定的密切相關(guān)的參考基因組的比對來檢測錯(cuò)誤,并且還報(bào)告和繪制諸如N50和基因含量的重疊群統(tǒng)計(jì)數(shù)據(jù),其甚至在沒有用戶提供參考序列的情況下給出了組成物種的概述。為了解釋宏基因組拼接,MetaQUAST增加了幾個(gè)新功能:(i)使用無限數(shù)量參考基因組的能力,(ii)自動(dòng)物種內(nèi)容檢測,(iii)嵌合重疊群的檢測(種間錯(cuò)誤組裝)和(iv)顯著的重新設(shè)計(jì)
2 材料和方法
2.1 基于參考的評估
有充分研究的具有已知物種含量的宏基因組數(shù)據(jù)集(Qin等,2010)或模擬數(shù)據(jù)(Boisvert等,2012; Namiki等,2012)。它們可與MetaQUAST一起用于評估基于參考基因組比對的裝配方法。多參考數(shù)據(jù)庫的流程包括以下四個(gè)主要步驟(附圖S1):
附圖1. 基于參考數(shù)據(jù)庫的評估流程
MetaQUAST pipeline for reference-based evaluation
所有參考基因組都連接成一個(gè)文件(組合參考)。QUAST輸入所有輸入組裝結(jié)果與參考數(shù)據(jù)。我們強(qiáng)制QUAST報(bào)告所有不確定的比對,而不是僅報(bào)告一個(gè)。對于包含密切相關(guān)物種的宏基因組數(shù)據(jù)集,所有模糊比對都是必不可少的。
我們將所有重疊群分成組,每組包含映射到特定參考基因組的序列(基于先前產(chǎn)生的比對)。映射到幾個(gè)基因組的重疊群的組。無法比對的重疊群被放入一個(gè)額外的組中。
接下來,分別為每個(gè)輸入?yún)⒖紨?shù)據(jù)庫分別運(yùn)行QUAST,為其提供相應(yīng)的一組重疊群。無法比對的重疊群組不再進(jìn)行比對。
最后,所有QUAST運(yùn)行的結(jié)果將組合在一起,形成摘要報(bào)告和可視化。用戶可以查看每次運(yùn)行的詳細(xì)完整QUAST輸出,以及整個(gè)數(shù)據(jù)集結(jié)果的概覽。
除了QUAST標(biāo)準(zhǔn)質(zhì)量統(tǒng)計(jì)數(shù)據(jù)集(N50,基因組比例genome fraction等)之外,我們還添加了兩個(gè)指標(biāo):
種間易位(interspecies translocations)數(shù)量:一種錯(cuò)誤組裝,其中側(cè)翼序列與不同的參考序列對齊[類似于(Gurevich等人2013)中引入的易位,其中側(cè)翼序列與不同的染色體對齊]。
可能錯(cuò)誤組裝的重疊群的數(shù)量:包含重疊群大部分對齊和未對齊片段的數(shù)量,因此可能包含具有未知基因組的種間易位。
與使用GeneMarkS的常規(guī)QUAST相比,MetaQUAST使用MetaGeneMark(Zhu等,2010)進(jìn)行基因預(yù)測,該基因預(yù)測是專門為宏基因組開發(fā)的。
2.2 從頭評估
2.2 De novoevaluation
多數(shù)實(shí)驗(yàn)宏基因組學(xué)研究使用的是從頭組裝,而沒有參考信息。在沒有輸入?yún)⒖夹蛄谢蛭锓N列表的情況下執(zhí)行MetaQUAST時(shí),它將嘗試識別物種含量并自動(dòng)提取參考序列。請注意,該算法在假設(shè)研究人員對微生物群落最感興趣的前提下工作,因此搜索僅限于細(xì)菌和古細(xì)菌。
工作流程(請參見附圖S2)首先應(yīng)用BLASTn(Camacho等,2009)將重疊群與SILVA數(shù)據(jù)庫中的16S rRNA序列進(jìn)行比對(Quast等,2012)。幾乎所有微生物物種中都存在的16S亞基是高度保守的序列,但還包括一個(gè)高變區(qū),可用于將生物分類。對于每個(gè)檢測到的物種,具有最高評分的一個(gè)菌株將保留在組裝中。
查詢針對NCBI的物種對對應(yīng)豐度的前50名,下載每個(gè)物種的最少片段的序列。由于已知的問題與生物之間的rRNA操縱子的拷貝數(shù)不同以及16S基因的基因組內(nèi)部異質(zhì)性不同,某些下載的基因組序列可能在所評估的組裝中不具有代表性。MetaQUAST嘗試通過除去重疊群覆蓋率小于10%(對于所有組裝)的基因組來過濾假陽性。在特殊情況下,當(dāng)所有序列的基因組分?jǐn)?shù)都非常低時(shí),該列表將保持未經(jīng)過濾的狀態(tài)。
結(jié)果,我們獲得了可能由組裝序列代表的一組基因組。我們使用這些序列(如2.1節(jié)中所示)啟動(dòng)MetaQUAST,并產(chǎn)生與常規(guī)基于參考的分析相同的輸出文件。
我們的方法是準(zhǔn)確性和時(shí)間/內(nèi)存消耗之間的折衷。為了獲得更精確的結(jié)果,我們建議使用MGTAXA(Williamson et al。,2012)或基于精確讀長比對的方法,例如Kraken(Wood and Salzberg,2014)或CLARK(Ounit et al。,2015)。通過對整個(gè)NCBI-nr數(shù)據(jù)庫進(jìn)行BLASTx(Altschul等,1990)搜索可以獲得非常精確的結(jié)果。所獲取的物種名稱列表可以以純文本格式輸入到MetaQUAST,使其從NCBI數(shù)據(jù)庫下載指定的序列,并將其用于基于參考的評估(請參閱第2.1節(jié))。
2.3 根據(jù)讀長比對細(xì)化裝配錯(cuò)誤
Refining misassemblies based on read mapping
常規(guī)的單基因組QUAST算法將重疊群和參考基因組之間的結(jié)構(gòu)差異報(bào)告為錯(cuò)配。但是,在某些情況下,它們證明可能是結(jié)構(gòu)變異(SV),而不是真實(shí)的裝配錯(cuò)誤。在分析沒有相近參考序列的宏基因組學(xué)群落時(shí),這一點(diǎn)尤其重要。MetaQUAST通過考慮配對讀長映射解決了這個(gè)問題(附圖S3)。MetaQUAST應(yīng)用結(jié)構(gòu)變異查找算法來基于不一致的讀對檢測斷點(diǎn),然后將其用于消除共享的斷點(diǎn)breakpoints。
2.3.1 SV檢測
SV detection
MetaQUAST利用bowtie2(Langmead等人,2009)對組合的參考基因組進(jìn)行讀長比對。bowtie2生成的BAM文件(Li等,2009)按坐標(biāo)排序,并作為SV發(fā)現(xiàn)軟件的輸入。我們選擇了Manta(Chen等人,2015)SV挖掘軟件,在我們的測試數(shù)據(jù)集上,其靈敏度和精度均優(yōu)于LUMPY(Layer等人,2014)和Pindel(Ye等人,2009)。
2.3.2 組裝錯(cuò)誤分類
Misassembly classification
將QUAST報(bào)告的每個(gè)組裝錯(cuò)誤與所有發(fā)現(xiàn)的SV的斷點(diǎn)置信區(qū)間進(jìn)行比較。如果錯(cuò)誤組裝的開始和結(jié)束坐標(biāo)都在SV間隔內(nèi)擴(kuò)展了一個(gè)小δ,則MetaQUAST會(huì)將此錯(cuò)誤組裝標(biāo)記為假的,并且將不包括在最終報(bào)告中。如果在SV和錯(cuò)誤組裝之間未發(fā)現(xiàn)相似之處,則認(rèn)為是真實(shí)的。默認(rèn)δ值為100 bp,這是基于對真實(shí)和模擬數(shù)據(jù)集上出現(xiàn)的數(shù)十個(gè)SV進(jìn)行手動(dòng)分析的經(jīng)驗(yàn)結(jié)果。
這種方法使我們能夠顯著減少所有三個(gè)測試數(shù)據(jù)集上錯(cuò)誤報(bào)告的組裝錯(cuò)誤的數(shù)量。有關(guān)詳細(xì)的基準(zhǔn)測試結(jié)果,請參見補(bǔ)充材料。
2.4 可視化
Visualization
MetaQUAST通過大量鳥瞰圖補(bǔ)充了QUAST可視化效果。此外,還將生成一個(gè)交互式摘要HTML報(bào)告,該報(bào)告結(jié)合了所有程序集和引用的關(guān)鍵統(tǒng)計(jì)信息。圖表和摘要HTML在補(bǔ)充材料中進(jìn)行了演示。
我們將匯總圖分為三組:
錯(cuò)配Misassembly圖:按類型(錯(cuò)位relocations,倒位inversions,易位translocations和種間易位)進(jìn)行錯(cuò)位分布。它們以兩種視圖形式存在:所有組裝/參考序列和所有參考/組裝。
公制級別Metric-level的圖:對于所有組裝和所有參考序列,每個(gè)公制都有一個(gè)。基因組是從所有裝配中的平均值排序,從最佳開始。
Krona圖表(Ondov等人,2011年):每個(gè)組裝一張,整個(gè)數(shù)據(jù)集一張。圓圖顯示了分類概況。僅在從頭評估模式下可用。
交互式摘要HTML報(bào)告匯總了所有統(tǒng)計(jì)信息,參考序列和組裝的表和圖。每個(gè)表格行均顯示組合參考的值,并且可以展開以顯示每個(gè)參考的值(請參見圖1)。藍(lán)色/紅色熱圖強(qiáng)調(diào)離群值。
圖1. 基于MetaHIT數(shù)據(jù)集的HTML格式報(bào)告部分截圖
Part of a summary HTML report for the MetaHIT dataset.
每個(gè)單元格按內(nèi)容著色。在示例中,每個(gè)參考基因組比例的信息擴(kuò)展開來。
結(jié)果
Results
我們在三個(gè)數(shù)據(jù)集上測試了MetaQUAST:CAMI(http://cami-challenge.org)模擬群落數(shù)據(jù)集,MetaHit的MH0045樣本和HMP的SRS077736舌背女性樣本(人類微生物組計(jì)劃等,2012)。我們使用在宏基因組學(xué)研究中常用的四種主要組裝程序?qū)@些數(shù)據(jù)進(jìn)行拼接:IDBA-UD(Peng等人,2012),SPAdes(Bankevich等人,2012),Ray Meta(Boisvert等人,2012)和SOAPdenovo2(Luo等人,2012年)。補(bǔ)充材料中展示了所有三個(gè)數(shù)據(jù)集的比較結(jié)果和MetaQUAST性能。
對這些數(shù)據(jù)集的比較表明,沒有任何組裝程序可以稱為宏基因組學(xué)拼接中無可爭議的領(lǐng)導(dǎo)者。因此,諸如MetaQUAST之類的工具對群落而言具有重要的現(xiàn)實(shí)意義。這將幫助科學(xué)家評估不同的組裝軟件,并為他們的研究選擇最佳的分析。
Reference
Alexey Gurevich, Vladislav Saveliev, Nikolay Vyahhi & Glenn Tesler. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 2013, 29: 1072-1075. doi:10.1093/bioinformatics/btt086
Alla Mikheenko, Vladislav Saveliev & Alexey Gurevich. MetaQUAST: evaluation of metagenome assemblies. Bioinformatics. 2016, 32: 1088-1090. doi:10.1093/bioinformatics/btv697
云筆記 云協(xié)作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細(xì)菌 人體上的生命 生命大躍進(jìn) 細(xì)胞暗戰(zhàn) 人體奧秘
寫在后面
學(xué)習(xí)擴(kuò)增子、宏基因組科研思路和分析實(shí)戰(zhàn),關(guān)注“宏基因組”
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的拼接 结果集_MetaQuast:评估宏基因组拼接的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 现金红利发放日是什么意思
- 下一篇: 简述大数据的数据管理方式_智能销售服务商