【重磅综述】长序列数据分析相关资源哪里找?一文读懂长序列测序数据分析的机遇与挑战!...
? ? ? ? ? ? ? ? 簡介? ? ? ? ? ? ? ? ?
標(biāo)題:長序列測序數(shù)據(jù)分析的機(jī)遇與挑戰(zhàn)
雜志:GenomeBiology
影響因子:10.806
發(fā)表時間:2020年05月08日
解讀:章小魚zxy
編輯:很跩的土豆
導(dǎo)讀:長序列測序(即三代測序)技術(shù)正克服精確性和通量方面的限制,逐漸應(yīng)用于基因組學(xué)的各個研究領(lǐng)域,因此專門的分析工具也應(yīng)運而生。但目前層出不窮的此類工具使研究者難以抉擇,為了更好地指導(dǎo)長序列測序數(shù)據(jù)的設(shè)計和分析,墨爾本大學(xué)Gouil團(tuán)隊綜述了長序列測序數(shù)據(jù)分析工具的當(dāng)前狀況,并提出一個在線交互式數(shù)據(jù)庫https://long-read-tools.org/。今天,我們將跟隨Gouil一起了解當(dāng)前長序列測序數(shù)據(jù)分析的機(jī)遇和挑戰(zhàn)。
文獻(xiàn)獲取:關(guān)注“三代測序”,回復(fù)“20201115”,獲取本研究原文。
? ? ? ? ? ? ? ? 正文? ? ? ? ? ? ? ? ?
1.?長序列測序和數(shù)據(jù)分析的現(xiàn)狀(The state of long-readsequencing and data analysis)
Nanopore和SMRT長序列測序技術(shù)依賴不同的原理。當(dāng)單鏈核苷酸序列通過nanopore時,Nanopore測序儀(MinION、GridION和PromethION)測量的是離子電流波動,不同的核苷酸對孔內(nèi)不同核酸延伸的抗性不同,因此可從特定的電流變換推斷堿基序列。SMRT測序儀(RSII、Sequel和Sequel II)檢測的是特定核苷酸的熒光事件,SMRT測序的序列長度受聚合酶的壽命限制。盡管Nanopore和SMRT是真正的長序列測序技術(shù),并且是本文的重點;但也有合成的長序列測序方法,包括連接序列、鄰位連接策略和光學(xué)測繪,可與真正長序列分析方法協(xié)同使用。
針對組裝基因組、甲基化、變異、異構(gòu)體、單倍型以及物種分析等不同的分析目的,從2011年后逐漸開發(fā)了基于長序列數(shù)據(jù)分析的各種軟件(如圖1a)。
通過檢索文獻(xiàn)、網(wǎng)絡(luò)資源和社交媒體,我們找到了354種長序列分析工具,其中大多數(shù)(262)中為Nanopore序列分析工具,170個為SMRT分析工具。我們進(jìn)一步根據(jù)功能將上述工具分為31個組。這確定了研究興趣發(fā)展的趨勢:由于長序列測序技術(shù)初始的通量問題,大多數(shù)工具都是經(jīng)非人類數(shù)據(jù)進(jìn)行測試;從頭組裝、錯誤校正和修飾分類的工具受到了最多關(guān)注,而轉(zhuǎn)錄組分析仍處于早期開發(fā)階段(如圖1b)。
如圖1c,我們對Nanopre和SMRT數(shù)據(jù)的分析流程進(jìn)行了概述,重點介紹了通用工具;同時介紹了長序列分析的原理和潛在陷阱,集中于一些主要類型的下游分析,如結(jié)構(gòu)變異信息獲取,錯誤糾正,堿基修飾的檢測和轉(zhuǎn)錄組。
圖1. 長序列分析工具和流程概述。a,已發(fā)布的工具;b,功能類別;c,用于SMRT和Nanopore數(shù)據(jù)的典型長序列分析流程。
Fig. 1 Overview of long-read analysis tools and pipelines. a,Release of tools identified from various sources and milestones of long-read sequencing. b,Functional categories. c, Typicallong-read analysis pipelines for SMRT and nanopore data. Six main stages are identified through the presented workflow (i.e. basecalling, quality control, read error correction, assembly/alignment, assembly refinement, and down stream analyses). The green-coloured boxes represent processes common to both short-read and long-read analyses. The orange-coloured boxes represent the processes unique to long-read analyses. Unfilled boxes represent optional steps. Commonly used tools for each step in long-read analysis are within brackets. Italicssignify tools developed by either PacBio or ONT companies, and non-italics signify tools developed by external parties. Arrows represent the direction of the workflow.
2. 堿基判讀(Basecalling)
任何長序列分析的第一步都是堿基判讀,或是將原始序列轉(zhuǎn)換到核酸序列。長序列分析中的此步驟比在短序列分析中更受到重視,而短序列分析中堿基檢測依賴專門軟件,更標(biāo)準(zhǔn)化。Nanopore堿基檢測比SMRT堿基檢測更復(fù)雜,也更具有選擇性:我們發(fā)現(xiàn)26個堿基判讀工具中有23個與Nanopore測序相關(guān)的。
在SMRT測序中,連續(xù)的熒光被記錄為一個movie。由于模版是環(huán)形的,聚合酶可能會多次越過DNA片段的兩條鏈。SMRT堿基檢測從將熒光信號轉(zhuǎn)換為脈沖信號,再將脈沖信號轉(zhuǎn)換為堿基開始,形成連續(xù)的長序列。然后將這種長序列拆分為多個子序列,其中每個子序列對應(yīng)一次被測的文庫,而沒有連接序列。子序列存儲為未比對的BAM文件。將這些子序列比對,可以得出插入序列的一致性環(huán)狀序列(CCS)。SMRT堿基判讀程序主要在于內(nèi)部開發(fā),并需要特殊訓(xùn)練。當(dāng)前SMRT的堿基檢測流程就是CCS。
Nanopore原始數(shù)據(jù)是在HDF5的基礎(chǔ)上以fast5格式保存的4kHz下測量的電流強(qiáng)度值。Nanopore測序的堿基檢測是一個活躍的研究領(lǐng)域,對其進(jìn)行訓(xùn)練的化學(xué)方法的算法正在迅速發(fā)展。ONT提供了堿基判讀的多種軟件,如Guppy和其他進(jìn)階版軟件(Flappie,Scrappie,Taiyaki,Runnie和Bonito)。總的來說,堿基判讀軟件具有最佳準(zhǔn)確性和最穩(wěn)定的性能,并且適合大多數(shù)用戶。進(jìn)階版的堿基判讀軟件可以用來測試堿基特征,例如均聚物準(zhǔn)確性、變異體檢測或堿基修飾檢測,但不一定針對速度和整體準(zhǔn)確性進(jìn)行優(yōu)化。
也可以使用具有不同網(wǎng)絡(luò)結(jié)構(gòu)的獨立堿基判讀軟件,最著名的是Chiron。當(dāng)然,作為使用者,我們應(yīng)該知道堿基判讀軟件的準(zhǔn)確度實際低于宣傳值。比如目前對ONT的堿基檢測進(jìn)行了人、酵母和細(xì)菌DNA混合物的訓(xùn)練,但它們在富含非CG甲基化的植物DNA上的性能可能較低。
?
3.?錯誤、糾錯和拋光(Errors, correction, and polishing)
SMRT和Nanopore技術(shù)的單序列精度均比短序列測序更低。就SMRT而言,一致性環(huán)形序列的質(zhì)量很大程度上取決于序列讀取的次數(shù)——單個SMRT-bell分子的測序深度。若錯誤不是隨機(jī)的,增加測序深度將不能消除它們。但是子序列由插入/缺失帶來的隨機(jī)錯誤比錯配更多,因此建議使用通用方法來避免系統(tǒng)誤差。盡管如此,CCS序列仍有錯誤并對均聚物表現(xiàn)出偏好性。就Nanopore而言,序列質(zhì)量與DNA序列的長度無關(guān)。序列質(zhì)量取決于實現(xiàn)核酸通過孔的最佳轉(zhuǎn)運速度,通常在測序運行的后期降低,從而影響測序質(zhì)量。較為常見的是插入和替換,隨機(jī)但不均勻分布。
盡管目前長序列測序的準(zhǔn)確性已足以確定基因組來源,但某些仍需要很高的堿基水平的準(zhǔn)確性,包括從頭組裝、變異檢測或定義內(nèi)含子-外顯子邊界。可以采用單獨的長序列分析方法(非混合)和利用其他短序列的方法(混合)。如圖2所示。在非混合方法中,首先將所有序列比對,然后使用一致性序列來糾錯單個序列;此時就可以將這些糾錯過的片段用于組裝或其他應(yīng)用。此外,還可以根據(jù)短序列的使用方法將混合糾錯方法進(jìn)一步分類。
組裝完成后,從contigs中清除剩余錯誤的過程稱為“拋光(polishing)”。其中一種方法是通過使用Arrow(用于SMRT子序列)或Nanopolish(用于Nanopore電流軌跡)來提高一致性序列的準(zhǔn)確性。對于Nanopore數(shù)據(jù),polishing還考慮了堿基修飾來提高裝配的準(zhǔn)確性。
盡管長序列測序的準(zhǔn)確性不斷提高,但在許多應(yīng)用中糾錯仍然是必不可少的。我們確定了62個能夠進(jìn)行糾錯的工具。校正裝配需要綜合使用多種工具(如Racon、Pilon和Nanopolish)進(jìn)行耐心細(xì)致的工作。但由于缺乏權(quán)威的糾錯流程,使得很多糾錯工具無法很好地應(yīng)用于深度測序或大型基因組中。此外大多數(shù)工具在設(shè)計時都考慮了單倍體組件,但等位基因變異、重復(fù)和基因家族可能無法正確處理。
圖2. 糾錯(a)和拋光(b)的范例。長序列和組裝中的錯誤用紅叉表示,非混合方法僅需長序列,混合方法還需準(zhǔn)確的短序列(紫色)。
Fig. 2 Paradigms of error correction(a) and polishing (b). Errors in long reads and assembly are denoted by red crosses. Non-hybrid methods only require long reads, while hybrid methods additionally require accurate short reads (purple).
4.檢測結(jié)構(gòu)變異
盡管短序列能夠準(zhǔn)確檢測單核苷酸變異和小片段插入或刪除,但不適用于檢測長序列改變。大于50bp的結(jié)構(gòu)變異(SV),如插入、刪除、重復(fù)、染色體倒位或易位更適合用長序列測序。長序列測序跨越重復(fù)元件或重復(fù)區(qū)域的能力具有獨特的錨點,從而有利于從頭組裝和SV檢測。即使是相對較短的SMRT片段(5kb),也可以鑒定出人類基因組中先前被短序列技術(shù)遺漏的結(jié)構(gòu)變異。
5.?檢測堿基修飾
除了規(guī)范的A、T、C和G堿基外,DNA還包括修飾堿基,這些堿基的性質(zhì)和頻率在生物體和組織間會發(fā)生改變,6mA、4mC、5mC在細(xì)菌中很常見,5mC是真核生物中最常見的堿基修飾,而5hmC、5fC和5caC已經(jīng)在某些哺乳動物細(xì)胞中檢測到,但尚未得到深入表征;此外由DNA損傷引起的更多堿基修飾仍在低頻發(fā)生。SMRT測序可以檢測到6mA、4mC、5mC和5hmC的DNA修飾。Nanopore測序中,經(jīng)修飾的RNA或DNA堿基對電流通過孔的影響與未修飾堿基的影響不同,從而導(dǎo)致信號移位(如表1)。如圖3,可以通過三種不同的方法在堿基判讀后和比對后識別這些變化:(a)通過與計算機(jī)參考庫、對照或未修飾樣本比對;(b)使用預(yù)訓(xùn)練模型;(c)直接使用堿基判讀軟件。
?表1 檢測Nanopore數(shù)據(jù)堿基修飾的工具和測量
圖3 長序列測序中檢測堿基修飾的方法。
Fig.3 Methods to detect base modifications in long-read sequencing.?Base modifications can be inferred from their effect on the current intensity (nanopore)and inter-pulse duration (IPD, SMRT). Strategies to call base modifications in nanopore sequencing and the corresponding tools are further depicted.
?
6.?分析長序列轉(zhuǎn)錄組(Analysing long-read transcriptomes)
可變剪切是增加真核生物基因表達(dá)復(fù)雜度的主要機(jī)制,然而短序列不能完全組裝也不能準(zhǔn)確定量所表達(dá)的異構(gòu)體,尤其是在復(fù)雜的位點中。長序列測序可能會通過測序全長轉(zhuǎn)錄本來解決這個問題,我們統(tǒng)計了36種與長序列轉(zhuǎn)錄組分析相關(guān)的工具。大多數(shù)長序列異構(gòu)體檢測工具是通過將比對和糾錯的序列聚類并拼接為異構(gòu)體,但是不同工具之間的具體實現(xiàn)有所不同。PacBio公司的ISO-SEQ3是最成熟的長序列轉(zhuǎn)錄組分析流程,能夠裝配全長的轉(zhuǎn)錄本;它為SMRT序列執(zhí)行預(yù)處理,通過層次聚類和迭代合并從頭發(fā)現(xiàn)轉(zhuǎn)錄本,并進(jìn)行修飾。Cupcake用于下游分析,提供了豐度信息并進(jìn)行junction分析。但是Iso-Seq的文庫準(zhǔn)備通常需要大小分級,這使得絕對定量和相對定量變得困難;同時昂貴的成本也是需要考慮的問題之一。因此,IsoCon、SQANTI、TALON等異構(gòu)體檢測流程,以及FLAIR、Tama、IDP、TAPIS、Mandalorion Episode II等異構(gòu)體注釋流程應(yīng)運而生,從不同方面改善了Iso-Seq的上述問題。但此項功能仍需要進(jìn)一步的研發(fā)和調(diào)整。如圖4,展示了轉(zhuǎn)錄組分析的類型及步驟。
圖4 轉(zhuǎn)錄組分析的類型及步驟
Fig.4 Types of transcriptomic analyses and their steps.The choice of sequencing protocol amongst the six available workflows affects the type, characteristics, and quantity of data generated. Only direct RNA sequencing allows epitranscriptomic studies, but SMRT direct RNA sequencing is a custom technique that is not fully supported. The remaining non-exclusive applications are isoform detection, quantification, and differential analysis. The dashed lines in arrows represent upstream processes to transcriptomics
??
7.?組合長序列、合成長序列和短序列(Combining long reads, synthetic long reads, and short reads)
僅基于長序列的組裝通常會產(chǎn)生高度完整和連續(xù)的基因組,但是多數(shù)情況下,短序列或合成長序列技術(shù)產(chǎn)生的序列可進(jìn)一步改善結(jié)果。不同的技術(shù)可以以不同的規(guī)模進(jìn)行干預(yù):短序列可確保基本水平的準(zhǔn)確性,高質(zhì)量5-15kb SMRT序列可產(chǎn)生良好的contigs,而超長(100kb+)Nanopore序列、光學(xué)映射或Hi-C提升了contigs拼裝后轉(zhuǎn)變?yōu)槿旧w的能力。將這些技術(shù)應(yīng)用到一個基因組計劃中將是非常昂貴的。然而,應(yīng)用在一些基因子集中是比較常見的,尤其Nanopore/SMRT的短序列測序。
對于結(jié)構(gòu)變化或堿基修飾的檢測,從SMRT和Nanopore數(shù)據(jù)獲取的正交支持可用于確認(rèn)發(fā)現(xiàn)和限制假陽性。諸如Unicycler之類的工具整合了長序列和短序列數(shù)據(jù)以生成混合組裝,而Canu、Pilon、racon等工具也具有為實現(xiàn)此目的的流程。然而工具和數(shù)據(jù)類型的組成仍然是一個挑戰(zhàn),通常需要大量的人工整合。
?
8.?長序列測序數(shù)據(jù)分析工具目錄:long-read-tools.org (long-read-tools.org: acatalogue of long-read sequencing data analysis tools)
在過去十年中,工具的迅猛發(fā)展反映了生物學(xué)領(lǐng)域?qū)﹂L序列測序日益增長的興趣。有開源靜態(tài)目錄(github.com/B-UMMI/long-read-catalog)、各個實驗室為特定目的開發(fā)的自定義流程(Search results from GitHub)以及其他將其歸納為一個更廣泛的研究社區(qū)的嘗試。能夠輕松識別存在或不存在的工具對于計劃和執(zhí)行最佳實踐分析,建立全面的基準(zhǔn)并指導(dǎo)新軟件的開發(fā)至關(guān)重要。因此我們引入了https://long-read-tools.org/,這是一個整合了長序列數(shù)據(jù)分析工具的實時數(shù)據(jù)庫。用戶可以按照技術(shù)和預(yù)期分析類型交互式搜索相應(yīng)工具。除了真正的長序列測序技術(shù)之外,我們還整合了合成長序列方法。https://long-read-tools.org/是MIT許可下的一個開源項目,代碼可通過GitHub獲得。我們鼓勵研究人員直接通過GitHub或通過網(wǎng)頁為相關(guān)工具和數(shù)據(jù)庫的改進(jìn)提供意見。
總結(jié): 長序列測序技術(shù)為基因組學(xué)研究開辟了新的途徑,但目前仍面臨諸如獲取準(zhǔn)確而完整的基因組和轉(zhuǎn)錄組的挑戰(zhàn),因此需要進(jìn)一步的努力來研發(fā)和基準(zhǔn)化相關(guān)工具。
? ? ? ? ?? ? ? ?參考? ? ? ? ? ? ? ? ?
[1]?Amarasinghe et al.Opportunities and challenges in long-read sequencing data analysis,Genome Biology (2020) 21:30
? ? ? ? ? ?? ? ?后記? ? ? ? ? ? ?? ??
隨著測序技術(shù)的不斷發(fā)展,科學(xué)研究進(jìn)入了數(shù)據(jù)井噴的時代。然而,測序樣本的處理流程、測序數(shù)據(jù)的分析流程甚至是數(shù)據(jù)分析過程中的數(shù)據(jù)庫搭建問題,都給測序技術(shù)的普及化設(shè)置了壁壘,嚴(yán)重阻礙了該項技術(shù)向廣大科研工作者中推廣。此外,基于長讀長的三代測序技術(shù)的發(fā)展更是引入了一套完全有別于二代測序數(shù)據(jù)處理的分析流程,為了讓更多學(xué)者認(rèn)識三代測序、在科學(xué)研究中用好三代測序,本公眾號應(yīng)運而生。期待與您一起學(xué)習(xí)、成長。
^_^ 邊學(xué)習(xí),邊分享,每天進(jìn)步一點點?^_^
往期精品(點擊圖片直達(dá)文字對應(yīng)教程)
后臺回復(fù)“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的【重磅综述】长序列数据分析相关资源哪里找?一文读懂长序列测序数据分析的机遇与挑战!...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “嘿,我们又见面了!”
- 下一篇: 哈佛大学单细胞课程|笔记汇总 (七)