临床外显子组测序分析中的那些坑(上)
大規(guī)模并行測序技術(shù)或下一代測序已成為基因診斷和研究的標(biāo)準(zhǔn)技術(shù),尤其是外顯子組和基因組測序現(xiàn)在已經(jīng)在世界范圍內(nèi)廣泛應(yīng)用于患者的分子診斷。在過去幾年中,許多實(shí)驗(yàn)室都在努力應(yīng)對基于全新技術(shù)建立基因檢測工作流程的挑戰(zhàn)。測序技術(shù)中持續(xù)引入新的儀器、化學(xué)和分析方法加劇了這些挑戰(zhàn)。
在過去十年中,新的測序技術(shù)已經(jīng)上市,而其他技術(shù)已經(jīng)消失,并且所有這些技術(shù)都經(jīng)歷了快速的變化和升級。外顯子組捕獲試劑盒、配套設(shè)備和耗材也是如此。在這個(gè)不斷變化的領(lǐng)域,實(shí)驗(yàn)室一直致力于生成高質(zhì)量的測序數(shù)據(jù)。
各種研究報(bào)告了測序數(shù)據(jù)中的偏差如何導(dǎo)致外顯子組和基因組測序的敏感性降低或假陽性變異。例如,對于NGS而言,高測序錯(cuò)誤率和PCR重復(fù)將導(dǎo)致潛在的假陽性calls,而不均勻的序列覆蓋或缺乏覆蓋可能會導(dǎo)致靈敏度降低。其他問題,如strand偏倚和插入大小分布也可能對測序結(jié)果產(chǎn)生不利影響。NGS技術(shù)比傳統(tǒng)的基因檢測方法更加數(shù)據(jù)密集,需要信息技術(shù)(IT)和生物信息學(xué)方面的專業(yè)知識,而這在許多實(shí)驗(yàn)室最初是稀缺的。生物信息學(xué)已經(jīng)解決了為測序數(shù)據(jù)建立嚴(yán)格質(zhì)量控制的困難,但也解決了從測序數(shù)據(jù)中可靠識別變異的挑戰(zhàn)。例如,檢測插入和缺失、識別短片段擴(kuò)增重復(fù)或低覆蓋區(qū)域的變異或區(qū)分單核苷酸變異(SNV)與測序錯(cuò)誤相對困難。
此外,從外顯子組數(shù)據(jù)中檢測拷貝數(shù)變異(CNV)已成為一種標(biāo)準(zhǔn)程序,并帶來了自身特殊的挑戰(zhàn)。同樣,與測序儀器一樣,生物信息學(xué)需要處理來自軟件工具、基因Panel和其他注釋資源的持續(xù)更新,以確保分子遺傳學(xué)家擁有用于解釋最新數(shù)據(jù)的最新信息。這反過來要求實(shí)驗(yàn)室實(shí)施自動(dòng)測試其分析的策略以及重新分析現(xiàn)有數(shù)據(jù)的系統(tǒng)方法。
在新的測序可能性以及許多疾病的遺傳和表型變異的推動(dòng)下,臨床基因檢測在過去十年中發(fā)生了巨大的變化。根據(jù)臨床表型,只有一個(gè)或幾個(gè)基因會被測序;從靶向基因測試來看,現(xiàn)在通常涉及對大量疾病基因的分析。與單基因分析相比,外顯子組或基因組測序中的大量變異的解釋明顯不同。這不僅需要對該技術(shù)有深入的了解,以便評估數(shù)據(jù)質(zhì)量和已識別的變異,還需要新的變異解釋方法。
NGS變異的初始報(bào)告有時(shí)過于嚴(yán)格,從而忽略了與患者表型不完全匹配的變異,或過于寬松,導(dǎo)致許多意義不確定的變異(VUS)。隨著時(shí)間的推移,測序數(shù)據(jù)的質(zhì)量有了很大的提高,并且開發(fā)具有不同變異頻率的大型公共可用數(shù)據(jù)庫,如GnomAD數(shù)據(jù)庫,極大地幫助開發(fā)了更高效的變異篩選選項(xiàng)。此外,在過去的幾年中,已經(jīng)開發(fā)出各種建議和質(zhì)量評估方案指導(dǎo)NGS變異的解釋、分類和報(bào)告。
現(xiàn)在有一些關(guān)于NGS測試的指南可以幫助NGS測試設(shè)計(jì)、優(yōu)化、驗(yàn)證、質(zhì)量管理和生物信息學(xué)等方面。盡管如此,仍然存在許多挑戰(zhàn),錯(cuò)誤肯定會發(fā)生,即使在質(zhì)量至關(guān)重要的受監(jiān)管臨床基因檢測實(shí)驗(yàn)室也是如此。這里我們展示了我們實(shí)驗(yàn)室在十年臨床外顯子組測序過程中犯下的一些錯(cuò)誤的例子,以及我們從這些錯(cuò)誤中吸取的教訓(xùn)(補(bǔ)充表S1)。雖然濕實(shí)驗(yàn)室有其特殊的挑戰(zhàn),但在這里,我們主要關(guān)注與數(shù)據(jù)分析和變異解釋相關(guān)的問題。我們希望通過分享這些例子,其他實(shí)驗(yàn)室可以避免犯同樣的錯(cuò)誤。
數(shù)據(jù)分析?
對于許多診斷實(shí)驗(yàn)室來說,數(shù)據(jù)管理和測序數(shù)據(jù)分析流程的開發(fā)已經(jīng)變得非常重要。構(gòu)建一個(gè)完整、高效和穩(wěn)健的NGS分析流程是一項(xiàng)復(fù)雜的任務(wù),包括多個(gè)微妙的步驟,包括從NGS讀取的比對到不同類型遺傳變異的調(diào)用和注釋,如SNV、小插入和缺失、CNV和短串聯(lián)重復(fù)序列(STR)。由于需要執(zhí)行許多不同的處理步驟,并且數(shù)據(jù)量很大,因此相對容易犯一個(gè)小錯(cuò)誤,對最終結(jié)果產(chǎn)生較大但不明顯的影響。在這里,我們展示了自己在數(shù)據(jù)分析過程中犯下的五個(gè)錯(cuò)誤的例子,這些錯(cuò)誤到目前為止還沒有在文獻(xiàn)中得到充分強(qiáng)調(diào)。
1.???? 序列質(zhì)量
“垃圾輸入,垃圾輸出”是計(jì)算機(jī)科學(xué)中的一句名言。它抓住了一個(gè)概念,即有缺陷的輸入數(shù)據(jù)會產(chǎn)生有缺陷的輸出或“垃圾”。這同樣適用于測序數(shù)據(jù)。我們的實(shí)驗(yàn)室在測序結(jié)果方面遇到了許多問題,這些問題不是由于數(shù)據(jù)處理中的錯(cuò)誤,而是由于初始數(shù)據(jù)生成本身存在問題。確定下游問題的根本原因可能是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)闇y序數(shù)據(jù)中的細(xì)微質(zhì)量問題可能會對后續(xù)突變檢測產(chǎn)生很大影響。一個(gè)相對常見的問題是數(shù)據(jù)中有許多虛假的變異,這種情況有時(shí)是由于意外的高測序錯(cuò)誤率、樣本污染,或由于adapter序列的不正確修剪(補(bǔ)充圖S1)。
大多數(shù)質(zhì)量問題可以通過檢查原始測序數(shù)據(jù)或變異的質(zhì)量分?jǐn)?shù)較低,并且偏離雜合子突變豐度50%來識別。相反,在大多數(shù)情況下,變異的數(shù)量減少是由于序列覆蓋率低。然而,靈敏度降低可能還有其他原因。在兩批外顯子組測序樣本中,我們注意到變異的數(shù)量較少,只是因?yàn)槲覀儗着鷺颖具M(jìn)行了趨勢分析。最初,我們預(yù)計(jì)這是由于樣本的序列覆蓋率較低(補(bǔ)充圖S2),然而,這些樣本的序列覆蓋率與其他樣本沒有區(qū)別,最終我們發(fā)現(xiàn)這個(gè)問題是由于duplication reads的比例增加了10-20%。由于duplication reads可能是由于PCR擴(kuò)增并可能引入假陽性變異。大多數(shù)變異的分析軟件不會考慮它們的變異調(diào)用。因此,許多區(qū)域的有效覆蓋率比這兩個(gè)批次的有效覆蓋率低10-20%(補(bǔ)充圖S2)。許多質(zhì)量問題可以通過使用Qualimap等工具輕松識別,這些工具可以計(jì)算測序?qū)嶒?yàn)的質(zhì)量統(tǒng)計(jì)數(shù)據(jù),如覆蓋率統(tǒng)計(jì)數(shù)據(jù)、測序錯(cuò)誤率和重復(fù)讀取的百分比。
因此,我們強(qiáng)烈建議在生物信息流程的所有步驟中嵌入廣泛的質(zhì)量控制,并遵循質(zhì)量參數(shù)的趨勢,如重復(fù)讀取的百分比、覆蓋率分布、變異總數(shù)以及在gnomAD中未發(fā)現(xiàn)的罕見變異的百分比。應(yīng)密切調(diào)查與預(yù)期值的偏差。在開發(fā)和測試期間確定質(zhì)量閾值將有助于以后識別質(zhì)量問題。當(dāng)實(shí)驗(yàn)室協(xié)議發(fā)生變化時(shí),例如隨著新測序儀器的引入,這些閾值可能需要更新。對測序數(shù)據(jù)進(jìn)行全面的質(zhì)量控制分析可以防止數(shù)據(jù)解釋的許多下游問題。
.
2. 序列比對:alternate contigs?
NGS數(shù)據(jù)最主要的處理步驟是將讀取數(shù)據(jù)與參考基因組對齊。然而,特定區(qū)域的基因組結(jié)構(gòu)在不同的個(gè)體和群體之間可能存在很大差異。為了正確地表示這些位點(diǎn),參考基因組使用alternate contigs,即基因組中特定區(qū)域的不同參考序列。這些交替重疊群包含基因組中的區(qū)域,這些區(qū)域以如此復(fù)雜的方式變化,以至于它們無法表示為單個(gè)參考序列。在我們最初的分析工作流程中,我們試圖盡可能全面,包括可能最大的參考基因組,其中包括alternate contigs。然而,默認(rèn)情況下,大多數(shù)reads都會給與參考基因組中多個(gè)區(qū)域一致的比對質(zhì)量分?jǐn)?shù)。這些比對質(zhì)量(MAPQ)等于零的讀數(shù)通常在集成基因組學(xué)查看器(IGV(Robinson等人,2011))中以空白讀數(shù)顯示(圖1A)。變異檢測算法反過來會忽略這種讀取,并且不會在讀取MAPQ分?jǐn)?shù)較低的區(qū)域識別變異。這些區(qū)域變異雖然可以通過手動(dòng)檢查看到,但不會被分析。這一錯(cuò)誤是在實(shí)驗(yàn)室專家的幫助下確定的,他們查看了比對后的測序數(shù)據(jù),以確定隱性基因中是否存在潛在的第二個(gè)突變(見VI-3)。我們發(fā)現(xiàn)通過包含alternate contigs讀取無法明確對齊的編碼基數(shù)將增加三倍。
圖1A
最近,英國生物銀行(UK Biobank)的數(shù)據(jù)也報(bào)道了同樣的問題,在GRCh38參考基因組中引入了大量的替代性重疊群,導(dǎo)致數(shù)千種變異的缺失。有兩種方法可以避免這個(gè)問題。簡單的解決方案是在分析中簡單地排除替代重疊群,這是目前我們在GRCh37外顯子組分析中所做的。在沒有交替重疊的情況下分析數(shù)據(jù),將正確對齊人類參考基因組主要組件中的reads(圖1B)。一個(gè)更復(fù)雜的解決方案是應(yīng)用對齊算法,可以使用相應(yīng)的索引文件處理交替重疊,我們現(xiàn)在使用參考基因組的GRCh38構(gòu)建分析基因組。考慮到GRCh38極大地?cái)U(kuò)展了替代性接觸基因的種類(以及其他改進(jìn)),行業(yè)開始向GRCh38過渡將是有利的,以便能夠正確地檢測和分析群體特異性單倍型中的基因組變異。
3. 變異檢測:捕獲目標(biāo)文件?
有許多不同的外顯子組試劑盒,它們都使用自己對“感興趣區(qū)域”的定義。從外顯子組檢測變異的最初方法是分析整個(gè)全基因組,而不考慮捕獲目標(biāo)或編碼區(qū)域。然而,這在計(jì)算上很繁重,結(jié)果數(shù)據(jù)將包含許多來自不感興趣區(qū)域中非目標(biāo)讀取的低質(zhì)量變異。因此,將分析限制在可以合理預(yù)期可靠變異的充分覆蓋范圍區(qū)域似乎是合理的。盡管最初的外顯子組試劑盒試圖精確定位編碼區(qū),但許多制造商開始移動(dòng)捕獲探針,使其部分重疊或接近感興趣的外顯子,以優(yōu)化富集效率。這背后的想法是:結(jié)合序列讀取長度(通常為100-150 bp)和基因組DNA片段的富集(延伸到目標(biāo)之外但與目標(biāo)重疊),不僅可以充分覆蓋捕獲目標(biāo)本身,還可以覆蓋100-150個(gè)相鄰堿基。這確實(shí)提高了許多“困難”外顯子的捕獲效率,但使決定在哪些區(qū)域檢測變異變得更加困難。
圖1C
在我們最初實(shí)施新的外顯子捕獲設(shè)計(jì)時(shí),我們犯了一個(gè)錯(cuò)誤:只在外顯子捕獲目標(biāo)區(qū)域中檢測變異,沒有意識到任何捕獲目標(biāo)都沒有直接覆蓋一部分外顯子,因此遺漏了相關(guān)的編碼變異(圖1C)。盡管我們在測試外顯子組試劑盒時(shí)進(jìn)行了幾次質(zhì)量檢查,但我們并沒有立即意識到我們丟失了多達(dá)5.4%(1897KB)的所有編碼區(qū)域(安捷倫SureSelect版本4)。同樣,當(dāng)通過IGV在序列比對中發(fā)現(xiàn)可見的變異在vcf文件中不存在時(shí),觀察到了這個(gè)錯(cuò)誤。在最近的外顯子組試劑盒中,與捕獲目標(biāo)相鄰的編碼堿基數(shù)量較少,但仍然相當(dāng)可觀(圖1D)。
大多數(shù)制造商保證在捕獲目標(biāo)附近有足夠的覆蓋100bp,但我們目前將目標(biāo)擴(kuò)展為200bp,以平衡額外的計(jì)算時(shí)間和編碼區(qū)域中的額外變異。顯然,在全基因組范圍內(nèi)分析變異將繞過這些問題,但我們已經(jīng)判斷,額外的計(jì)算時(shí)間和低質(zhì)量變異的增加并沒有使這足夠值得。我們估計(jì),在全基因組范圍內(nèi)調(diào)用變異將使分析時(shí)間加倍,并將產(chǎn)生更多的變異,其中一個(gè)重要部分是假陽性位點(diǎn)。在實(shí)施新的外顯子組捕獲設(shè)計(jì)時(shí),強(qiáng)烈建議事先定義臨床目標(biāo)或感興趣的區(qū)域,然后確定這些區(qū)域覆蓋的完整性。
譯者介紹
邊疆 男 2010年畢業(yè)于中山大學(xué)婦產(chǎn)科生殖內(nèi)分泌專業(yè),獲博士學(xué)位。專業(yè)方向:女性生殖力保存、環(huán)境生殖毒理學(xué)。從事婦科內(nèi)分泌疾病和女性生殖內(nèi)分泌臨床20余年
往期精品(點(diǎn)擊圖片直達(dá)文字對應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的临床外显子组测序分析中的那些坑(上)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python源码剖析[16] —— Py
- 下一篇: Python 中的Pyc文件