临床外显子组测序分析中的那些坑(中)
臨床外顯子組測(cè)序分析中的那些坑(上)
4.?Exome CNV分析:參考對(duì)照組
很早以前,人們就清楚WES還可以根據(jù)樣本之間序列覆蓋深度的差異來(lái)推斷CNV。由于序列捕獲和GC含量,單個(gè)目標(biāo)的覆蓋率偏差阻礙了外顯子組之間覆蓋深度的比較。從外顯子組數(shù)據(jù)中檢測(cè)CNV的大多數(shù)工具依賴于創(chuàng)建參考對(duì)照,以標(biāo)準(zhǔn)化每個(gè)區(qū)域的覆蓋深度,并克服數(shù)據(jù)中的覆蓋偏差。我們發(fā)現(xiàn)參考對(duì)照的大小和質(zhì)量對(duì)CNV的質(zhì)量有很大影響。具有少量樣本或具有不同測(cè)序特征的樣本混合的參考對(duì)照,將導(dǎo)致測(cè)序目標(biāo)預(yù)期覆蓋率的變異性增加(圖1E)。
這將導(dǎo)致許多虛假的CNV,使解釋更加困難。2016年,我們意外地在同一參考池中組合了使用兩種不同方法比對(duì)reads的樣本。出乎意料的是,這不僅導(dǎo)致了虛假的CNV被檢出,還導(dǎo)致了大型CNV被錯(cuò)過(guò),但在之前的CNV分析中已經(jīng)檢測(cè)到。目前,我們的CNV參考對(duì)照使用最新樣本不斷更新,以使測(cè)序化學(xué)和方案的變化導(dǎo)致的技術(shù)變化最小(圖1F)。
除此之外,根據(jù)測(cè)序平臺(tái)、富集平臺(tái)、在X染色體上分析CNV的性別,還使用了幾個(gè)獨(dú)立的參考池。為了了解潛在的質(zhì)量問(wèn)題,我們?cè)谮厔?shì)分析中監(jiān)控每個(gè)樣本和測(cè)序批次的CNV呼叫數(shù)量,以及每個(gè)樣本的標(biāo)準(zhǔn)化目標(biāo)覆蓋率的平均變異性。根據(jù)我們的經(jīng)驗(yàn),我們建議使用與捕獲試劑盒、測(cè)序儀器和化學(xué)以及性別相匹配的CNV參考對(duì)照。
5.?注釋:基因定義?
雖然我們定期更新參考數(shù)據(jù)集,如人口頻率、OMIM信息和HGMD/ClinVar分類,但我們最初沒(méi)有定期更新我們的基因定義,天真地期望人類基因組中的所有基因和轉(zhuǎn)錄本都已被徹底繪制出來(lái)。基因定義是解釋基因變異最基本的資源。有幾種可用于基因定義的公開(kāi)資源,例如RefSeq(由國(guó)家生物技術(shù)信息中心(NCBI)開(kāi)發(fā))和GENCODE,它們結(jié)合了HAVANA集團(tuán)的手動(dòng)注釋和Ensembl的計(jì)算注釋。
有點(diǎn)讓我們驚訝的是,當(dāng)我們將2017年GENCODE基本基因定義更新為更新版本時(shí),我們遇到了幾個(gè)最初被注釋為非編碼的變異,但其結(jié)果是在一個(gè)新注釋的外顯子中,從而可能完全改變解釋,例如基因CCDC141(圖1G)。
RefSeq和GENCODE仍有定期更新,這些更新會(huì)改變已知的基因定義,并對(duì)WES變異的解釋產(chǎn)生深遠(yuǎn)影響。特別是對(duì)于WGS,使用更廣泛的基因定義是值得的,因?yàn)樽儺愂窃谌蚪M范圍內(nèi)檢測(cè)到的,并且不局限于WES的預(yù)定義區(qū)域。GENCODE的定期更新很好地說(shuō)明了這些正在進(jìn)行的改進(jìn)。在過(guò)去的12個(gè)月中,基因編碼被更新了四次,最新的基因編碼V38版本,2021年5月更新包括超過(guò)2500個(gè)新的蛋白質(zhì)編碼轉(zhuǎn)錄本,以及與2020年1月版本V33相比的蛋白質(zhì)編碼基因列表中的幾個(gè)修改(SUP.S2表)。所有注釋的定期更新(例如每6個(gè)月更新一次),包括基因定義和現(xiàn)有樣本的定期重新注釋,可能會(huì)導(dǎo)致額外的診斷。
變異解釋
除了數(shù)據(jù)分析之外,NGS的變異解釋與傳統(tǒng)做法有很大不同,并且對(duì)分子和臨床遺傳學(xué)家也帶來(lái)了挑戰(zhàn)。在這里,我們描述了在臨床外顯子組變異解釋中遇到的問(wèn)題和學(xué)到的經(jīng)驗(yàn)教訓(xùn),并用實(shí)際例子加以說(shuō)明。這些經(jīng)驗(yàn)教訓(xùn)暫時(shí)按重要性排序,從我們經(jīng)驗(yàn)中最有價(jià)值的經(jīng)驗(yàn)教訓(xùn)開(kāi)始。在所有提供的示例中,變異最初是根據(jù)我們的標(biāo)準(zhǔn)協(xié)議進(jìn)行解釋的,如圖2所示。我們注意到,在實(shí)踐中,這些課程通常是組合使用的,我們提供的一些示例可能用于多個(gè)課程。
1.???? 肉眼檢查數(shù)據(jù)?
變異檢測(cè)算法需要平衡靈敏度、特異性和性能,因此并不總能提供完美的結(jié)果。因此,肉眼檢查序列比對(duì)數(shù)據(jù)(BAM/CRAM文件)以手動(dòng)過(guò)濾假陽(yáng)性位點(diǎn)是一種很好的做法。假陽(yáng)性變異通常發(fā)生在同源性較高的區(qū)域,在檢查序列比對(duì)數(shù)據(jù)時(shí)很容易看到。另一方面,變異尤其是插入/刪除變異可能會(huì)被遺漏或不準(zhǔn)確地檢出。
在一名患有神經(jīng)發(fā)育障礙的患者中,我們?cè)诨駽HD2(補(bǔ)充圖S3)中發(fā)現(xiàn)了兩種分別稱為新發(fā)突變的基因(NM_001271.4:c.4592+37del和NM_001271.4:c.4592+38C>G)。這些變異中的每一個(gè)都被預(yù)測(cè)對(duì)剪接有良性或適度的影響,而這兩個(gè)變異最初都被忽略了。然而,在檢查校準(zhǔn)數(shù)據(jù)后,這很明顯地代表了一個(gè)單一的變量Chr15(GRCh37):g.93552590_93552591delinsG NM_001271.4:c.4592+37_4592+38delinsG,它引入了一個(gè)新的供體剪接位點(diǎn),預(yù)計(jì)會(huì)導(dǎo)致部分內(nèi)含子保留和過(guò)早無(wú)義突變。類似地,通過(guò)對(duì)比對(duì)數(shù)據(jù)的肉眼檢查,我們發(fā)現(xiàn)GPSM2中的13堿基對(duì)雜合缺失實(shí)際上以純合狀態(tài)存在(圖3A),并且是從該變異雜合的雙親遺傳的。
尤其是在WES數(shù)據(jù)中檢測(cè)到CNV的情況下,肉眼檢查(歸一化深度文件和BAM文件)至關(guān)重要。例如,MTMR2基因中的復(fù)制事件可以被識(shí)別為逆轉(zhuǎn)錄轉(zhuǎn)座子,即拷貝DNA插入基因組,因?yàn)槎鄠€(gè)讀取正好在外顯子-內(nèi)含子邊界處結(jié)束(補(bǔ)充圖S4)。
同樣,肉眼檢查在嵌合缺失、重復(fù)和單親二倍體的情況下尤其重要,否則可能會(huì)錯(cuò)過(guò)。2015年,在一名患有多種先天性異常(左腭、異位肛門、小陰莖和短近端肢體)的患者中,通過(guò)外顯子組測(cè)序無(wú)法發(fā)現(xiàn)任何遺傳原因。然而,在2016年對(duì)同一數(shù)據(jù)進(jìn)行CNV再分析后,我們發(fā)現(xiàn)了幾個(gè)小拷貝數(shù)增益,其中只有少數(shù)在所要求基因面板的限制范圍內(nèi)可見(jiàn)。目視檢查標(biāo)準(zhǔn)化覆蓋范圍? 剖面圖立即顯示了12號(hào)染色體整個(gè)短臂的增益(補(bǔ)充圖S5)。該患者最終被診斷為12號(hào)染色體短臂嵌合四倍體,這是帕利斯特-基利亞綜合征(OMIM#601803)的病因。
數(shù)據(jù)的肉眼檢查是變異解釋的一個(gè)基本方面。有幾種工具可以做到這一點(diǎn),包括整合基因組學(xué)查看器(IGV)。然而,對(duì)數(shù)據(jù)的目視檢查非常耗時(shí),應(yīng)僅限于錯(cuò)誤調(diào)用可能性較高的變異。這類變異包括CNV、移碼變異、等位基因比率偏離理想孟德?tīng)柋嚷?#xff08;即不明顯雜合或純合)的變異,以及單個(gè)基因中的多個(gè)相鄰變異。此外,應(yīng)對(duì)實(shí)驗(yàn)室打算報(bào)告的所有變異進(jìn)行目視檢查。
2.除了非同義單核苷酸變異以外的變異很容易被遺漏。
外顯子組測(cè)序最初旨在檢測(cè)編碼區(qū)和剪接位點(diǎn)內(nèi)的單核苷酸或多核苷酸替換,或小的缺失和重復(fù)(~1-25 bp)。近年來(lái),多項(xiàng)研究表明,在一定程度上,在外顯子組測(cè)序數(shù)據(jù)中也可以檢測(cè)到其他類型的變異。其中包括CNV、內(nèi)含子變異、單親二體性(UPD)、線粒體變異、重復(fù)擴(kuò)增和移動(dòng)元件插入。雖然與編碼單核苷酸變異相比,所有這些都只能在相對(duì)較少的患者中解決病因,但這種特殊變異加在一起可以大大提高診斷率。
例如,對(duì)編碼區(qū)和+/-20bp剪接位點(diǎn)區(qū)的常規(guī)WES分析不能診斷患有痙攣性偏癱和關(guān)節(jié)紊亂的白質(zhì)營(yíng)養(yǎng)不良患者。作為Solve RD聯(lián)盟全面再分析的一部分,發(fā)現(xiàn)CSF1R基因中的純合已知致病性深內(nèi)含子c.1969+115_1969+116del變體(補(bǔ)充圖S6),導(dǎo)致CSF1R轉(zhuǎn)錄本中包含假外顯子。雖然這個(gè)區(qū)域沒(méi)有特定的捕獲目標(biāo),但在這個(gè)位置,序列覆蓋率足以稱之為這個(gè)特定的變異。
對(duì)于臨床診斷為Stargardt病的患者,WES對(duì)視力障礙面板基因的分析以及對(duì)Stargardt基因(ABCA4和ELOVL4)的特別關(guān)注并未獲得分子診斷。針對(duì)單親二體的再分析檢測(cè)到該患者的1號(hào)染色體的父系同源二體(補(bǔ)充圖S7)。隨后對(duì)位于1號(hào)染色體上的ABCA4 Stargardt疾病基因進(jìn)行Sanger測(cè)序,發(fā)現(xiàn)了一個(gè)純合致病性深內(nèi)含子變體(Chr1(GRCh37):g.94546780C>g NM_000350.2(ABCA4):c.859-506G>c),導(dǎo)致ABCA4轉(zhuǎn)錄本中相當(dāng)一部分出現(xiàn)假外顯子。
在一名患有額葉肥厚癥、呼吸模式障礙和心動(dòng)過(guò)速的死亡兒童中,進(jìn)行了全外顯子組分析。在PLAA基因中檢測(cè)到兩個(gè)罕見(jiàn)的純合子變異,一種錯(cuò)義變異和一種同義變異。雖然最初我們關(guān)注的是錯(cuò)義變異,但在解釋后它仍然是一個(gè)VUS。對(duì)于同義變異,剪接預(yù)測(cè)工具表明,它可能在該基因的第6外顯子中創(chuàng)建一個(gè)替代剪接供體位點(diǎn)。由于患者的臨床表型符合PLAA基因突變,因此需要對(duì)預(yù)測(cè)的剪接位點(diǎn)效應(yīng)進(jìn)行后續(xù)分析。對(duì)從攜帶者父母的淋巴母細(xì)胞生成的cDNA進(jìn)行測(cè)序分析,確實(shí)證實(shí)了使用了替代剪接供體位點(diǎn),導(dǎo)致突變等位基因編碼的轉(zhuǎn)錄本中11個(gè)核苷酸的框外缺失(補(bǔ)充圖S8)。這種變異不是“僅僅”是一種沉默的變異,而是導(dǎo)致該等位基因功能的喪失。
因此,我們建議考慮在臨床上與患者表型相關(guān)的基因內(nèi)的所有類型的變異,并在解釋期間突出來(lái)自HGMD和ClinVar等數(shù)據(jù)庫(kù)的所有類型的已知致病變異(即,獨(dú)立于它們的位置或頻率)。
3.當(dāng)其中一個(gè)“隱藏”時(shí),復(fù)合雜合子變異很容易丟失。
我們發(fā)現(xiàn),在許多預(yù)期隱性遺傳的情況下,我們最初只能識(shí)別隱性疾病基因中的一個(gè)雜合(致病)變異,如果存在第二個(gè)致病變異,這將是患者疾病的一個(gè)非常好的匹配基因。在這些情況下,第二種變異可能是不同類型的突變(見(jiàn)VI-2),可能不符合質(zhì)量標(biāo)準(zhǔn),或者似乎不太可能致病。例如,根據(jù)肌酸激酶(CK)水平升高和運(yùn)動(dòng)遲緩,在懷疑患有肌病的兒童中,使用標(biāo)準(zhǔn)篩選法檢測(cè)到MICU1基因中的雜合功能缺失變異p(Lys440*)。僅在肉眼檢查CNV數(shù)據(jù)后,檢測(cè)到第二個(gè)CNV變異,即MICU1中的雜合雙外顯子缺失(圖3B)。當(dāng)時(shí)使用的CNV算法(CoNIFER)沒(méi)有分析出該CNV,因?yàn)樵撍惴ǖ拈撝凳侨齻€(gè)或更多外顯子。
另一個(gè)例子是在四名患有運(yùn)動(dòng)障礙的無(wú)關(guān)個(gè)體中鑒定POLR3A基因的雜合功能缺失突變。雖然最初這些患者沒(méi)有得到診斷,但經(jīng)過(guò)檢查,我們?cè)谒兴拿颊咧邪l(fā)現(xiàn)了一個(gè)額外的內(nèi)含子變異(NM_007055.4:c.1909+22G>A)。這種變異的效果尚不確定,因?yàn)閾?jù)預(yù)測(cè)它可以增強(qiáng)隱匿的供體剪接位點(diǎn),同時(shí)保持原始供體剪接位點(diǎn)完好無(wú)損。該突變后來(lái)被證明是一種常見(jiàn)的亞型變異(即導(dǎo)致更溫和的POLR3A表型),導(dǎo)致19個(gè)堿基對(duì)以組織和發(fā)育階段特有的方式保留。
這些例子表明,當(dāng)在隱性疾病基因中檢測(cè)到一個(gè)雜合子變異(這可能是對(duì)患者表型的一個(gè)很好的解釋)時(shí),應(yīng)該激發(fā)人們采取額外的努力來(lái)識(shí)別第二個(gè)變異。
譯者介紹
邊疆 男 2010年畢業(yè)于中山大學(xué)婦產(chǎn)科生殖內(nèi)分泌專業(yè),獲博士學(xué)位。專業(yè)方向:女性生殖力保存、環(huán)境生殖毒理學(xué)。從事婦科內(nèi)分泌疾病和女性生殖內(nèi)分泌臨床20余年
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的临床外显子组测序分析中的那些坑(中)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Adobe illustrator 介绍
- 下一篇: 常见的几种最优化方法