临床外显子组测序分析中的那些坑(下)
臨床外顯子組測序分析中的那些坑(上)
臨床外顯子組測序分析中的那些坑(中)
4.還記得嵌合嗎
?二代測序數據分析中已經提到的另一個挑戰是嵌合SNV和CNV的出現。嵌合SNV已被證明與許多疾病相關。事實上,在癲癇相關神經發育障礙患者中檢測到約3.5%的變異以嵌合形式存在。去除測序和分析假陽性位點的一種常見做法是排除變異突變豐度(VAF)低于預期的變異。然而,這種過濾也會去除嵌合SNV。例如,在懷孕33周的胎兒中,最初的篩選將PIK3CA中的一個嵌合(約16%)變異作為假陽性被過濾,這種致病變異(Chr3(GRCh37):g.178916854G>A NM_006218.4:c.241G>A p(Glu81Lys))導致心血管系統形態異常,這可以很好地解釋胎兒的超聲異常。通過靶向深度測序證實了該變異為嵌合,揭示了胎兒中約30%的突變豐度比例,而父母正常。
另一個挑戰是,在未受影響的父母中,致病性變異也以嵌合狀態存在,在進行trio分析時,主要關注顯性基因中新發突變的檢測。因此,在未受影響(嵌合)的父母身上發生的變異在孩子身上不會被標記為新發。因此,僅在尋找新發突變時,不會檢測到從嵌合親本遺傳的變異。
圖3C
例如,我們最初錯過了一個無義突變
TCF4 Chr18:g.53017619G>ANM_001083962.1:c.520C>TP(Arg174*),在篩選新發突變時,因為母親9%的reads也含有這種變異(圖3C)。理想情況下,在進行新發突變分析時,應將此類變異作為一個單獨的類別進行檢測。或者,由于攜帶者父母的嵌合體水平較低,遺傳變異可能被誤解為偶發,從而錯誤地估計父母的復發風險。總的來說,嵌合變異并不罕見。據估計,與常染色體顯性、常染色體隱性和X連鎖疾病相關基因中的嵌合變異發生在3.3%的個體中,而親本嵌合變異據估計高達17.5%。無論何時考慮與患者表型相關的潛在致病性變異,也值得考慮患者或父母嵌合性的可能性。
5染色體考慮?
如前所述,WES最初的目的是檢測SNV(見DA-2),盡管可以從WES數據分析CNV,但在解釋變異時,務必記住WES的局限性。例如,基于測序深度算法不檢測非整倍體,因為它將每個染色體的目標覆蓋率標準化。我們最初錯過了一例異二體X克氏綜合征(XXY),因為當時我們實驗室使用的唯一CNV分析工具沒有檢測出來。因為這是兩條完全相同的X染色體,所以X染色體上到處都是純合性(ROH)區域,正如你在未受影響的男性身上所預期的那樣。這種異二聚體X Klinefelter是通過QF-PCR分析,但可以通過查看WES數據中的Y/X覆蓋率更快地檢測到。
WES中一個相對常見的拷貝數發現是檢測到一條染色體上的末端重復與另一條染色體上的末端缺失相一致。這種結合是不平衡易位的明確指示,應進行常規核型分析。一個類似的事件,在一名患有嚴重智力殘疾、發育遲緩、言語和語言缺失、肌張力減退和反流的患者中發現染色體22q13.3上的一個約265 kb末端缺失。因為22號染色體是一條近端著絲粒染色體,所以在這條染色體的短臂上沒有檢出。同一條染色體的長臂和短臂上的這種末端缺失表明存在環狀染色體。后續的核型分析顯示,這確實是一個新的環狀22號染色體(補充圖S9)。區分環狀染色體與“常規”末端畸變是至關重要的,因為有絲分裂期間的不穩定性是環狀染色體的一個眾所周知特征。
隨后的繼發性畸變,如缺失區域的擴大,甚至受影響染色體的單體性,可能會對受影響個體產生相關的臨床后果。對于22號染色體,這種風險與2型神經纖維瘤病(NF2;OMIM#607379)有關,強烈建議隨后對這些患者進行NF2特征的終身常規篩查。
另一個例子是來自智力障礙和癲癇患者的WES數據發現在15q11.1q13.1上識別出約8.4 Mb的終端重復。僅基于WES數據,尚不清楚這種重復是由間質復制還是由額外的數字標記染色體引起的。在后續的核型分析中,這一事件被證明是一條等雙著絲粒標記染色體(q13.1)(圖3D),因此實際上是q11q13.1地區的四倍。這是一個與臨床相關的發現,因為四體15q會引起許多非特異性特征,包括智力殘疾、行為障礙、共濟失調和癲癇(Finucane et al.,1993)。
這些例子表明,也有必要具備細胞遺傳學專業知識來解釋WES。從微陣列數據中解釋拷貝數變異的現有指南可以為來自外顯子測序數據的CNVs的解釋和后續隨訪提供指導。
圖3D
6. 真正的致病變異可能在人群數據庫中普遍存在?
過濾常見變異是外顯子組數據篩選的一個重要步驟,公開可用的數據庫,如gnomAD,提供來自大群體隊列的聚合變異信息具有很大的幫助,這種篩選的常用閾值消除了所有等位基因頻率>1%或基于疾病頻率和遺傳模式的數據。當應用這種等位基因頻率過濾時,有很多原因導致臨床相關變異可能被錯誤地丟棄。
在一名智障患者中,我們檢測到DNMT3A中的錯義變異(c.2204A>G,p.(Tyr735Cys);NM_022552.5)。然而,在GnomAD數據庫中,這種變異也發生在11個人身上,因此最初被認為可能是良性的。幾項研究現已指出,由于克隆性造血作用,健康個體體內可能會出現特定的變異,因此,這些(體細胞)變異在對照數據庫中出現的頻率相對較高,可以通過在老年人中過度表達(圖3E)和低變異等位基因分數來識別。標記這些與克隆造血有關的基因很有用。當有疑問時,對替代組織進行有針對性的突變分析有助于區分體質變異和體細胞變異。
圖3E
?看似常見的致病性變異也可能是由于多聚體拉伸所致。基因中的多聚體延伸是容易發生聚合酶滑移的區域,可導致許多核苷酸的插入或缺失。這些變異可能以假陽性的形式出現在對照數據庫中,但也可能是正在分析的測序數據中真正的致病變異。一個有趣的例子是從PRRT2基因(NM_145239.3:c.641_649)中九個核苷酸的均聚體片段中刪除或復制單個胞嘧啶(補充圖S10)。隨后的c.649del和c.649dup(RS5877771)變異出現在gnomAD數據庫中,等位基因頻率分別為0.96%和0.47%。這些高頻變異最初我們不認為這些變異是可能的致病變異。然而,這兩種變異都被認為是致病性的,因為它們會導致PRRT2基因的移碼,單倍體不足會導致癲癇、發作性運動誘發性運動障礙或兩者兼而有之。
PRRT2相關疾病的外顯率估計為60%或更高,這表明公共數據庫中均聚物變化的高等位基因頻率可能是由于測序誤差。事實上,gnomAD中有限的比對數據顯示,在某些區域,突變等位基因的分布不均。因此,在報告之前,如果與病例相關,則必須通過另一項測試確認此類變異。雖然使用頻率數據庫過濾變異是一種有用的方法,但它并不完美。同樣,我們建議在數據解釋過程中納入強調已知致病性變異的保障措施,以避免遺漏更高人群頻率的變異(GeneRanger軟件已增加exception variant功能,防止高頻變異被遺漏)。
7.獨特的臨床特征可能推動正確的診斷
數據分析有時可能會根據質量標準丟棄潛在的變異。在特定情況下,臨床表型可以幫助區分變異的優先級,而無需額外的篩選步驟,甚至可以建議對特定基因進行詳細分析。僅在肉眼檢查測序數據后,才發現PHOX2B基因中的新發18bp重復事件,這是由新生兒先天性中樞性換氣不足綜合征的獨特表型引起的。該變異未被分析出,可能是由于該區域富含GC的重復序列中的測序讀數對齊不良(圖3F)。解釋也是一個挑戰,因為該區域在脊椎動物中并不保守(許多脊椎動物缺乏丙氨酸重復序列的重復拉伸編碼),而且在gnomAD中存在許多重疊的缺失和重復事件。然而,這種位置的重復事件是中樞性換氣不足綜合征的復發原因。
圖3F
另一個明顯的臨床表型可能有助于識別高頻率的亞型等位基因的例子(另見VI-6)。我們對一個超聲異常的胎兒進行了產前外顯子組分析(眼球突出、小下巴、鼻前厚度、下肢內收),我們最初只檢測到來自父親的1q21.1缺失,胎兒表型與血小板減少性橈骨缺失(TAR)綜合征的可能臨床診斷相匹配。該綜合征通常由1q21.1中的復發性微缺失引起,與位于-21的5'-UTR亞型變異結合,該亞型變異在gnomAD數據庫中的等位基因頻率>2%。放松頻率過濾后,位置-21處的變異確實出現了,并且起源于母體。
這些例子表明,患者的表型可能非常明確地指向單個基因或少量基因。不僅要注意那些可能未被call出的基因中的變異,還要注意其他不太可能的變異,例如可能影響剪接的沉默或深度內含子變異(另見VI-2)。因此,有專門的專家來解釋特定疾病組的臨床外顯子組測序數據是有益的,因為這允許在他們的專業領域內更深入地了解基因病因、非典型變異類型或基因型-表型相關性。然而,獲得正確診斷的能力將始終取決于完整臨床表型信息的可用性,最好是標準化格式。
8.表型信息可能具有誤導性
雖然表型信息對于正確的基因檢測至關重要,但它也可能通過選擇基因靶向檢測阻礙基因診斷。隨著基因實驗室引入NGS技術(如WES和WGS),轉診臨床醫生的診斷策略從表型優先轉變為基因型優先。我們可以清楚地看到,通過或多或少的無偏測序分析,已知疾病基因中的致病性變異也可以根據基因變異的位置或類型導致非常不同的臨床表型。
在一名患有新生兒張力過低、喂養問題、肌陣攣運動、眼陣攣、額葉隆起和棒狀足的兩歲兒童中檢測到IL11RA基因的復合雜合致病性變異,并懷疑存在線粒體疾病。然而,IL11RA基因與“伴有牙齒異常的顱縫骨病”(OMIM#614188)有關。在這種罕見的疾病中,沒有出現張力過低或運動障礙。根據這一發現,CT掃描顯示該兒童和一名3歲的兄弟姐妹的縫合線早期閉合。該同胞隨后也被證明是IL11RA變異的復合雜合子。因此,額葉隆起,以及可能的clubfeet,是顱縫骨病的早期指標,而神經系統特征可能由IL11RA變異解釋,也可能不由IL11RA變異解釋。
這種表型異質性當然不是什么新鮮事,但NGS的實施已經產生了許多最新的例子,例如致病性SRCAP和CREBBP變異分別導致Floating Harbor(OMIM#136140)和Rubinstein-Taybi(OMIM#613684)綜合征。這些基因中的變異也被描述為導致一個單獨的綜合征實體,具體取決于新發功能喪失變異的位置。疾病進展、不完整的臨床評估或表型異質性最初可能具有誤導性。當檢測到明顯的致病性變異時,不應太簡單將其視為“與表型不兼容”。
9.非孟德爾遺傳
WES數據分析和解釋的大多數標準過濾策略都基于經典的孟德爾遺傳模式。雖然不完全外顯率在遺傳疾病中顯然不是一種新現象,但它確實對從NGS數據中有效過濾大量變異構成了挑戰。尤其是在處理患者(健康)父母三人組數據時,變異篩選可能會導致顯性基因中的遺傳雜合變異被排除,或父系起源的女性或X連鎖隱性基因中雜合X連鎖變異被拒絕。
對一名患有嚴重智力殘疾、自閉癥和癲癇癥的年輕女性進行基于三人組的WES分析最初沒有得到診斷。在與轉診臨床醫生討論這一結果時,提到了PCDH19基因變異的可能性。PCDH19導致女性限制性X連鎖障礙的癲癇性腦病-9(OMIM#300088)。對數據有針對性的檢查確實揭示了PCDH19基因中的父系遺傳致病性變異(ChrX(GRCh37):g.99662889G>a NM_001184880.1:c.707C>T p.Pro236Leu)。這種錯義突變最初是由于健康的半合子父親遺傳,因此,我們應該意識到雜合子PCDH19變異很可能是從未受影響的半合子父親那里遺傳來的。
另一組具有挑戰性的基因是那些具有親本印記的基因,因此它們的表達取決于傳遞等位基因的親本性別。目前已知大約有15種由印記位點引起描述良好的疾病,但除此之外,已知或預測有數百個基因會受到基因組印記的影響? (https://www.geneimprint.com/site/home)。在一名患有多種先天性異常的患者中,我們在IGF2基因中檢測到一種新的移碼變異,已知該變異存在印記,并且僅在父系等位基因上表達。由于無法從該患者的WES數據中提取基因組定相信息,我們無法確定IGF2變異存在于哪個等位基因上。
使用位于移碼變體上游3.5 kb處的信息性SNP(rs368743181)結合基因組分階段長讀測序可以確認這種突變確實發生在父系等位基因上,因此可以被認為是致病的。如果這種變異不是新發突變,而是從健康的父母那里遺傳下來的,那么識別這種變異將更具挑戰性。
在這里,檢測到每500-2000個體中就有1個發生單親二體事件也很重要。在UPD的情況下,兩條染色體都是從同一親本遺傳的,印跡基因的變異可能是疾病的原因(上海尋因提供trio WES分析UPD軟件)。用已知疾病機制的信息注釋基因對于解釋WES數據非常有用。
10.注意異構體、假基因和基因拷貝
長期以來,我們對基因調控的概念一直被簡化為單一啟動子驅動基因轉錄,然后剪接前mRNA,刪除所有內含子。如今,我們知道基因表達是以時間-組織-或發育階段依賴的方式控制的。例如,剪接異構體可能缺少一個或多個外顯子(自然外顯子跳躍),具有額外的相關外顯子,具有不同的翻譯起始位點,或者基因可能具有多個啟動子,導致不同異構體的出現。困難在于考慮哪種亞型與疾病有關,如何評估存在于僅一個子亞型中的變異,或者如果在不同亞型之間的閱讀框不同,如何確保不丟失相關的“注釋”。
例如,我們在一名發作性共濟失調患者中確定了CACNA1A基因的Chr19(GRCh37):g.1333957G>變異。在五分之一的CACNA1A亞型中,這種變異是無義變異,NM_001127221.1:c.5569C>T.pArg1857*),而在其他四個中為內含子(補充圖S11)。參與脊髓小腦性共濟失調6型(OMIM#183086)的polyQ擴展由另外兩種CACNA1A亞型(NM_001127222.2和NM_023035.3)編碼,表明這兩種亞型對正常的小腦功能至關重要。因此,事實上,無義變異僅存在于不編碼多聚核糖核酸的亞型中,因此最初使我們認為這種變異可能是良性的。然而,Graves等人表明,該亞型使用了一個替代的外顯子37A,而不是原始的外顯子37B,并且該亞型中的無義變異會導致偶發性共濟失調(OMIM#108500)。
或者因為整個亞型是多余的,因此亞型特異性變異可能表現為致病性或可能是良性的。最后,由于外顯子跳過,一些異構體的閱讀框架部分不同,因此很難正確注釋其中的變異。對于在不同亞型中具有不同效果的變異,通常可以獲得所有后果,但為了方便起見,最嚴重的后果是優先考慮的(例如,終止密碼子丟失而非錯義)。然而,這可能會對一些疾病產生影響,比如努南綜合征,這些疾病具有功能獲得或顯性負效應機制,其中錯義變異是致病性的,而無義變異不是。總的來說,重要的是確保在多個異構體中調用和注釋變異,然后進行正確解釋,以避免遺漏相關變異。
此外,基因拷貝和假基因在WES中造成了嚴重的問題,因為短序列讀取的序列比對不明確,并且隨后在這些區域中缺乏變異檢出。出名的是完整疾病基因的拷貝,如SMN1、CYP21A2、PKD1、STRC或部分基因,如NEB基因內8個外顯子的同源區。然而,其他變異可能會被call并顯示異常的變異等位基因部分,即純合子或雜合子中非常低的百分比時為雜合子,或者代表偽基因的假陽性調用,正如我們在STRC基因中發現的無義變異(補充圖S12)。在基于現有資源的解釋過程中,應該讓人意識到這些基因,并使用獨立技術驗證這些變異的存在和合子性(如果已識別)。針對這一點,已經提出了不同的實驗室方法,如基于NGS的拷貝數評估,輔以長程PCR堿基Sanger或MiSeq分析。此外,可以簡單地從分析中排除片段重復。由于假基因的存在,如果基于患者表型檢測已知致病性突變可能很困難,那么也應該以有針對性的方式對患者進行檢測。
討論
在這里,本文提供了10多年來從臨床外顯子組測序中獲得的一些最重要的經驗教訓。作為一個診斷實驗室對于質量和穩健性的關注并不鼓勵持續的變化。但在這個快速發展的領域,跟上時代和創新已經成為一個必不可少的過程。通過提供我們在診斷工作流程開發過程中所犯錯誤的例子,我們希望我們不僅能夠讓人們意識到這些具體問題,而且能夠讓人們意識到診斷實驗室中確實存在錯誤。對于患者和推薦臨床醫生了解臨床外顯子組測序的局限性至關重要。這些限制最好在診斷報告中提及。盡管所犯的一些錯誤要求我們用正確的診斷重新聯系患者,但我們認為這在一定程度上是不可避免的,對犯錯誤的恐懼不應妨礙創新和改進,因為從長遠來看,這對患者護理的危害比偶然的錯誤更大。
因此,重要的是要有一個全面的框架,以便在測序、數據分析和解釋層面及時發現錯誤和問題。通過提供基準數據集,以及促進實驗室之間的比較,有幾項舉措可以在這方面幫助實驗室。從這些例子中觀察到的一個有趣現象是,測序過程中出現的問題有時不是測序實驗室自己發現的,而是分析數據的生物信息學家發現的。類似地,分子遺傳學家在數據解釋過程中經常會發現數據處理中的錯誤。因此,在參與臨床外顯子組測序過程的不同部分(即測序設施、生物信息學和數據解釋)的成員之間建立常規反饋程序至關重要。
雖然這些例子似乎是非常罕見的例外,不太可能與日常病例有太大關聯,但我們認為這些“例外”與罕見的遺傳疾病相似,這些疾病可能個別罕見,但總體上相當常見。當然,在執行常規EXOME解釋時,盡可能多地考慮所有罕見可能性所需的時間并不總是可行的。因此,應逐步優化數據分析、注釋和程序,以增加此類臨床相關基因變異的自動提取。類似地,驗證、設置和執行WES的多種可能分析,如檢測UPD、線粒體變異、重復擴增、,移動元件插入等。數據共享和再分析工作,可能會證明是有益的;并且可以利用大量樣本進行分析,雖然這些分析不太可能診斷任何單個樣本,但在一個大隊列中將識別少數病例。
我們在這里提出的錯誤可能不會是我們最后的錯誤。從長遠來看,我們努力從錯誤中學習,以改進診斷方法,我們希望其他人也能從我們的錯誤中學習。
譯者介紹
邊疆 男 2010年畢業于中山大學婦產科生殖內分泌專業,獲博士學位。專業方向:女性生殖力保存、環境生殖毒理學。從事婦科內分泌疾病和女性生殖內分泌臨床20余年
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的临床外显子组测序分析中的那些坑(下)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转录组+微生物组联合解密困扰50年的丛枝
- 下一篇: 5.10 图像运算