38种癌症、2659份样本,举全球之力破解癌症全基因组密码
作者:代絲雨&應雨妍&BioTalker
今日上線的《自然》雜志以封面專題的形式報道了一組超重磅研究,包括《自然》主刊刊發的 6 篇論文在內,《自然》及其旗下子刊共計發表 21 篇論文,3 篇新聞報道及評論。
得到頂級期刊如此大規模禮遇的正是近年來備受關注癌癥基因組研究,更準確地說,是以全球癌癥基因組協會(ICGC)和癌癥基因組圖譜計劃(TCGA)工作為基礎的全基因組泛癌分析(PCAWG)。
眾所周知,癌癥是一種基因病,由體細胞癌基因突變引起。但是從人類認識基因直到最近,人類對癌癥基因組的研究仍集中于功能基因,這部分基因僅占全基因組的不足2%。本次 PCAWG 披露的工作成果正是填補了這一空白,進一步探索了編碼區和非編碼區中體細胞和種系變異的性質及后果,特別關注了順式調控位點、非編碼 RNA 以及大規模結構變異。
PCAWG 可以說是全球學者大規模合作的成果,研究數據來自分布在四個大洲、744 個科研機構的 16 個工作組,研究者們對 38 個癌種、2658 個原發癌及其相應的正常組織進行了全基因組測序和整合分析,為癌癥研究提供了全新的視野。
本次披露的科研成果揭示了大規模結構突變在癌癥中所發揮的廣泛作用、在基因調控區域找到了新的癌癥相關突變、推斷了多種腫瘤的進化等等,并同時展示了研究所用的數據、工具和其他資源,這對于想要進一步探索的學者來說也是非常有幫助的。
今天奇點就對《自然》的 6 篇論文、《自然·遺傳學》的 5 篇論文和《自然·生物技術》的 1 篇論文做一些簡要的介紹,希望能為各位讀者提供幫助。感興趣的讀者可以點擊文末“閱讀原文”直接跳轉到論文合集頁。
PCAWG 研究數據的概述
發表在《自然》雜志上的 6 篇文章分別從不同的角度介紹了癌癥全基因組的分析結果。在第一篇文章中,研究人員概述了 PCAWG 數據的深度和廣度。平均來看,每個癌癥基因組均攜帶4-5 個驅動突變,但有5% 的腫瘤則沒有發現,這表明我們在癌癥驅動突變的發現中還有很多工作要做。
另外,很多癌癥患者還存在復雜的染色體重排(chromoplexy,17.8%)和染色體碎裂(chromothripsis ,22.3%)這兩種類型的突變,它們導致了基因組結構的變化。
在剩下的 5 篇文章中,不同小組的研究人員分別從基因組突變特征、癌癥進化史、RNA 改變和非編碼 DNA 這幾個方面進行了詳細的討論。
基因組突變特征
首先來說基因組突變特征,5 篇文章有 2 篇分析了不同類型的突變特征,其中一篇是關于體細胞突變。
癌癥基因組中的體細胞突變是由多個突變過程引起的,每個突變過程都會產生具有特征性的突變特征。研究人員通過對 4645 個全基因組和 19184 個外顯子序列的測序,確定了 49 個單堿基取代,11 個雙堿基取代,4 個簇堿基取代和 17 個小插入/缺失特征。
單堿基取代、雙堿基取代和小插入/缺失特征的突變負荷
在這些突變特征中,既包含過去研究已經發現的,也有一些全新的。雖然有些突變特征的誘因沒有找到,但是在這些數據的基礎上建立突變特征庫并確定它們在不同癌癥中的作用,可以幫助研究人員更系統地了解癌癥的發展。
另一篇則是關注了結構變異,結構變異也是癌癥的關鍵突變過程,研究人員共找到了 16 種結構變異特征并且解析了它們在癌癥中的作用。例如缺失,在各種癌癥類型和患者中分布不均,在晚期復制區域富集,并且和倒位相關。
總的來說,這些突變特征的發現為理解癌癥發展機制以及風險因素的誘變暴露的作用奠定了基礎。
癌癥進化史
接下來是癌癥進化史,在這篇文章中,研究人員重建了 38 種癌癥的發展史以及突變過程和驅動突變序列的演變。
腸癌(a)、肺鱗狀細胞癌(b)、卵巢癌(c)和胰腺癌(d)重要突變出現的時間軸
早期腫瘤發生的特征是一組受限制的驅動基因的突變,以及特定的拷貝數增加,而后期,驅動基因突變有了近 4 倍的多樣化,基因組的不穩定性增加。在整個腫瘤發展過程中,有至少 40% 的腫瘤突變譜會發生顯著變化。
時序分析表明,環境對腫瘤進展的影響隨著時間逐漸減弱,DNA 修復缺陷的頻率和嚴重性逐漸增加。值得注意的是,驅動基因突變的發生通常要比癌癥的診斷早幾年,甚至幾十年。
RNA 改變
在癌癥研究中,RNA 改變的研究還比較欠缺,因此,這次的新研究[5]利用龐大的樣本量為我們提供了迄今為止最全面的數據。
通過匹配的全基因組測序,研究人員將幾類 RNA 改變(包括過表達和基因融合等)與 DNA 改變功能性地關聯在了一起。他們一共確定了 649 個影響基因表達的體細胞單核苷酸變異和 1900 個與體細胞突變有關的剪切改變。
此外,有高達 82% 的基因融合和結構變異有關,包括 75 種新的“橋接”融合(兩個基因中插入第三個基因并發生融合)。
橋接融合的過程
研究人員觀察到轉錄組改變的特征在不同癌癥中是不同的,并且與 DNA 突變特征的變化相關。這種 RNA 改變為了解與癌癥相關的功能性基因和機制提供了新的可能。
非編碼 DNA
最后再來說說非編碼 DNA 中的突變,由于準確地檢測非編碼區突變比編碼區突變難度更大,因此研究人員開發了兩種新的發現驅動突變的方法。
他們的檢測結果發現了一些新的突變,包括 TP53 的5’端非編碼區,NFKBIZ 和 TOB1 的3’端非翻譯區的點突變等,同時,也對過去發現的個別突變提出了質疑,例如 NEAT1 和 MALAT1。
TOB1 的3'端非翻譯區的突變和相關基因表達
他們還發現端粒酶基因 TERT 的非編碼區中相對頻繁的突變導致端粒酶的過表達,會促進癌細胞的分裂。
雖然驅動癌癥的點突變和結構變異在非編碼基因和調控序列中發生的頻率比編碼基因和序列中要低,但是隨著更大的基因組分析,還會有很多非編碼 DNA 突變被發現。
線粒體與癌癥的關系
線粒體是人體內的能量工廠,由于能量代謝的改變是癌癥的普遍特征,因此一直以來,很多科學家懷疑線粒體也參與到癌癥的發病過程中。
此外,線粒體在細胞的生物合成、信號傳導、分化、凋亡、維持細胞周期和細胞生長的控制等方面也起著重要的作用,而上述的過程也都與癌癥的發生有內在聯系。
雖然之前也有研究探索了線粒體與癌癥之間的關系,但是沒有充分探索線粒體基因組和核基因組之間的相互作用,以及線粒體改變的生物醫學意義。
論文首頁
PCAWG 為上述研究提供了充足的數據。
來自 MD 安德森癌癥研究中心的科學家,從多個方面分析了線粒體基因組數據和相關的 RNA 測序數據。相關研究發表在《自然·遺傳學》上。
他們繪制了線粒體基因突變圖譜,還確定了幾個超突變病例。他們發現,線粒體基因的截斷突變在腎癌、結腸直腸癌和甲狀腺癌中非常多,暗示這些基因信號的變化有致癌作用。
他們還發現,線粒體 DNA 存在頻繁的細胞核轉移,其中一些線粒體 DNA 片段會破壞治療靶基因。而且,線粒體拷貝數在癌癥內部和之間差異很大,并且與一些臨床變量相關。
癌癥線粒體基因組的突變景觀和過程
共表達分析凸顯了線粒體基因在氧化磷酸化、DNA 修復和細胞周期中的功能,而且還發現它們與臨床上可干預基因位點之間存在聯系。
這個研究為線粒體生物學意義轉化成臨床應用奠定了基礎。
拓撲相關結構域與癌癥的關系
我們都知道,我們體內的 DNA 是以特定的三維結構折疊在一起的。
科學家好早就發現,具有相同拓撲相關結構域(TAD)的基因,表現出相似的表達水平和組蛋白修飾。而且區分不同結構域的邊界,對于維持上述特點的穩定性至關重要。
論文首頁
實際上,科學家已經發現,在人類癌癥中,這種結構域的破壞,會導致基因表達的失調。不過結構域的在癌癥中被破壞的程度,仍然鮮為人知。PCAWG 數據庫提供了一個研究此類問題的好機會。
來自 MD 安德森癌癥研究等頂級癌癥研究機構的科學家們,分析了 PCAWG 數據庫中的 288457 個結構變異,以了解結構變異在拓撲相關結構域中的分布,以及對拓撲相關結構域的影響。
他們發現結構變異可以導致離得很遠的拓撲相關結構域發生融合,或者發生復雜的重排,最終破壞了癌癥基因組染色質折疊圖譜。此外,只有 14% 的結構域邊界缺失,會導致附近基因表達水平變化超過 2 倍。
拓撲相關結構域邊界受癌癥基因組中不同類型結構變異影響
這個研究探索了體細胞結構變異在不同癌癥類型中的分布,以及它們在染色體折疊和基因調控中的作用。研究成果發表在《自然·遺傳學》上。
LINE-1 逆轉錄轉座子與癌癥的關系
LINE-1 逆轉錄轉座子是人類基因組中一個廣泛存在的重復元件,占整個 DNA 的 17%。它可以通過轉錄和逆轉錄的轉座過程產生新的 DNA 拷貝,插入到基因組不同的位置。
顯然,LINE-1 轉座會影響基因組中其他基因的表達和調控,進而影響基因組的穩定性。科學家在大約一半的癌癥中發現了逆轉錄轉座子的搗亂行為。不過 LINE-1 的插入對癌癥的影響,科學家了解的還不夠。
論文首頁
來自英國威康桑格研究所等研究機構的科學家,以 PCAWG 數據庫為基礎,分析了癌細胞的逆轉錄模式和機制。他們發現了 19166 個獲得性逆轉錄事件,影響了 35% 的腫瘤樣本。
具體而言,LINE-1 插入是食管腺癌中最常見的結構變異類型,是頭頸癌和直腸癌中第二常見的體細胞結構變異類型。而且,異常的 LINE-1 插入甚至可以導致染色體上數百萬堿基對的 DNA 片段被刪除,有些抑癌基因就在被刪除的 DNA 片段之中。
人類癌癥中體細胞逆轉錄轉座的情況
此外,LINE-1 插入還會誘發復雜的 DNA 片段異位和大規模的重復,甚至還會導致癌基因表達水平大幅上升。
這些發現闡明了 LINE-1 逆轉錄轉座子在重塑癌癥基因組中的作用,對腫瘤的發展存在潛在的影響。研究成果發表在《自然·遺傳學》上。
病毒感染與癌癥的關系
世界衛生組織估計,15.4% 的癌癥歸因于感染,9. 9% 的癌癥與病毒有關。由此可見病毒感染與癌癥之間存在密切的關系。
在與癌癥相關的病毒之中,最為我們所熟知的是HPV、HBV、HCV 和 EBV四種。
那么在 PCAWG 數據庫中,能挖到哪些病毒與癌癥之間的關系呢?
論文首頁
來自德國癌癥研究中心的科學家在 PCAWG 數據庫中,發現 382 個基因組數據和 68 個轉錄組數據集中存在病毒的蹤跡。他們發現,在發現的病毒數據集之中,EBV、HBV 和 HPV(尤其是 HPV16 和 HPV18)的出現頻率較高。
他們還發現,在頭頸癌中,HPV 的存在與驅動基因突變之間存在顯著的排他性;而HPV 與 APOBEC(有廣譜的抗病毒作用)突變之間的相關性,意味著抗病毒能力的減弱,是宮頸癌、膀胱癌和頭頸癌的驅動因素。
HBV、HPV16、HPV18 和 AAV2 病毒的整合,與基因組拷貝數的局部變異有關。在TERT 啟動子處發生的病毒整合,與端粒酶表達水平高有關,意味著這個腫瘤驅動基因被激活。他們還發現,高水平的內源性逆轉錄病毒(ERV1)表達,與腎癌患者的預后差有關。
病毒與癌癥關系的研究過程及結果
由此看來,病毒感染與癌癥的關系值得深入研究。本研究也發表在《自然·遺傳學》上。
染色體碎裂與癌癥的關系
在染色體的復制過程中,有時會出現一種被科學家稱為染色體碎裂的災難性大規模基因重組。染色體碎裂的細胞一般會死亡,如果不幸存活下來,就會引發癌癥。
雖然近年來科學家對染色體碎裂的機制有了一些研究,但是對于染色體碎裂的成因、出現的頻率,以及對細胞的影響,仍需要深入的研究。
論文首頁
來自哈佛大學路德維希中心等研究機構的科學家,基于 PCAWG 數據庫深入研究了癌癥中的染色體碎裂事件。
他們發現染色體碎裂事件普遍存在于所有癌癥類型之中,在有幾種癌癥類型當中,出現的頻率甚至超過 50%。從功能上看,染色體碎裂有助于癌基因的擴增,還會導致 DNA 錯配修復相關基因失活。
染色體碎裂的檢測方法極其在各種癌癥中的分布
總之,這個研究表明,染色體碎裂是驅動癌癥基因組進化的重要過程。這個研究也發表在《自然·遺傳學》上。
云計算與癌癥基因組數據分析
今天要介紹的最后一個研究是歐洲分子生物學實驗室(EMBL)發在《自然·生物技術》的研究成果。
論文首頁
他們帶來了一個叫做 Butler 的計算工具,它可以幫助科學家在公有云和學術云上開展大規模的基因組分析。
Butler 包括創新的異常檢測和自我修復功能,與當前方法相比,該方法將數據處理和分析的效率提高了 43%。通過 Butler,可以高效、統一地處理 PCAWG 項目中的 725TB 癌癥基因組數據。
算法的工作流程
這篇論文的剩下內容奇點糕也看不懂了,大家感興趣的話自己去看看論文吧。
結語
如今,科研的方式已經與幾十年前大不相同,全球的科學家們通過云技術分享,數據的獲取不再是難題。
根據《自然》雜志評論的數據,2019 年,共有來自 146 個國家/地區的八萬三千余名研究者從歐洲信息學研究所獲取 DNA 數據,總下載量達到 6.7PB,這相當于大約 2300 億個完整的人類基因組。
而這樣的共享還會隨著數據的可及性增加。
當前科研要考慮的已經不再是基因數據本身,包括與其匹配的臨床信息的收集、基因組信息與醫療保健系統的整合、參與者的隱私保護、國際統一標準的建立等等,這些都是當下已經不得不思考并解決的問題。
這將是一個更加廣闊的世界。
總結
以上是生活随笔為你收集整理的38种癌症、2659份样本,举全球之力破解癌症全基因组密码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 史上最高高达机器人即将问世横滨港!身高1
- 下一篇: 在线少儿编程公司VIPCODE获战略投资