如何判断基因组的重复区域_人类参考基因组GRCh37 VS GRCh38
人類基因組包括22條常染色體(1-22),2條性染色體(X,Y)和線粒體DNA(mtDNA)。高通量測序的reads比對至參考基因組是后續(xù)數(shù)據(jù)分析的基礎(chǔ)。因此,參考基因組的質(zhì)量是至關(guān)重要的。目前,廣泛使用的版本是GRCH37和GRCH38。2009年,the Genome Reference Consortium (GRC)發(fā)布了第19版人類基因組GRCH37,也常被稱為hg19。GRCH37被廣泛應(yīng)用于數(shù)據(jù)分析。2013年,GRC發(fā)布了GRCH38。但由于注釋工具、數(shù)據(jù)庫的不健全及升級基因組工作繁雜,時至今日,GRCH37仍被相當(dāng)程度地使用。
根據(jù)GRC的官方文件,GRCH38是最精確的人類基因組。GRCH38基于金標(biāo)準(zhǔn)Sanger測序組裝,讀長約為1000bp,精確度是高通量測序的10倍。與GRCH37相比,GRCH38替換了8000個等位基因位點(diǎn),校正了數(shù)個組裝錯誤的基因組區(qū)域,補(bǔ)全了gap,添加了著絲粒序列,在178個區(qū)域組裝了261條alternate loci,豐富了基因組的多樣性。
已發(fā)表的論文認(rèn)為GRCH38是GRCH37的重大升級,可提供更精確的生物信息學(xué)和基因組學(xué)分析。我們設(shè)計(jì)了實(shí)驗(yàn)量化基于GRCH38和GRCH37的數(shù)據(jù)分析差異。
結(jié)果
不算線粒體DNA,GRCH37 和GRCH38分別有3095677412和3088269832個核苷酸。最常用的線粒體基因組是1999年劍橋發(fā)布的rCRS,因此兩者線粒體基因組是一樣的。在基因組fasta文件中,’N’表示gap或者未注釋區(qū)域,GRCH37共有234350281個‘N’,而GRCH38中有150630719個,減少了83719562個,占比35.7%。從表1中看出,每條染色體上的‘N’數(shù)量都有減少。有文獻(xiàn)研究表明GC含量影響Illumina測序深度及測序均一性,這與后續(xù)的CNV檢測密切相關(guān)。GC位點(diǎn)的總數(shù)從GRCH37的1170371008增加到GRCH38的1200551672,共計(jì)增加了30180664個核苷酸。
外顯子可以編碼氨基酸,是人類基因組最重要的組成部分。從Ensembl (GRCh37 v37.75, GRCh38 v38.82)下載最新的Gene Feature Format (GTF)文件統(tǒng)計(jì)外顯子區(qū)域。外顯子區(qū)域由GRCH37的75231228個核苷酸增加到GRCH38的95505476個,約有26.9%的增幅。從全基因組水平看,外顯子占比由2.43%增至3.09%。外顯子區(qū)域擴(kuò)大的主要原因有3個:i.在GRCH38中,外顯子的總數(shù)從327058個增加到457748個;ii.每個基因的外顯子數(shù)從13個增加到19個;iii.每個外顯子核苷酸的中位數(shù)從140增加到146。
我們分別用GRCH38和GRCH37分析了30個WES樣本,然后從染色體統(tǒng)計(jì)、比對、SNV、indel、CNV和SV等多個維度比較了分析結(jié)果差異。
比對是高通量測序數(shù)據(jù)分析中非常重要的一步。總有部分reads無法比對至參考基因組,有論文指出改進(jìn)基因組可以提高比對率。從圖2看出,30個WES樣本的比對率都得到了提高,提高均值為0.0017%。外顯子區(qū)域的比對率明顯提高,約為3.22%,主要原因是外顯子區(qū)域擴(kuò)大,相應(yīng)地內(nèi)含子的比對率降低了2.70%。
使用GRCH37時,檢測到4656461個SNV,GRCH38時只有4617859個。這表明,改進(jìn)后的GRCH38產(chǎn)生更少的假陽性SNVs。非同義變異是我們關(guān)注的重點(diǎn),雖SNV總數(shù)變少,但GRCH38比GRCH37多了22622個非同義變異,主要原因是外顯子區(qū)域增加。使用LiftOver 轉(zhuǎn)化參考基因基因組坐標(biāo)后顯示,兩種基因組中93%SNV和88%indel是一致的,且質(zhì)量值和覆蓋度并無差異。
GRCH37檢測到3702個CNV,GRCH38檢測到3732個。其中,88.4%CNV是一致的。兩種基因組都檢測到了更多的重復(fù)片段。使用GRCH37,我們檢測到了371558個結(jié)構(gòu)變異,GRCH38檢測到了271825個結(jié)構(gòu)變異。83%的結(jié)構(gòu)變異同時在兩個基因組中檢測到。結(jié)構(gòu)變異檢測難度大,且有較高的假陽性率。分析結(jié)果顯示,GRCH38中結(jié)構(gòu)變異數(shù)少得多(少26.8%)。雖然我們沒有金標(biāo)準(zhǔn)來計(jì)算真陽性率和真陰性率,但變異數(shù)量減少預(yù)示著假陽性率降低。
結(jié)論
重組人類基因組是一項(xiàng)費(fèi)時又費(fèi)力的任務(wù),截止2018,人類基因組已經(jīng)發(fā)布了20個版本。GRCH38中一個重要的技術(shù)進(jìn)步是葡萄胎的應(yīng)用。葡萄胎沒有從卵子獲得染色體,精子的染色體發(fā)生了復(fù)制,因此沒有等位基因變異,可用于獲得基因組上高度同源區(qū)域的reads。GRCH38并不是完美的人類基因組,其主要缺陷在著絲粒的區(qū)域。該區(qū)域包括數(shù)百萬個堿基,序列高度重復(fù)。GRCH37著絲粒區(qū)域以gap形式存在,GRCH38建立模型推測的,雖不準(zhǔn)確,但還是向前邁進(jìn)了一大步。
人類基因組僅代表在基因組位點(diǎn)上的1個等位基因位點(diǎn)。參考等位基因是根據(jù)一個小群體的基因組確定的,可能并不是主要等位基因(人群頻率>50%)。在某些情況下,檢測的目標(biāo)人種沒有參考等位基因存在。目前的檢測軟件,如GATK,Platypus都允許一個位置存在多種等位基因。
基于GRCH37和GRCH38的WES樣本數(shù)據(jù)分析顯示,我們明確了GRCH38可以得到更準(zhǔn)確的分析結(jié)果。GRCH38具有更好的比對效果,對后續(xù)CNV及結(jié)構(gòu)變異的檢測都具有正面影響。綜上所述,GRCH38是人類基因組從GRCH37邁出的一大步,基因組準(zhǔn)確度的提升對于高通量測序數(shù)據(jù)分析具有明顯的積極意義。
總結(jié)
以上是生活随笔為你收集整理的如何判断基因组的重复区域_人类参考基因组GRCh37 VS GRCh38的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 摩尔庄园手游紫色炫彩星是什么?
- 下一篇: 看到大家说GAY骗婚,正走在骗婚的路上?