二代测序技术之illumina测序技术原理简介
現(xiàn)今的生信領(lǐng)域幾乎就是和無(wú)數(shù)的序列打交道,而這些序列的來(lái)源就是如今風(fēng)靡的高通量測(cè)序技術(shù),現(xiàn)今的測(cè)序不論是測(cè)RNA、DNA、miRNA還是ChIP-Seq等等,都是基于NGS(二代測(cè)序,next-generation sequencing)的技術(shù)發(fā)展而來(lái)的,目前最為常用的就是illumina公司的測(cè)序技術(shù),當(dāng)然除了illumina公司外還是有其它二代測(cè)序技術(shù)存在的,ABI公司也有SOLiD測(cè)序技術(shù)。而之所以被稱(chēng)為二代測(cè)序,是因?yàn)楸纫淮鷾y(cè)序技術(shù)提升了非常多,具體體現(xiàn)在速度、準(zhǔn)確性、效率等等方面。
由于序列對(duì)于生信行業(yè)的重要性,我認(rèn)為了解基本的測(cè)序技術(shù)的原理是非常必要的,這也有利于生信技術(shù)人員了解到測(cè)序序列的特點(diǎn)和測(cè)序序列中可能出現(xiàn)的問(wèn)題,了解到現(xiàn)今測(cè)序技術(shù)的局限性,甚至提出意見(jiàn)改進(jìn)測(cè)序技術(shù)。因此本文會(huì)簡(jiǎn)要介紹當(dāng)今最常用的illumina測(cè)序技術(shù)的測(cè)序原理。
文章目錄
- 基因文庫(kù)制備(sample prep)
- 生成序列簇(cluster generation)
- 測(cè)序(sequencing)
- 數(shù)據(jù)處理(data analysis)
- 叮
基因文庫(kù)制備(sample prep)
制備測(cè)序基因文庫(kù)是最初始的一步,這里我不過(guò)多解釋文庫(kù),簡(jiǎn)要解釋文庫(kù)就是一個(gè)包含你所要測(cè)序的所有基因序列的集合體。測(cè)序過(guò)程中的基因文庫(kù)的制備是將要測(cè)序的樣本經(jīng)過(guò)序列片段化(fragmentation)、再將這些片段化后得到的所有短序列的兩端加上接頭,從而將要測(cè)序的序列制備成為一個(gè)有很多擁有相同雙端序列,但內(nèi)部序列不同的序列片段集合體。具體步驟如下圖。
圖自:https://max.book118.com/html/2017/0924/134913788.shtm
解釋一下圖中的步驟:
- 首先將要測(cè)序的序列或者基因組等使用nebulisation(霧化)或者sonification(超聲)再或者是酶學(xué)方法處理,即可得到片段化后的DNA序列,每個(gè)片段大概200-300bp。
- 片段化后的序列很大幾率是擁有末端凸出的序列,并不是完整的配對(duì)狀態(tài),因此需要使用酶將其末端補(bǔ)平。
- 再使用酶在序列的平末端兩端各加上一個(gè)A(腺嘌呤)尾。
- 通過(guò)上一步加上的A尾,illumina公司制作的接頭(adapter)很容易加在序列的兩端。
- 通過(guò)上面的步驟,制作步驟就結(jié)束了。但是需要提升測(cè)序序列的數(shù)量從而提高測(cè)序的準(zhǔn)確性,也使后續(xù)的序列拼接步驟較為方便。因此最后還需要進(jìn)行PCR操作擴(kuò)增基因文庫(kù)中序列的數(shù)量。由于每個(gè)序列的兩端都有接頭,因此設(shè)計(jì)的引物只需要和接頭配對(duì)即可,十分方便。
有博客中寫(xiě)到文庫(kù)制作是有兩次序列片段化的過(guò)程的,這個(gè)具體我不是很清楚,但是實(shí)際上操作是一樣的,只是會(huì)重復(fù)某些步驟而已。有興趣的人可以去看這篇文章
這里要提一下加上的接頭序列,一個(gè)序列片段加上接頭后即變成如圖的序列:
圖自:https://www.cn-healthcare.com/articlewm/20210110/content-1179325.html
- 原始的序列在③處,而③之外的兩端各為一個(gè)接頭。
- ①處為后續(xù)會(huì)使用到的區(qū)域,暫時(shí)先不解釋。
- ②處是測(cè)序時(shí)會(huì)使用到的片段,測(cè)序時(shí)發(fā)揮功能的引物是和②處配對(duì)的,配對(duì)后向中間部分(即③,要測(cè)序的序列)擴(kuò)增序列,從而達(dá)到邊合成、邊測(cè)序(sequencing by synthesis)的效果。
- 這里圖中提到的read1和read2是代表從正向和反向兩次測(cè)序得到的序列結(jié)果。既然只是一條DNA序列,那為什么要測(cè)兩次呢,這是因?yàn)橛袝r(shí)候序列片段化不夠徹底導(dǎo)致序列較長(zhǎng),而測(cè)序的序列若是較長(zhǎng)則會(huì)導(dǎo)致測(cè)序的結(jié)果越來(lái)越不準(zhǔn),并且測(cè)序也可能達(dá)不到序列的全長(zhǎng),而從兩端都進(jìn)行測(cè)序就能夠延長(zhǎng)測(cè)序長(zhǎng)度同時(shí)還能夠使測(cè)序結(jié)果相對(duì)更為準(zhǔn)確一些。
- ④處的序列是后續(xù)用于區(qū)別樣品來(lái)源的一段引物配對(duì)序列。由于現(xiàn)今的測(cè)序技術(shù)已經(jīng)達(dá)到很快速且很高效的地步,要是每次測(cè)序都只是測(cè)很短的序列,那么會(huì)導(dǎo)致資源浪費(fèi),因此每次測(cè)序可以盡量多測(cè)幾組從而不浪費(fèi)測(cè)序資源。這里的index序列就是后續(xù)區(qū)別所添加的樣本來(lái)源的依據(jù)。后面測(cè)序步驟時(shí)會(huì)再介紹。
生成序列簇(cluster generation)
這一個(gè)步驟很多博客直接起名為橋式PCR,我覺(jué)得不夠完整,橋式PCR只是是其中的一個(gè)重要的步驟,重要的是通過(guò)一系列包含了橋式PCR的步驟,從而生成了測(cè)序序列的序列簇。什么叫序列簇呢?就是相同的序列都聚集在一起從而形成的一簇序列。這個(gè)步驟是最最最核心的步驟,也是illumina公司的專(zhuān)利技術(shù)所在。
生成序列簇的意義是因?yàn)槿羰莾H有一條序列進(jìn)行測(cè)序,而測(cè)序時(shí)每條序列上又僅有一個(gè)熒光分子,而一個(gè)熒光分子所釋放的熒光是很難被設(shè)備檢測(cè)到的,而將每條需要測(cè)序的序列進(jìn)行處理從而生成序列簇后就能在每次檢測(cè)熒光時(shí)檢測(cè)到一群相同的序列所釋放的熒光,這樣就不會(huì)有剛剛的問(wèn)題了。大致了解序列簇后,接下來(lái)就要介紹序列簇的生成了。
序列簇的生成是在flowcell(流動(dòng)槽)上形成的,一個(gè)flowcell的外觀(guān)如圖:
可以看到上面有八條白色的槽,這些槽也被成為陣列式流動(dòng)槽,這些流動(dòng)槽中使用illumina的技術(shù)從而使數(shù)十億個(gè)納米井按照固定位置分布在槽中,這樣大數(shù)量的納米井的存在使得數(shù)據(jù)產(chǎn)出增加、成本降低、運(yùn)行時(shí)間也相對(duì)縮短了。接下來(lái)看一下納米井是什么吧!
上面這張圖就是flowcell放大非常多倍后的情況,可以看到上面密布著密密麻麻的孔,這些孔就是一個(gè)一個(gè)的納米井,而每一個(gè)納米井中的情況是:
上面這張圖就是一個(gè)孔中的情況,每個(gè)孔中都密布著DNA探針,這些探針序列是能夠和之前提到的接頭序列互補(bǔ)配對(duì)的,所以每個(gè)孔中就只有兩種DNA探針,這些探針序列是通過(guò)共價(jià)鍵結(jié)合到孔底部的(這些技術(shù)都是illumina的專(zhuān)利技術(shù))。
了解了上面的知識(shí)后,就可以開(kāi)始介紹如何制作序列簇啦。
首先,將之前制作好的DNA文庫(kù)變性解旋,以使加入的序列都是單鏈狀態(tài),將這些單鏈序列加入到流動(dòng)槽之中,而illumina獨(dú)有的技術(shù)能夠確保每個(gè)納米井中僅進(jìn)入一條序列。由于每個(gè)納米井中只進(jìn)入一條序列,因此每個(gè)納米井中最終都只生成一個(gè)序列簇,也正是因此每一個(gè)納米井中的所有序列發(fā)出的熒光都是一樣的,因此對(duì)一個(gè)納米井中的熒光檢測(cè)的結(jié)果也就是一條序列測(cè)序的結(jié)果,這樣也就完成對(duì)單獨(dú)的一條序列進(jìn)行測(cè)序的需求啦。
每條序列進(jìn)入納米井后,由于具有接頭序列,因此其能夠與納米井中的一條探針序列配對(duì),配對(duì)后加入dNTP和聚合酶就能夠使序列延伸到文庫(kù)中序列的長(zhǎng)度(包含接頭),如下圖:
形成完整的雙鏈后,再使序列變性解旋,而這時(shí)新合成的鏈由于其底部的探針序列是依靠共價(jià)鍵和底部相連的,因此其不會(huì)被洗脫掉。由于其不會(huì)被洗脫,其就能夠依靠其伸出去的一端與附近的探針序列配對(duì),如圖:
就這樣配對(duì)后,再加入dNTP和聚合酶,其又會(huì)被延伸,延伸后如圖:
之后再變性解旋,就得到這樣的兩條鏈:
得到這樣的兩條鏈后,就反復(fù)地重復(fù)上面的橋式PCR的過(guò)程,從而使得每個(gè)納米井中有非常多序列的拷貝數(shù),才能達(dá)到測(cè)序的要求,如下圖:
測(cè)序(sequencing)
達(dá)到上圖所示的狀態(tài)后,就差不多算完成了。但是要進(jìn)行測(cè)序,就得先確定測(cè)序的方向,而剛剛提到了雙端測(cè)序,也就是我們要對(duì)序列的兩條單鏈序列進(jìn)行分別測(cè)序。首先進(jìn)行read1的測(cè)序,使用一種酶在能與read2引物配對(duì)的序列的某個(gè)位置上將read1切斷,這樣每個(gè)納米井中就只剩下了一種方向的序列(不是5→3就是3→5),之后還會(huì)對(duì)伸出那端的核酸進(jìn)行修飾防止額外延伸。這樣就能夠進(jìn)行一端的測(cè)序啦。
如上圖就可以開(kāi)始測(cè)序啦,測(cè)序時(shí)先加入測(cè)序引物1,配對(duì)如圖:
這樣在體系中添加含有熒光標(biāo)記的dNTP就開(kāi)始測(cè)序了,添加有熒光標(biāo)記的dNTP還額外包含一個(gè)疊氮基團(tuán),有疊氮基團(tuán)的存在序列不能正常延伸,因此每添加上一個(gè)核酸后,序列的延伸會(huì)停止,這時(shí)候就能夠在觀(guān)測(cè)設(shè)備下根據(jù)納米井發(fā)出的熒光顏色讀取到正在合成的核酸,在觀(guān)測(cè)后,使用特定酶水解調(diào)疊氮基團(tuán)和熒光基團(tuán),這樣下一個(gè)dNTP就能夠正常進(jìn)入到延伸序列中。就是不斷的重復(fù)上面的步驟,最終就能夠讀取到序列的組成了。
貼一下示意圖:
上面的圖就是一個(gè)示意圖,其中的一個(gè)固定的納米井在不同的圖中顯示不同的顏色,就一一對(duì)應(yīng)著序列信息。上圖中使用的是四通道測(cè)序(即每種堿基是不同的熒光顏色,因此其需要收集四張照片,四張照片是因?yàn)槊糠N熒光都需要分開(kāi)去激發(fā)),現(xiàn)在illumina又有新的雙通道測(cè)序技術(shù)了,雙通道測(cè)序只依賴(lài)兩種熒光顏色即可,有興趣可以去了解一下。
上面第一部分介紹到了接頭中包含了一端index序列,在測(cè)read1結(jié)束后就會(huì)測(cè)index序列了,測(cè)index序列時(shí),首先需要將測(cè)序得到的雙鏈水解掉。再使用read2引物和序列接頭(這時(shí)配對(duì)的部分與read1部分不同,但是延伸的方向)配對(duì),配對(duì)后延伸大概六到八個(gè)堿基即可,這六到八個(gè)堿基就能夠用于確定樣本的來(lái)源了。
測(cè)完index序列后就可以開(kāi)始對(duì)read2的測(cè)序啦,要對(duì)read2測(cè)序很簡(jiǎn)單,就只需要再進(jìn)行一次橋式PCR即可,這樣得到的納米井就是所有探針序列都被延伸過(guò)的結(jié)果,如圖(同上面的一張圖一樣):
這時(shí)候再對(duì)能與read1引物配對(duì)的序列的某個(gè)位置的核酸進(jìn)行切斷處理就可以啦,就留下另外一條需要測(cè)序的鏈了。之后測(cè)序的步驟同之前測(cè)read1一樣。
數(shù)據(jù)處理(data analysis)
在測(cè)序結(jié)束后,需要對(duì)得到的結(jié)果進(jìn)行處理,這個(gè)方面我不是很清楚,不過(guò)可能大多會(huì)得到fastq文件。
fastq文件格式如上,
- 第一行是測(cè)序reads的ID以及其他信息。
- 第二行是序列
- 第三行以+開(kāi)頭,跟隨著該read的名稱(chēng)。
- 第四行代表著每個(gè)堿基的測(cè)序質(zhì)量。
這個(gè)部分不多講,因?yàn)槲也皇呛苁?#xff0c;以后有機(jī)會(huì)會(huì)補(bǔ)上的。
叮
參考:https://www.bilibili.com/video/BV13p411f7vx
參考:http://41j.com/blog/2012/04/nextgen-sequencing-primer/
參考:https://www.illumina.com.cn/science/technology/next-generation-sequencing/sequencing-technology/patterned-flow-cells.html?langsel=/cn/
參考:https://max.book118.com/html/2017/0924/134913788.shtm
參考:https://www.cn-healthcare.com/articlewm/20210110/content-1179325.html
總結(jié)
以上是生活随笔為你收集整理的二代测序技术之illumina测序技术原理简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: iOS面试准备 - ios篇
- 下一篇: 一缕黑暗中的火光-----------协