RNA-seq连特异性
RNA-seq連特異性
The strandness of RNA-seq analysis
前段時間一直在研究關(guān)于illumina TrueSeq stranded RNA-seq中的strand如何判斷的問題。之后我又查了很多資料,終于弄懂了?,F(xiàn)在寫下來,如果我有錯誤,歡迎繼續(xù)指正。 以下文字和圖片的引用鏈接都已經(jīng)給出,如果圖片在郵件中無法顯示,可以打開鏈接的。
先說結(jié)論:對于Illumina TrueSeq stranded RNA protocol,主要采用的是dUTP method。RNA的strand是與read1(先測的read)相反,與read2(后測的read)的strand相同的。換句話說,如果read1比對到基因組正鏈上,則對應(yīng)的RNA是在基因組的負(fù)鏈上。如果read2比對到基因組正鏈上,則對應(yīng)的RNA應(yīng)該是比對到正鏈上。
具體解釋如下:
1.關(guān)于strand:
1)DNA是由兩條互補(bǔ)配對的鏈組成的。按照預(yù)定俗稱,把其中一條鏈稱為正鏈(plus strand or forward strand),另一條則是負(fù)鏈(minus strand or reverse strand),這個定義完全是人為的。我們下載的hg18、hg19、hg38的fasta格式只給出了正鏈的序列。另一條鏈可以根據(jù)互補(bǔ)配對得出。
2)我們讀取的鏈的時候,經(jīng)常是從5’到3’的,無論DNA還是RNA。測序出來的兩個read,也都是從5’到3’的。視覺上,我們讀取plus strand的時候,from left to right。讀取minus strand的時候,from right to left。
3)RNA會根據(jù)一條DNA模板合成,我們在IGV或者UCSC上會看到RNA的鏈的信息,如果一條RNA在正鏈上(如下圖),其實(shí)該條RNA是以負(fù)鏈作為模板形成的,但是該條RNA與正鏈的序列一直。我們把和合成RNA時的DNA模板的鏈稱為template strand或者antisense strand。把與RNA序列相同的DNA的鏈稱為coding strand或者sense strand。sense/antisense, coding/template strand可以在基因組的plus strand也可以在基因組的minus strand。
http://www.majordifferences.com/2015/01/difference-between-sense-and-antisense.html
2、illumina測序之sample preparation:
1)illumina測序的sample preparation的步驟,一般是講DNA或者是cDNA打斷,然后repair ends,add A at 3’end (為了和Y-shaped adaptor結(jié)合),然后加上adaptor。
2)adaptor也是由兩條鏈組成的(universal adaptor和indexed adaptor)。unversal adaptor的3’端有一個T,為了可以和DNA fragment上的A互補(bǔ)。universal adaptor的3’端和indexed adaptor的5’端有12bp的堿基互補(bǔ)配對,使得他們兩個可以呈現(xiàn)Y字形。indexed adaptor的中間有6個bp的indexed sequence,可以用來在同一個land中有多個樣本時做區(qū)分。
3)若是非連特異性的,對于最后合成的sample,中間的DNA fragment既可以來自正鏈,也可以來自負(fù)鏈。
http://onetipperday.blogspot.com/2013/06/illumina-hiseq2000-adaptor.html
3、dUTP method的sample preparation:
dUTP metod主要是在反轉(zhuǎn)完first-strand cDNA之后,在合成second-strand cDNA的時候,用dUTP代替了dTTP,之后加完adaptor,用UDGase處理,將second-strand cDNA消化掉。這樣最后合成的sample,中間的DNA fragment一定是first-strand cDNA。這也是為什么對于dUTP數(shù)據(jù)處理,tophat的參數(shù)應(yīng)該為“–library-type fr-firststrand”。注意,這里的first-strand cDNA與RNA strand(或者基因組上的coding strand)相反。
http://onetipperday.blogspot.com/2013/06/illumina-hiseq2000-adaptor.html
4、illumina測序之cluster generation和sequencing
1)sample preparation之后,樣品就上機(jī)測序了。在flow cell的表面,固定著很多個DNA序列,他們有兩種P5和P7,均是5’在flow cell的表面,3’露在上面。
2)P5的序列與sample 5’端的unversial adapter 開始的44(數(shù)字可以不同)個bases相同,P7的是與sample的3’端的indexed adapter的24(數(shù)字可以不同)個bases互補(bǔ)配對。P5和P7同時可以充當(dāng)與sample DNA序列雜交的探針還有PCR擴(kuò)增的引物。
3)sample DNA上機(jī)后,首先與P7雜交,然后以P7為引物合成。如下圖,之后洗掉原來的sample DNA,然后P7上的DNA的3’端正好與P5雜交,建起bright,然后再以P5為引物合成。就這樣不斷amplification。
4)之后測序的時候,會先將P5進(jìn)行Periodate linearization(具體不是很懂,應(yīng)該就是把P5上的DNA弄走)。然后用引物來測定P7中間DNA fragment的序列,就是read1中的序列(注意,這里的引物與P5和P7不同,可以保證直接測出中間感興趣的序列。但是若中間DNA fragement太短,就會測到adaptor序列,這就是為什么fastq文件要做adaptor trimming)。如果是Pair-end序列。P7上的序列測完之后,再合成P5的DNA,然后再用另一種酶把P7弄走,去測P5的序列。這樣就保證測量了pair-end。從這個過程可以看到read1和read2一定是分布會比對到基因組不同的鏈上。
5)對于strand-specifc,由于sample DNA中間感興趣的DNA fragement只有first-strand。這個fragment先于P7雜交,然后合成second strand cDNA。然后測序的時候,read1是與P7上的second strand cDNA互補(bǔ)配對的。(first-strand cDNA <- rc -> P7上的second strand cDNA <-rc->read1的序列)。故read1與first-strand cDNA的鏈相同,與RNA的strand鏈相反。反之,read2與RNA strand的鏈相同。
http://onetipperday.blogspot.com/2013/12/illumina-hiseq2000-adaptor-and.html
http://skatebase.org/sites/skatebase.org/files/workshops/W1_IntroIlluminaNGS.pdf
5、tophat中output的bam文件中有一個tag XS是錯的
tophat輸出的bam文件的attribute tag中有一個XS是指示RNA所在的strand的。但是很多人都發(fā)現(xiàn)了錯誤。而且Encode還寫了一個perl腳本來修改XS tag。也有人說XS主要是根據(jù)splite site的序列判斷的。XS: “+” for GT-AG and “-“ for CT-AC。另外,因?yàn)閏ufflinks是需要XS的這個tag的,所以這個問題還需要再研究一下。
6、可以通過sam文件的第2列的flag來判斷read的strand
sam flag可以指示該條read是read1(first in pair)還是read2(second in pair),或者比對到正鏈上(mate reverse strand)還是負(fù)鏈上(read reverse strand)。 我其實(shí)也不懂得flag這個16進(jìn)制,這有個網(wǎng)址給了一個簡單的軟件,可以幫助計(jì)算。然后用samtools view -f或者-F就可以根據(jù)flag來篩選了。
7、參考資料:
http://onetipperday.blogspot.com/2013/06/illumina-hiseq2000-adaptor.html
http://onetipperday.blogspot.com/2012/07/how-to-tell-which-library-type-to-use.html
http://onetipperday.blogspot.com/2013/12/illumina-hiseq2000-adaptor-and.html
http://www.personal.psu.edu/iua1/courses/illumina-sequencing.html
http://skatebase.org/sites/skatebase.org/files/workshops/W1_IntroIlluminaNGS.pdf
http://seqanswers.com/forums/showthread.php?t=9303
轉(zhuǎn)載于:https://www.cnblogs.com/wangprince2017/p/9809223.html
總結(jié)
以上是生活随笔為你收集整理的RNA-seq连特异性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Beyond Compare设置文本文件
- 下一篇: Ambari2.7.4 + HDP3.1