當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

STAR对RNA seq进行map

發布時間：2024/8/1 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 STAR对RNA seq进行map 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

STAR 本文出自于http://www.bioinfo-scrounger.com

第一次聽說START這款比對軟件是因為其是ENCODE計劃的御用軟件，ENCODE計劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計劃，是2003年在人類基因組計劃完成之后緊接著的又一個大型國際科研項目。

第二次聽說則的由于Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis這篇發表于2017年的文章，主要是針對轉錄組各個分析流程的不同分析工具的比較，里面針對mRNA的比對方法總結了基于參考基因組的三款比對軟件：TopHat，STAR和HASAT2。其中講到STAT相比較其他兩款軟件有較高的唯一比對率；STAR會將沒有paired mapping上的reads都剔除，避免single reads比對到基因組上；并且STAR對lower-quality（包括more soft-clipped和錯配堿基）比對有較高的容忍度

第三次聽說也是由于恰好需要使用GATK對RNA-Seq Call Variants，因而在GATK剛好查到一篇教程Calling variants in RNAseq??將reads比對至Reference上是采用STAR的STAR 2-pass模式，所以為了學習該教程，必須先學習如何使用STAR了

STAR的下載及安裝

先進入START官網https://github.com/alexdobin/STAR

下載STAR，無須編譯即可使用

wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz tar -xzf 2.5.3a.tar.gz cd STAR-2.5.3a

STAR的使用

作為一款比對軟件，建index肯定是必不可少的一步

STAR --runThreadN 6 --runMode genomeGenerate \ --genomeDir ~/reference/index/STAR/mm10/ \ --genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \ --sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \ --sjdbOverhang 100

這個命令參數也很好理解：
--runThreadN?：設置線程數
--genomeDir?：index輸出的路徑
--genomeFastaFiles?：參考基因組序列
--sjdbGTFfile?：參考基因組注釋文件
--sjdbOverhang?：這個是reads長度的最大值減1，默認是100

然后進行比對

STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \ --readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix ./SRR3589959

--readFilesIn?：paired reads文件
--outSAMtype?：表示輸出默認排序的bam文件，類似于samtools sort（還有–outSAMtype BAM Unsorted和–outSAMtype BAM Unsorted SortedByCoordinate）
--outFileNamePrefix?：輸出文件路徑即前綴

結果文件：

SRR3589959Aligned.sortedByCoord.out.bam
SRR3589959Log.final.out
SRR3589959Log.out
SRR3589959Log.progress.out
SRR3589959SJ.out.tab

可以通過samtools view SRR3589959Aligned.sortedByCoord.out.bam |less -S來查看對應文件的每列信息

前面12列一般也是規范的sam格式，最后一列attributes信息的話，STAR默認是輸出NH HI AS nM attributes，這里需要注意的是HI，其表示多重比對的reads的起始位置，默認是以1開始算的，但是如果下游分析需要用到Cufflinks or StringTie的話，需要用–outSAMattrIHstart設置為0比對軟件STAR的使用—高通量測序數據處理學習記錄（一）

SRR3589959SJ.out.tab則是Splice junctions的一些信息，其中需要注意的是：對于junction的位置信息，STAR則是按照intron的起始和終止位置來定，而其他的一些軟件則是按照exon的位置來決定的；至于每列代表的含義可以看mannul，很好理解

STAR 2-pass mode

為了發現更加靈敏的new junction，STAR建議使用2-pass mode，其能增加檢測到的new junction數目，使得更多的splices reads能mapping到new junction。因此STAR先用一般參數做一遍mapping，收集檢測到的junction信息，然后利用這已經annotated junction來做第二次mapping

STAR對于2-pass mode有新舊兩種方式，比如original 2-pass 方法：

首先做一遍常規的比對，結果中會生成一個SJ.out.tab文件，如上面所提到的SRR3589959SJ.out.tab。然后用--sjdbFileChrStartEnd參數將所有樣品的SJ.out.tab文件作為輸入的annotated junction進行第二次建index

STAR --runThreadN 20 --runMode genomeGenerate --genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \ --genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \ --sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \ --sjdbFileChrStartEnd SRR3589959SJ.out.tab SRR3589960SJ.out.tab SRR3589961SJ.out.tab SRR3589962SJ.out.tab \ --sjdbOverhang 100

然后用第二次建立的index再一次對每個樣品進行STAR比對，以SRR3589959為例

STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \ --readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix ./SRR3589959_2-pass

上述方法original方法適用于多樣本和單個樣本的處理，但是如果是per-sample(單個樣本？)的2-pass mapping，可以直接用--twopassMode Basic參數將第兩步mapping中的make index省去，直接再mapping

STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \ --twopassMode Basic \ --readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix ./SRR3589959

這個比常規的結果還多2個臨時產生的文件夾（SRR3589959_STARgenome，SRR3589959_STARpass1）

至于bam文件則是跟上述的original 2-pass

STAR還有其他一些不太常用的參數，可以參看manual，Download后即可查看

轉載于:https://www.cnblogs.com/Raymontian/p/9767686.html

總結

以上是生活随笔為你收集整理的STAR对RNA seq进行map的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：建立在线社交网络中的关系权重模型
下一篇： java控制台进度_java进度条：控制