STAR对RNA seq进行map
STAR 本文出自于http://www.bioinfo-scrounger.com
第一次聽說START這款比對軟件是因為其是ENCODE計劃的御用軟件,ENCODE計劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計劃,是2003年在人類基因組計劃完成之后緊接著的又一個大型國際科研項目。
第二次聽說則的由于Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis這篇發表于2017年的文章,主要是針對轉錄組各個分析流程的不同分析工具的比較,里面針對mRNA的比對方法總結了基于參考基因組的三款比對軟件:TopHat,STAR和HASAT2。其中講到STAT相比較其他兩款軟件有較高的唯一比對率;STAR會將沒有paired mapping上的reads都剔除,避免single reads比對到基因組上;并且STAR對lower-quality(包括more soft-clipped和錯配堿基)比對有較高的容忍度
第三次聽說也是由于恰好需要使用GATK對RNA-Seq Call Variants,因而在GATK剛好查到一篇教程Calling variants in RNAseq??將reads比對至Reference上是采用STAR的STAR 2-pass模式,所以為了學習該教程,必須先學習如何使用STAR了
STAR的下載及安裝
先進入START官網https://github.com/alexdobin/STAR
下載STAR,無須編譯即可使用
wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz tar -xzf 2.5.3a.tar.gz cd STAR-2.5.3aSTAR的使用
作為一款比對軟件,建index肯定是必不可少的一步
STAR --runThreadN 6 --runMode genomeGenerate \ --genomeDir ~/reference/index/STAR/mm10/ \ --genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \ --sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \ --sjdbOverhang 100這個命令參數也很好理解:
--runThreadN?:設置線程數
--genomeDir?:index輸出的路徑
--genomeFastaFiles?:參考基因組序列
--sjdbGTFfile?:參考基因組注釋文件
--sjdbOverhang?:這個是reads長度的最大值減1,默認是100
然后進行比對
STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \ --readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix ./SRR3589959--readFilesIn?:paired reads文件
--outSAMtype?:表示輸出默認排序的bam文件,類似于samtools sort(還有–outSAMtype BAM Unsorted和–outSAMtype BAM Unsorted SortedByCoordinate)
--outFileNamePrefix?:輸出文件路徑即前綴
結果文件:
SRR3589959Aligned.sortedByCoord.out.bam
SRR3589959Log.final.out
SRR3589959Log.out
SRR3589959Log.progress.out
SRR3589959SJ.out.tab
可以通過samtools view SRR3589959Aligned.sortedByCoord.out.bam |less -S來查看對應文件的每列信息
前面12列一般也是規范的sam格式,最后一列attributes信息的話,STAR默認是輸出NH HI AS nM attributes,這里需要注意的是HI,其表示多重比對的reads的起始位置,默認是以1開始算的,但是如果下游分析需要用到Cufflinks or StringTie的話,需要用–outSAMattrIHstart設置為0比對軟件STAR的使用—高通量測序數據處理學習記錄(一)
SRR3589959SJ.out.tab則是Splice junctions的一些信息,其中需要注意的是:對于junction的位置信息,STAR則是按照intron的起始和終止位置來定,而其他的一些軟件則是按照exon的位置來決定的;至于每列代表的含義可以看mannul,很好理解
STAR 2-pass mode
為了發現更加靈敏的new junction,STAR建議使用2-pass mode,其能增加檢測到的new junction數目,使得更多的splices reads能mapping到new junction。因此STAR先用一般參數做一遍mapping,收集檢測到的junction信息,然后利用這已經annotated junction來做第二次mapping
STAR對于2-pass mode有新舊兩種方式,比如original 2-pass 方法:
首先做一遍常規的比對,結果中會生成一個SJ.out.tab文件,如上面所提到的SRR3589959SJ.out.tab。然后用--sjdbFileChrStartEnd參數將所有樣品的SJ.out.tab文件作為輸入的annotated junction進行第二次建index
STAR --runThreadN 20 --runMode genomeGenerate --genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \ --genomeFastaFiles ~/reference/genome/mm10/GRCm38.p5.genome.fa \ --sjdbGTFfile ~/annotation/mm10/gencode.vM13.annotation.gtf \ --sjdbFileChrStartEnd SRR3589959SJ.out.tab SRR3589960SJ.out.tab SRR3589961SJ.out.tab SRR3589962SJ.out.tab \ --sjdbOverhang 100然后用第二次建立的index再一次對每個樣品進行STAR比對,以SRR3589959為例
STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/index_2-pass/ \ --readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix ./SRR3589959_2-pass上述方法original方法適用于多樣本和單個樣本的處理,但是如果是per-sample(單個樣本?)的2-pass mapping,可以直接用--twopassMode Basic參數將第兩步mapping中的make index省去,直接再mapping
STAR --runThreadN 20 --genomeDir ~/reference/index/STAR/mm10/ \ --twopassMode Basic \ --readFilesIn SRR3589959_1.fastq SRR3589959_2.fastq \ --outSAMtype BAM SortedByCoordinate \ --outFileNamePrefix ./SRR3589959這個比常規的結果還多2個臨時產生的文件夾(SRR3589959_STARgenome,SRR3589959_STARpass1)
至于bam文件則是跟上述的original 2-pass
STAR還有其他一些不太常用的參數,可以參看manual,Download后即可查看
轉載于:https://www.cnblogs.com/Raymontian/p/9767686.html
總結
以上是生活随笔為你收集整理的STAR对RNA seq进行map的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 建立在线社交网络中的关系权重模型
- 下一篇: java控制台进度_java进度条:控制