Super Enhancer(超级增强子)分析——ROSE包(v1.3.1)的安装及使用详解
目錄
1、ROSE安裝
2、環境變量配置
3、準備所需文件
4、ROSE軟件分析超級增強子
5、輸出結果文件
6、入過的坑
最近需要分析超級增強子(Super enhancer),仔細研究了Richard A.Young實驗室開發的ROSE包(全稱:RANK ORDERING OF SUPER ENHANCERS, 原文:DOI:?10.1016/j.cell.2013.03.035,?DOI: 10.1016/j.cell.2013.03.036.)。作為一個小眾的專業包,在ROSE安裝和使用操作過程中碰到了太多的問題,花費了一周的時間總算通關。所以決定寫個詳細教程,記錄一下目前最新版ROSE v1.3.1的安裝和使用。
1、ROSE安裝
ROSE是基于python編寫的包,目前的最新版適用python3,根據github上的說明,ROSE依賴:
- samtools?
- R version > 3.4
- bedtools > 2
- python3
(本人的軟件版本為samtools 1.15,R 4.2.1,bedtools 2.30.0,Python3.10.4,均安裝在ubuntu系統環境下,非conda環境)
ROSE代碼包的鏈接為:https://github.com/stjude/ROSE
這兩個壓縮包隨便下載哪個格式都可以,用linux桌面系統的可以直接用瀏覽器下載后提取,也可以打開終端用wget下載,下載之后解壓縮就可以了,不需要安裝。?
wget https://github.com/stjude/ROSE/archive/refs/tags/1.3.1.zip unzip 1.3.1.zip cd 1.3.1#或者 wget https://github.com/stjude/ROSE/archive/refs/tags/1.3.1.tar.gz tar -zxvf 1.3.1.tar.gz cd 1.3.1(因為1.3.1這個文件夾名字太迷惑了,本人將1.3.1文件夾的名字為ROSE-1.3.1再進入文件夾查看)
文件夾里應該是這樣的:
2、環境變量配置
這一步很重要,否則無法調用所需的腳本。
vim ~/.bashrc #用vim編輯器打開bashrc,按A,在最后一行寫入以下內容PATHTO=/path/to/1.3.1 #/path/to/是ROSE文件夾1.3.1所在的路徑,如果修改過文件夾名稱用新的名稱,例如PATHTO=$HOME/software/ROSE-1.3.1 PYTHONPATH=$PATHTO/lib export PYTHONPATH export PATH=$PATH:$PATHTO/bin#寫完后按esc退出編輯模式,輸入:wq!保存并退出vim編輯器 #做一下source source ~/.bashrc3、準備所需文件
?(1)annotation文件夾里已經存放了常用的人和小鼠UCSC版本refseq文件:
如果不是人或者小鼠的樣品,可以從https://genome.ucsc.edu/cgi-bin/hgTables下載UCSC table track format file,命名為[GENOME]_refseq.ucsc(例如hg19_refseq.ucsc),放到annotation文件夾下面。
(2)準備bam文件和gff文件
bam文件是做完mapping之后生成的文件,需要H3K4me1或者H3K27ac樣品的bam文件以及對應的Input樣品bam文件,做過sort排序。ROSE分析要求bam文件的染色體名稱以“chr”開頭,可以參考https://www.jianshu.com/p/94b9602a1036修改BAM文件的染色體名稱,修改完染色體名稱的bam文件重新用samtools軟件生成.bai索引文件。
gff文件使用call peak生成的narrowPeak文件,用excle或者wps打開(方便查看列數),按要求調整每一列的內容:
第1列:染色體位置(chr#)
第2列:每個增強子區域的特定id
第4列:區域起始位置
第5列:區域終止位置
第7列:正負鏈信息(+, -, .)
第9列:每個增強子區域的特定id
上述沒有要求的列,內容可以為空或者原來的內容,但是一定要有這一列,如果第2列和第9列的內容不同,ROSE將使用第2列的值。ROSE額外提供的測試數據包里的gff文件范例如下:
?修改完后保存文件,并且修改文件的后綴名為gff文件。
(3)將準備好的bam文件和gff文件(總共應該有5個文件,即1個gff文件,2個bam文件,2個bam文件對應的bai索引文件)放在一個文件夾里(例如命名為data),然后將該文件夾放在ROSE文件夾里。分析完成后將生成的結果文件夾轉移出來保存在合適的位置,data文件夾刪除,注意不要誤刪ROSE文件夾里原有的文件和文件夾。
4、ROSE軟件分析超級增強子
在正式分析數據前,最好先下載測試數據進行分析測試,能正確跑通并且獲得完整的分析結果后再分析自己的數據,這樣可以確認命令行和依賴環境都沒有問題。如果可以跑通測試數據,但是在分析自己的數據時報錯中斷,一定是自己的數據文件沒有準備好,請按要求檢查準備的文件。測試數據下載:
鏈接:https://pan.baidu.com/s/1p52x3tVIQg3j3ju_elLWTQ?
提取碼:oejw?
測試數據包ROSE_TEST解壓縮后能看到以下幾個文件夾和文件:
其中data文件夾為所需的測試文件,將整個data文件夾復制到ROSE文件夾下。example文件夾、example.sh為老版ROSE輸出的結果文件夾和運行命令,log為老版ROSE運行的日志文件(大佬原有的文件,供起來)。example-v1.3.1文件夾、example-v131是在ROSE v1.3.1版本運行輸出的結果文件夾和運行命令,log_ROSE_v131_test是日志文件(本人跑通的,日志行不一樣或者缺少結果文件就是沒跑通或沒跑完),供參考。
運行命令時在ROSE文件夾下打開終端,此處詳細解釋一下:
python ./bin/ROSE_main.py -g HG18 \ -i ./data/HG18_MM1S_MED1.gff \ -r ./data/MM1S_MED1.hg18.bwt.sorted.bam \ -c ./data/MM1S_WCE.hg18.bwt.sorted.bam \ -o example \ -s 12500 \ -t 2500(1)如果linux系統沒有指定默認python版本,開頭需要使用python3,如果指定了Python3為默認版本,只要python即可。
(2)ROSE運行需要調用的幾個腳本,都在ROSE文件夾下的bin文件夾里,而數據文件在data文件夾里,所以需要指定位置 ./bin 或 ./data。
(3)-r 樣品bam文件名,-c control/Input bam文件名,-o 輸出結果文件夾名。
(4)可選參數:
-s STITCHING_DISTANCE,合并兩個region的最大距離,默認值為12.5kb。
-t TSS_EXCLUSION_ZONE_SIZE,排除TSS區域大小,排除與TSS前后某距離內的區域,以排除啟動子偏差(默認值:0;推薦值:2500)。如果設置該值為0,將不會查找基因。
5、輸出結果文件
ROSE輸出的結果都在一個文件夾里,文件夾名稱是參數 -o 自己設置的文件夾名。v1.3.1版輸出的結果文件包括2個文件夾和9個文件夾外文件。以測試結果為例,如下圖:
gff文件夾里包含2個文件,mappedGFF文件夾里包含4個文件,文件夾外有9個文件,文件具體內容參考Young Lab :: ROSE - Ranking Of Super Enhancer, Download (mit.edu)。與老版ROSE相比,v1.3.1版多了4個文件夾外文件,有些文件名也與以前版本不一樣。
6、入過的坑
(1)關于gff文件:雖然一些教程說可以直接使用call peak生成的.bed文件替代.gff文件,ROSE也可以自己轉換出gff文件,但是前期使用narrowPeak.bed文件一直沒有跑通,出現報錯。也許是我們采用MACS分析獲得的narrowPea.bed在某些格式上是ROSE不能識別的,所以最后還是老老實實的自己做了gff文件。
(2)關于分析時長:應該跟硬件配置以及測序文件大小有關。進程中會有各種分析狀態提示,結果文件夾里的文件也會慢慢的出現,直到完全獲得2個文件夾和9個文件夾外文件。然而此時并沒有結束,運行狀態會長時間停滯在如下狀態,需要耐心等待,等到自動返回到初始輸入命令行的狀態才是真正的結束:
21000 22000 23000 24000 25000 26000 27000 28000 29000 30000 31000 32000 33000 34000 35000 36000 37000 38000 39000 MAKING TSS COLLECTIONPS:不要懷疑,會結束的,并且沒有任何報錯。
希望每一位科研打工人都能順利獲得好結果!
參考鏈接:
super-enhancer神器ROSE的使用 - 簡書 (jianshu.com)
“Super-enhancer神器“ROSE安裝及教程_JiangQ_1996的博客-CSDN博客
Young Lab :: ROSE - Ranking Of Super Enhancer, Download (mit.edu)
使用ROSE鑒定超級增強子 - 騰訊云開發者社區-騰訊云 (tencent.com)
GitHub - stjude/ROSE: ROSE: RANK ORDERING OF SUPER-ENHANCERS
ROSE: Rank Ordering of Super-Enhancers (nih.gov)
總結
以上是生活随笔為你收集整理的Super Enhancer(超级增强子)分析——ROSE包(v1.3.1)的安装及使用详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 线程不足_Java 线程基础知
- 下一篇: 中医移动医疗_中医之极简移动医疗