Vsearch免费替代收费版的usearch
?
本文首先發(fā)布于“宏基因組”公眾號原創(chuàng)。
作者:舟行天下
編輯:metagenome
前言
用usearch,這個usearch在序列搜索、聚類、去重、去嵌合體等序列操作有非常重要的作用。它由大神Robert Edgar開發(fā),詳情見文章:擴(kuò)增子分析神器USEARCH簡介
usearch這個軟件的安裝以及使用都非常方便,簡直就是擴(kuò)增子測序分析的神器!進(jìn)入官網(wǎng)USEARCH我們可以看到作者提供32位的免費(fèi)版本和64位的收費(fèi)版本。免費(fèi)提供的32位版本限制用戶最多使用4G內(nèi)存,依照本人數(shù)據(jù)量以及使用經(jīng)驗(yàn)的話,大于40個樣品可能就不能有效的跑完全部流程了。關(guān)于USEARCH的詳細(xì)介紹請參考:《擴(kuò)增子分析神器USEARCH簡介》 由于該軟件64位收費(fèi)版確實(shí)有點(diǎn)貴,而且有的實(shí)驗(yàn)室老板不一定讓買。那么有沒有什么方法可以突破免費(fèi)版本的內(nèi)存限制呢? 小編在這里就要給大家發(fā)一個福利了,讓你能無差別的使用usearch的絕大部分功能而且還不用收費(fèi)。那就是用vsearch軟件替代usearch部分功能,結(jié)合usearch一起使用。
vsearch簡介
vsearch 是一個開源免費(fèi)的64位,無內(nèi)存限制的擴(kuò)增子數(shù)據(jù)分析軟件。該軟件是專門針對Edgar大神開發(fā)的 USEARCH
軟件而設(shè)計(jì)的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神開發(fā)的 USEARCH不開源,并且沒有給出其算法的詳細(xì)描述,最主要是免費(fèi)的版本只有32位,而且有4 GB的使用內(nèi)存限制,所以他們想了想直接自己開發(fā)了一個與usearch功能類似的軟件工大家使用。根據(jù)谷歌學(xué)術(shù)的統(tǒng)計(jì)數(shù)據(jù),該軟件從2 016年發(fā)表到現(xiàn)在已經(jīng)被引用了218次。
從FIG.1可以看到:通過與USEARCH7和USEARCH8對比,VSEARCH在嵌合體檢測過程準(zhǔn)確性優(yōu)于USEARCH。 (FIG.1)
從FIG.2可以看到:通過與USEARCH7和USEARCH8對比,VSEARCH的搜索準(zhǔn)確率與USEARCH相當(dāng)。 (FIG.2)
從FIG.2可以看到:通過與USEARCH7和USEARCH8對比,VSEARCH在聚類準(zhǔn)確率上優(yōu)于USEARCH的UPARSE功能。 (FIG.3)
vsearch主要的功能與參數(shù)都與usearch版本類似,其主要特點(diǎn)是開源免費(fèi),持續(xù)更新而且軟件易于安裝,且有各平臺的版本。 在最新發(fā)布的vsearch版本中,作者也針對usearch10中的UNOISE去噪方法(詳細(xì)介紹),在vsearch中加入了UNOISE方法用于聚類分析。
vsearch軟件目前已經(jīng)更新到了2.7.1版本,其Windows的安裝版本鏈接是:vsearch; MAC版本的下載鏈接是:MAC_vsearch
)
usearch+vsearch實(shí)戰(zhàn)操作
文中使用所有文件下載鏈接:https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密碼:dmfy 然后我們將下載好的測試數(shù)據(jù)放在工作目錄下面。
首先是vsearch的安裝:
在linux中我們直接執(zhí)行以下命令就可以直接安裝了
##如何安裝vsearch wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz tar xzf v2.6.2.tar.gz cd vsearch-2.6.2 ./autogen.sh ./configure make make install # as root or sudo make installmkdir -p seq # 原始數(shù)據(jù) raw data要想靈活的玩轉(zhuǎn)vsearch加usearch軟件,那我們首先要知道usearch免費(fèi)版本的軟件究竟是在你的分析流程中的哪幾個步驟限制了你的 數(shù)據(jù)量大小,這樣我們就可以在有需要替換的步驟用vsearch軟件進(jìn)行替換了。當(dāng)你拿到拆分好的擴(kuò)增子數(shù)據(jù)后我們通過進(jìn)行的數(shù)據(jù)處 理流程如下圖所示:(FIG.4)
從圖中我們可以看到usearch在整個分析流程中主要的內(nèi)存限制步驟是<Dereplication>; <Chimera checking>以及 <Match OTU>這三個步驟。而這三步分別對應(yīng)著的vsearch步驟是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。轉(zhuǎn)化成一個可讀的OTU table了。
Vsearch使用實(shí)戰(zhàn)
# 目錄 mkdir -p temp # 臨時文件 temp directory for intermediate files mkdir -p result # 最終結(jié)果 important results# 文件 # pipeline.sh 分析主流程 # rdp_16s_v16.fa 16S數(shù)據(jù)庫 # seq/*.fq.gz 壓縮的原始測序數(shù)據(jù) # doc/design.txt 實(shí)驗(yàn)設(shè)計(jì)文件#Merge paired reads and label samples# 測序數(shù)據(jù)解壓 gunzip seq/*# 依照實(shí)驗(yàn)設(shè)計(jì)批處理并合并for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout temp/${i}.merged.fq done for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastx_filter temp/${i}.merged.fq --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. & done# 合并所有樣品至同一文件 cat temp/*.merged.relabe.fq > temp/all.fq ls -l temp/all.fq less temp/all.fq # remove useless file rm temp/*.merged.fq # 壓縮原始文件節(jié)省空間 #gzip seq/* # 3. Cut primers and quality filter # Cut barcode 10bp + V5 19bp in left and V7 18bp in right vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq # 質(zhì)量控制fastq filter, keep reads error rates less than 1% vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa #761431 sequences kept (of which 0 truncated), 5627 sequences discarded.less temp/filtered.fa# 4. 去冗余與生成OTUs Dereplication and cluster otus # 4.1 序列去冗余,推薦使用vsearch,并添加miniuniqusize為8,去除低豐度,增加計(jì)算速度 vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2## 如果用基于reference的去嵌合,# 細(xì)菌推薦用Gold數(shù)據(jù)庫去除嵌合體可以下載rdp_gold.fa作為reference數(shù)據(jù)庫 #wget http://drive5.com/uchime/rdp_gold.fa #然后執(zhí)行下面這條注釋過的命令 #wget http://drive5.com/uchime/rdp_gold.fa #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa#聚類分析生產(chǎn)OTU代表性序列 vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc ## 嵌合體的檢測與去除 #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa# Create OTUs table創(chuàng)建OTU表格vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txtReference
?
總結(jié)
以上是生活随笔為你收集整理的Vsearch免费替代收费版的usearch的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WPF设置当前激活窗体(前景窗体)
- 下一篇: C++数组:发工资