當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Vsearch免费替代收费版的usearch

發(fā)布時間：2023/12/20 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Vsearch免费替代收费版的usearch 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文首先發(fā)布于“宏基因組”公眾號原創(chuàng)。

作者：舟行天下
編輯：metagenome

前言

用usearch，這個usearch在序列搜索、聚類、去重、去嵌合體等序列操作有非常重要的作用。它由大神Robert Edgar開發(fā)，詳情見文章：擴(kuò)增子分析神器USEARCH簡介

usearch這個軟件的安裝以及使用都非常方便，簡直就是擴(kuò)增子測序分析的神器！進(jìn)入官網(wǎng)USEARCH我們可以看到作者提供32位的免費(fèi)版本和64位的收費(fèi)版本。免費(fèi)提供的32位版本限制用戶最多使用4G內(nèi)存，依照本人數(shù)據(jù)量以及使用經(jīng)驗(yàn)的話，大于40個樣品可能就不能有效的跑完全部流程了。關(guān)于USEARCH的詳細(xì)介紹請參考：《擴(kuò)增子分析神器USEARCH簡介》由于該軟件64位收費(fèi)版確實(shí)有點(diǎn)貴，而且有的實(shí)驗(yàn)室老板不一定讓買。那么有沒有什么方法可以突破免費(fèi)版本的內(nèi)存限制呢？小編在這里就要給大家發(fā)一個福利了，讓你能無差別的使用usearch的絕大部分功能而且還不用收費(fèi)。那就是用vsearch軟件替代usearch部分功能，結(jié)合usearch一起使用。

vsearch簡介

vsearch 是一個開源免費(fèi)的64位，無內(nèi)存限制的擴(kuò)增子數(shù)據(jù)分析軟件。該軟件是專門針對Edgar大神開發(fā)的 USEARCH
軟件而設(shè)計(jì)的(Edgar 2010)。作者在文章前言中就提到由于Edgar大神開發(fā)的 USEARCH不開源，并且沒有給出其算法的詳細(xì)描述，最主要是免費(fèi)的版本只有32位，而且有4 GB的使用內(nèi)存限制，所以他們想了想直接自己開發(fā)了一個與usearch功能類似的軟件工大家使用。根據(jù)谷歌學(xué)術(shù)的統(tǒng)計(jì)數(shù)據(jù)，該軟件從2 016年發(fā)表到現(xiàn)在已經(jīng)被引用了218次。

從FIG.1可以看到：通過與USEARCH7和USEARCH8對比，VSEARCH在嵌合體檢測過程準(zhǔn)確性優(yōu)于USEARCH。 (FIG.1)

從FIG.2可以看到：通過與USEARCH7和USEARCH8對比，VSEARCH的搜索準(zhǔn)確率與USEARCH相當(dāng)。 (FIG.2)

從FIG.2可以看到：通過與USEARCH7和USEARCH8對比，VSEARCH在聚類準(zhǔn)確率上優(yōu)于USEARCH的UPARSE功能。 (FIG.3)

vsearch主要的功能與參數(shù)都與usearch版本類似，其主要特點(diǎn)是開源免費(fèi)，持續(xù)更新而且軟件易于安裝，且有各平臺的版本。在最新發(fā)布的vsearch版本中，作者也針對usearch10中的UNOISE去噪方法(詳細(xì)介紹)，在vsearch中加入了UNOISE方法用于聚類分析。

vsearch軟件目前已經(jīng)更新到了2.7.1版本，其Windows的安裝版本鏈接是:vsearch; MAC版本的下載鏈接是：MAC_vsearch
)

usearch+vsearch實(shí)戰(zhàn)操作

文中使用所有文件下載鏈接：https://pan.baidu.com/s/1yS-WgViAPeix0jTbhtYOKQ 密碼：dmfy 然后我們將下載好的測試數(shù)據(jù)放在工作目錄下面。

首先是vsearch的安裝：

在linux中我們直接執(zhí)行以下命令就可以直接安裝了

##如何安裝vsearch wget https://github.com/torognes/vsearch/archive/v2.6.2.tar.gz tar xzf v2.6.2.tar.gz cd vsearch-2.6.2 ./autogen.sh ./configure make make install # as root or sudo make installmkdir -p seq # 原始數(shù)據(jù) raw data

要想靈活的玩轉(zhuǎn)vsearch加usearch軟件，那我們首先要知道usearch免費(fèi)版本的軟件究竟是在你的分析流程中的哪幾個步驟限制了你的數(shù)據(jù)量大小，這樣我們就可以在有需要替換的步驟用vsearch軟件進(jìn)行替換了。當(dāng)你拿到拆分好的擴(kuò)增子數(shù)據(jù)后我們通過進(jìn)行的數(shù)據(jù)處理流程如下圖所示：(FIG.4)

從圖中我們可以看到usearch在整個分析流程中主要的內(nèi)存限制步驟是<Dereplication>; <Chimera checking>以及 <Match OTU>這三個步驟。而這三步分別對應(yīng)著的vsearch步驟是<vsearch —derep_fulllength>; <vsearch —uchime_ref>以及<vsearch —usearch_global>。轉(zhuǎn)化成一個可讀的OTU table了。

Vsearch使用實(shí)戰(zhàn)

# 目錄 mkdir -p temp # 臨時文件 temp directory for intermediate files mkdir -p result # 最終結(jié)果 important results# 文件 # pipeline.sh 分析主流程 # rdp_16s_v16.fa 16S數(shù)據(jù)庫 # seq/*.fq.gz 壓縮的原始測序數(shù)據(jù) # doc/design.txt 實(shí)驗(yàn)設(shè)計(jì)文件#Merge paired reads and label samples# 測序數(shù)據(jù)解壓 gunzip seq/*# 依照實(shí)驗(yàn)設(shè)計(jì)批處理并合并for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastq_mergepairs seq/${i}_1.fq --reverse seq/${i}_2.fq --fastqout temp/${i}.merged.fq done for i in `tail -n+2 doc/design.txt | cut -f 1`;do vsearch --fastx_filter temp/${i}.merged.fq --fastqout temp/${i}.merged.relabe.fq --relabel ${i}. & done# 合并所有樣品至同一文件 cat temp/*.merged.relabe.fq > temp/all.fq ls -l temp/all.fq less temp/all.fq # remove useless file rm temp/*.merged.fq # 壓縮原始文件節(jié)省空間 #gzip seq/* # 3. Cut primers and quality filter # Cut barcode 10bp + V5 19bp in left and V7 18bp in right vsearch --fastx_filter temp/all.fq --fastq_stripleft 29 --fastq_stripright 18 --fastqout temp/stripped.fq # 質(zhì)量控制fastq filter, keep reads error rates less than 1% vsearch --fastx_filter temp/stripped.fq --fastq_maxee_rate 0.01 --fastaout temp/filtered.fa #761431 sequences kept (of which 0 truncated), 5627 sequences discarded.less temp/filtered.fa# 4. 去冗余與生成OTUs Dereplication and cluster otus # 4.1 序列去冗余，推薦使用vsearch，并添加miniuniqusize為8，去除低豐度，增加計(jì)算速度 vsearch --derep_fulllength temp/filtered.fa --sizein --fasta_width 0 --sizeout --output temp/uniques.fa --minuniquesize 2## 如果用基于reference的去嵌合，# 細(xì)菌推薦用Gold數(shù)據(jù)庫去除嵌合體可以下載rdp_gold.fa作為reference數(shù)據(jù)庫 #wget http://drive5.com/uchime/rdp_gold.fa #然后執(zhí)行下面這條注釋過的命令 #wget http://drive5.com/uchime/rdp_gold.fa #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db ./rdp_gold.fa#聚類分析生產(chǎn)OTU代表性序列 vsearch --cluster_fast temp/uniques.fa --id 0.97 --centroids result/otus.fa --relabel OTU_ --uc temp/clusters.uc ## 嵌合體的檢測與去除 #vsearch --uchime_ref temp/filtered.fa --nonchimeras temp/filtered.nonchimera.fa --db rdp_gold.fa# Create OTUs table創(chuàng)建OTU表格vsearch --usearch_global temp/filtered.fa --db result/otus.fa --id 0.97 --otutabout result/otutab.txt

Reference

Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4, e2584.

Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].

UNOISE2: Improved error-correction for Illumina 16S and ITS amplicon read. bioRxiv, 2016

總結(jié)

以上是生活随笔為你收集整理的Vsearch免费替代收费版的usearch的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： WPF设置当前激活窗体(前景窗体)
下一篇： C++数组：发工资