當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

推荐一款高引超6000次的全基因组/全外显子组变异注释工具

發布時間：2025/3/15 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了推荐一款高引超6000次的全基因组/全外显子组变异注释工具小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SnpEff是韋恩州立大學Douglas M. Ruden團隊于2012年發表的一款變異注釋工具。到現在已近10年歷史，持續更新，已至5.0版，總引用6044次。

SnpEff的優點

基于Java環境，便于安裝和運行 (More tiny than VEP)；

注釋結果豐富(More HGVS than ANNOVAR)；

支持38,000基因組;

與GATK兼容;

可自定義數據庫。

HGVS是國際通用的變異命名標準(HGVS符號)，這里指代符合用其標準書寫的變異位點。

安裝和使用

# SnpEff程序安裝：mkdir -p ~/wgs/public cd ~/wgs/public # 下載、解壓后即可使用（提前具備java運行環境） wget -c https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip/ unzip snpEff_latest_core.zip# 下載人相關注釋 java -jar ~/wgs/public/snpEff/snpEff.jar download GRCh38.86 # 保持網絡暢通，耐心等待 ...# 使用方法：java -jar snpEff.jar hg38 yourSampleName.normalize.vcf \-hgvs1LetterAa -canon > yourSampleName.snpeff.vcf

參數解釋

-i Input format [ vcf, bed ]. Default: VCF.

-hgvs ?氨基酸子字段使用HGVS標注。默認值: true

-lof 添加功能喪失(loss of function, LOF)和無義介導的降解事件(Nonsense mediated decay, NMD) 標簽。

-canon Only use canonical (典型/典范/標準) transcripts. 即使用典型的轉錄本。

-noshifthgvs 不根據HGVS表示法來移動變異(而是使用3’原則 most 3prime end)。Do not shift variants according to HGVS notation (most 3prime end).

-interval <file 在TXT/BED/BigBed/VCF/GFF文件中使用自定義間隔(可以多次使用這個選項)

-hgvs1LetterAa 在HGVS符號中使用一個字母的氨基酸代碼。默認值: FASLE （即默認不使用）。

-chr <string : 在染色體名稱前添加’string’(例如: 輸出’chr1’而不是’1’)。只在TXT輸出。

-classic: 使用舊風格的注釋代替Sequence Ontology and Hgvs。

-csvStats <file : 創建CSV摘要文件。

-download: 如果沒有參考基因組，則下載。默認值: true

-fileList: 輸入實際上要處理的文件的列表。

-s, -stats, -htmlStats: 創建HTML摘要文件。默認是“snpEff_summary.html”

-noStats: 不創建stats(摘要)文件

-t: 使用多個線程(意味著’-noStats’)。默認的“off”

https://theory.labster.com/codon-de/

結果過濾

-no-downstream: 不顯示下游變化

-no-intergenic: 不顯示基因間變化

-no-intron: 不顯示內含子變化

-no-upstream: 不顯示上游的變化

-no-utr: 不顯示5_PRIME_UTR或3_PRIME_UTR的更改

-no <effectType : 不顯示“effectType”。這個選項可以多次使用。

-fi， -filterInterval <file : 只分析與此文件中指定的間隔(intervals)相交的變化(可以多次使用此選項) ?Only analyze changes that intersect with the intervals specified in this file (you may use this option many times)

注釋選項

-cancer: 進行“癌癥”比較 (Somatic vs Germline)。默認值: false

-cancerSamples: 兩列TXT文件，定義“original \t derived”樣本。

-formatEff: 使用與舊版本兼容的’EFF’字段(而不是’ANN’)。

-geneId: 使用基因ID代替基因名(VCF輸出)。默認值: false

-hgvsOld: 使用舊的HGVS符號。默認值: false

-hgvsTrId: 在HGVS表示法中使用transcript ID。默認值: false

-noHgvs: 不添加HGVS注釋。

-noLof: 不添加LOF和NMD注釋。

-oicr: 在VCF文件中添加OICR tag。默認值: false

-sequenceOntology: 使用序列本體術語。默認值: true

通用選項

-c, -config: 指定配置文件

-configOption name=value: 覆蓋配置文件選項

-d， -debug: Debug mode (very verbose).

-dataDir: 覆蓋配置文件中的data_dir參數。

-nodownload: 如果本地沒有SnpEff數據庫，不要下載。

-h， -help: 顯示幫助并退出

-noLog: 不向服務器報告使用統計信息

-q, -quiet: 安靜模式(不顯示任何消息或錯誤)

-v, -verbose: 冗長提示模式

-version: 顯示版本號并退出

數據庫選項

-canonList: 只使用典型的(canonical)轉錄本；指定一個文件，并使用其中的’gene_id transcript_id’條目替換一些轉錄本。

-interaction: 使用交互進行注釋(需要交互數據庫)。默認值: true

-maxTSL: 只使用轉錄本支持性級別低于。Only use transcripts having Transcript Support Level lower than.

-motif: 使用Motif進行注釋(需要Motif數據庫)。默認值: true

-nextProt: 使用NextProt注釋(需要NextProt數據庫)。

-noGenome: 不加載任何基因組數據庫(例如，使用自定義文件進行注釋)。

-noExpandIUB: 在輸入變量中禁用IUB碼擴展

-noInteraction: 禁用交互注釋

-noMotif: 禁用主題注釋。

-noNextProt: 禁用NextProt注釋。

-onlyReg: 只使用調控tracks。Only use regulation tracks.

-onlyProtein: 只使用蛋白質編碼轉錄本。默認值: false

-onlyTr: 只使用此文件中的轉錄本。格式:每行一個筆錄ID。

-reg: 要使用的調控track(Regulation track)(該選項可以使用多次添加)。

-ss, -spliceSiteSize: 設置堿基中剪接位點(donor和acceptor)的大小。默認值: 2

-spliceRegionExonSize: 設置外顯子內，剪接位點區域大小。默認值: 3 bases

-spliceRegionIntronMin: 設置內含子內，剪接位點區域的最小堿基數。默認值: 3 bases

-spliceRegionIntronMax: 設置內含子內，剪接位點區域的最大堿基數。默認值: 8 bases

-strict: 只使用“驗證過的”轉錄本(即序列已被檢查過)。默認值: false

-ud, -upDownStreamLen: 設置上游下游間隔(interval)長度(以bases為單位)

SnpEff變異注釋術語

查看SnpEff的注釋結果匯總，可打開這個文件：snpEff_summary.html

結果解讀參考資料：http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf

其它技術文檔：

https://pcingola.github.io/SnpEff/se_inputoutput/

http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf

SnpEff注釋結果中，可能影響編碼蛋白的術語包括：

missense, exon_loss, rare_amino_acid_variant,
frameshift, inframe_deletion, inframe_insertion, disruptive_inframe_insertion, disruptive_inframe_deletion,
splice_acceptor_variant, splice_donor_variant, splice_region_variant,
start_lost, start_retained, initiator_codon_variant,
stop_gained, stop_lost, stop_retained,
protein_protein_contact, structural_interaction_variant,
duplication, inversion,
feature_ablation, gene_fusion, bidirectional_gene_fusion,
conserved_intergenic_variant, conserved_intron_variant

另外，相比CADD或VEP，SnpEff的注釋結果包含結構互作 (Structural interaction) 變異。

Additionally, we check whether SnpEff annotated the variant as protein_protein_contact or structural_interaction_variant.

Notes: These annotations are not present in the manually built SnpEff databases.

The score from this part (functional_part_score) is:

1.0 for protein changing variants localized within the functional region without benign variation;?

1.0 for protein changing variants predicted by SnpEff to change protein residue essential for structural conformation or protein-protein interactions (this annotation is PDB based);?

0.0 for other variants (different mutation effect, not in the functional region, or within the functional region with known benign variants).

來源：https://intelliseq.com/variants-classification-according-to-the-acmg-amp-criteria/ (根據ACMG和AMP標準的變異分類)

SnpEff變異注釋結果與maftools的銜接工具

工具的鏈接：https://github.com/tsy19900929/snpeffToMaf

或工具的百度云鏈接：https://pan.baidu.com/s/15bypEB2QwdO6zaJwT20Erg ?提取碼：58ff

轉換格式

代碼：############################ in shellperl $public/bin/snpeffToMaf-master/snpeffToMaf.pl \${result}/Genotype.cohort.dbSNP.anno.g.vcf 20 0.1# Germline: 20 for minimum depth, 0.1 for minimum allele frequency# Tumour: 100 for minimum depth, 0.05 for minimum allele frequency# warn: you may need edit code once if vcf created by other variant callers. please issue me# maf格式(突變注釋格式)結果：ls *.mafcat *.maf | awk '!/Hugo_Symbol/ || NR==1' > all.maf # concatenate all of yourSampleName.maf, but not necessary

maftools繪圖

############################ in R library(maftools) syn <- c("synonymous_variant","start_retained","stop_retained_variant") df <- data.table::fread("all.maf") vc <- names(table(df$Variant_Classification)) nonSyn <- setdiff(vc,syn) colors <- rainbow(length(nonSyn)) names(colors) <- nonSyn maf <- read.maf("all.maf", vc_nonSyn = nonSyn) plotmafSummary(maf, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE, color = colors)

其它變異注釋方法

暫不過多介紹，例如使用annovar注釋

convert2annovar.pl -format xx.vcf > xx.annovar annotate_variation.pl -buildver hg38 --geneanno --outfile xx.anno xx.annovar ANNOVAR/annovar/humandb/ annotate_variation.pl -buildver hg38 --dbtype knownGene --geneanno --outfile xx.anno xx.annovar ANNOVAR/annovar/humandb/

新鮮出爐 | 臨床基因組學數據分析實戰將于2021年11月12-14開課！！！

往期精品(點擊圖片直達文字對應教程)

機器學習

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結

以上是生活随笔為你收集整理的推荐一款高引超6000次的全基因组/全外显子组变异注释工具的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Adobe illustrator 论文
下一篇：画个火山图，标记下基因的名字