推荐一款高引超6000次的全基因组/全外显子组变异注释工具
SnpEff是韋恩州立大學Douglas M. Ruden團隊于2012年發表的一款變異注釋工具。到現在已近10年歷史,持續更新,已至5.0版,總引用6044次。
SnpEff的優點
基于Java環境,便于安裝和運行 (More tiny than VEP);
注釋結果豐富(More HGVS than ANNOVAR);
支持38,000基因組;
與GATK兼容;
可自定義數據庫。
HGVS是國際通用的變異命名標準(HGVS符號),這里指代符合用其標準書寫的變異位點。
安裝和使用
# SnpEff程序安裝:mkdir -p ~/wgs/public cd ~/wgs/public # 下載、解壓后即可使用(提前具備java運行環境) wget -c https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip/ unzip snpEff_latest_core.zip# 下載人相關注釋 java -jar ~/wgs/public/snpEff/snpEff.jar download GRCh38.86 # 保持網絡暢通,耐心等待 ...# 使用方法:java -jar snpEff.jar hg38 yourSampleName.normalize.vcf \-hgvs1LetterAa -canon > yourSampleName.snpeff.vcf參數解釋
-i Input format [ vcf, bed ]. Default: VCF.
-hgvs ?氨基酸子字段使用HGVS標注。默認值: true
-lof 添加功能喪失(loss of function, LOF)和無義介導的降解事件(Nonsense mediated decay, NMD) 標簽。
-canon Only use canonical (典型/典范/標準) transcripts. 即使用典型的轉錄本。
-noshifthgvs 不根據HGVS表示法來移動變異(而是使用3’原則 most 3prime end)。Do not shift variants according to HGVS notation (most 3prime end).
-interval <file 在TXT/BED/BigBed/VCF/GFF文件中使用自定義間隔(可以多次使用這個選項)
-hgvs1LetterAa 在HGVS符號中使用一個字母的氨基酸代碼。默認值: FASLE (即默認不使用)。
-chr <string : 在染色體名稱前添加’string’(例如: 輸出’chr1’而不是’1’)。只在TXT輸出。
-classic: 使用舊風格的注釋代替Sequence Ontology and Hgvs。
-csvStats <file : 創建CSV摘要文件。
-download: 如果沒有參考基因組,則下載。默認值: true
-fileList: 輸入實際上要處理的文件的列表。
-s, -stats, -htmlStats: 創建HTML摘要文件。默認是“snpEff_summary.html”
-noStats: 不創建stats(摘要)文件
-t: 使用多個線程(意味著’-noStats’)。默認的“off”
https://theory.labster.com/codon-de/
結果過濾
-no-downstream: 不顯示下游變化
-no-intergenic: 不顯示基因間變化
-no-intron: 不顯示內含子變化
-no-upstream: 不顯示上游的變化
-no-utr: 不顯示5_PRIME_UTR或3_PRIME_UTR的更改
-no <effectType : 不顯示“effectType”。這個選項可以多次使用。
-fi, -filterInterval <file : 只分析與此文件中指定的間隔(intervals)相交的變化(可以多次使用此選項) ?Only analyze changes that intersect with the intervals specified in this file (you may use this option many times)
注釋選項
-cancer: 進行“癌癥”比較 (Somatic vs Germline)。默認值: false
-cancerSamples: 兩列TXT文件,定義“original \t derived”樣本。
-formatEff: 使用與舊版本兼容的’EFF’字段(而不是’ANN’)。
-geneId: 使用基因ID代替基因名(VCF輸出)。默認值: false
-hgvsOld: 使用舊的HGVS符號。默認值: false
-hgvsTrId: 在HGVS表示法中使用transcript ID。默認值: false
-noHgvs: 不添加HGVS注釋。
-noLof: 不添加LOF和NMD注釋。
-oicr: 在VCF文件中添加OICR tag。默認值: false
-sequenceOntology: 使用序列本體術語。默認值: true
通用選項
-c, -config: 指定配置文件
-configOption name=value: 覆蓋配置文件選項
-d, -debug: Debug mode (very verbose).
-dataDir: 覆蓋配置文件中的data_dir參數。
-nodownload: 如果本地沒有SnpEff數據庫,不要下載。
-h, -help: 顯示幫助并退出
-noLog: 不向服務器報告使用統計信息
-q, -quiet: 安靜模式(不顯示任何消息或錯誤)
-v, -verbose: 冗長提示模式
-version: 顯示版本號并退出
數據庫選項
-canonList: 只使用典型的(canonical)轉錄本;指定一個文件,并使用其中的’gene_id transcript_id’條目替換一些轉錄本。
-interaction: 使用交互進行注釋(需要交互數據庫)。默認值: true
-maxTSL: 只使用轉錄本支持性級別低于。Only use transcripts having Transcript Support Level lower than.
-motif: 使用Motif進行注釋(需要Motif數據庫)。默認值: true
-nextProt: 使用NextProt注釋(需要NextProt數據庫)。
-noGenome: 不加載任何基因組數據庫(例如,使用自定義文件進行注釋)。
-noExpandIUB: 在輸入變量中禁用IUB碼擴展
-noInteraction: 禁用交互注釋
-noMotif: 禁用主題注釋。
-noNextProt: 禁用NextProt注釋。
-onlyReg: 只使用調控tracks。Only use regulation tracks.
-onlyProtein: 只使用蛋白質編碼轉錄本。默認值: false
-onlyTr: 只使用此文件中的轉錄本。格式:每行一個筆錄ID。
-reg: 要使用的調控track(Regulation track)(該選項可以使用多次添加)。
-ss, -spliceSiteSize: 設置堿基中剪接位點(donor和acceptor)的大小。默認值: 2
-spliceRegionExonSize: 設置外顯子內,剪接位點區域大小。默認值: 3 bases
-spliceRegionIntronMin: 設置內含子內,剪接位點區域的最小堿基數。默認值: 3 bases
-spliceRegionIntronMax: 設置內含子內,剪接位點區域的最大堿基數。默認值: 8 bases
-strict: 只使用“驗證過的”轉錄本(即序列已被檢查過)。默認值: false
-ud, -upDownStreamLen: 設置上游下游間隔(interval)長度(以bases為單位)
SnpEff變異注釋術語
查看SnpEff的注釋結果匯總,可打開這個文件:snpEff_summary.html
結果解讀參考資料:http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf
其它技術文檔:
https://pcingola.github.io/SnpEff/se_inputoutput/
http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf
SnpEff注釋結果中,可能影響編碼蛋白的術語包括:
missense, exon_loss, rare_amino_acid_variant,
frameshift, inframe_deletion, inframe_insertion, disruptive_inframe_insertion, disruptive_inframe_deletion,
splice_acceptor_variant, splice_donor_variant, splice_region_variant,
start_lost, start_retained, initiator_codon_variant,
stop_gained, stop_lost, stop_retained,
protein_protein_contact, structural_interaction_variant,
duplication, inversion,
feature_ablation, gene_fusion, bidirectional_gene_fusion,
conserved_intergenic_variant, conserved_intron_variant
另外,相比CADD或VEP,SnpEff的注釋結果包含結構互作 (Structural interaction) 變異。
Additionally, we check whether SnpEff annotated the variant as protein_protein_contact or structural_interaction_variant.
Notes: These annotations are not present in the manually built SnpEff databases.
The score from this part (functional_part_score) is:
1.0 for protein changing variants localized within the functional region without benign variation;?
1.0 for protein changing variants predicted by SnpEff to change protein residue essential for structural conformation or protein-protein interactions (this annotation is PDB based);?
0.0 for other variants (different mutation effect, not in the functional region, or within the functional region with known benign variants).
來源:https://intelliseq.com/variants-classification-according-to-the-acmg-amp-criteria/ (根據ACMG和AMP標準的變異分類)
SnpEff變異注釋結果與maftools的銜接工具
工具的鏈接:https://github.com/tsy19900929/snpeffToMaf
或工具的百度云鏈接:https://pan.baidu.com/s/15bypEB2QwdO6zaJwT20Erg ?提取碼:58ff
轉換格式
代碼:############################ in shellperl $public/bin/snpeffToMaf-master/snpeffToMaf.pl \${result}/Genotype.cohort.dbSNP.anno.g.vcf 20 0.1# Germline: 20 for minimum depth, 0.1 for minimum allele frequency# Tumour: 100 for minimum depth, 0.05 for minimum allele frequency# warn: you may need edit code once if vcf created by other variant callers. please issue me# maf格式(突變注釋格式)結果:ls *.mafcat *.maf | awk '!/Hugo_Symbol/ || NR==1' > all.maf # concatenate all of yourSampleName.maf, but not necessarymaftools繪圖
############################ in R library(maftools) syn <- c("synonymous_variant","start_retained","stop_retained_variant") df <- data.table::fread("all.maf") vc <- names(table(df$Variant_Classification)) nonSyn <- setdiff(vc,syn) colors <- rainbow(length(nonSyn)) names(colors) <- nonSyn maf <- read.maf("all.maf", vc_nonSyn = nonSyn) plotmafSummary(maf, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE, color = colors)其它變異注釋方法
暫不過多介紹,例如使用annovar注釋
convert2annovar.pl -format xx.vcf > xx.annovar annotate_variation.pl -buildver hg38 --geneanno --outfile xx.anno xx.annovar ANNOVAR/annovar/humandb/ annotate_variation.pl -buildver hg38 --dbtype knownGene --geneanno --outfile xx.anno xx.annovar ANNOVAR/annovar/humandb/新鮮出爐 | 臨床基因組學數據分析實戰將于2021年11月12-14開課!!!
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的推荐一款高引超6000次的全基因组/全外显子组变异注释工具的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Adobe illustrator 论文
- 下一篇: 画个火山图,标记下基因的名字