重测序(RADseq)做群体遗传分析套路
實(shí)驗(yàn)材料
構(gòu)建的群體,或自然群體,如各地方品種。
RAD文庫(kù)構(gòu)建
提取DNA后,構(gòu)建文庫(kù),簡(jiǎn)要步驟如下:
① 限制性?xún)?nèi)切酶TaqI酶切;
② 連接P1接頭;
③ DNA隨機(jī)打斷片斷化;
④ 目的片段回收與末端修復(fù);
⑤ 連接P2接頭;
⑥ RAD片段富集;
⑦ 上機(jī)測(cè)序。
參考:Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers
測(cè)序reads過(guò)濾
根據(jù)識(shí)別標(biāo)簽序列得到每個(gè)個(gè)體的測(cè)序reads,使用trimmomatic進(jìn)行過(guò)濾(其他質(zhì)控軟件,如fastqc,multiQC等)
設(shè)置過(guò)濾參數(shù)為:SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50。 過(guò)濾標(biāo)準(zhǔn):兩端質(zhì)量低于5的堿基進(jìn)行切除,并以5bp為窗口進(jìn)行滑動(dòng)過(guò)濾,對(duì)平均質(zhì)量低于20的窗口進(jìn)行切除。
比對(duì)和變異檢測(cè)
BWA (其他比對(duì)軟件如bowtie2/soap2/MAQ等)將過(guò)濾后的個(gè)體clean reads比對(duì)到參考基因組序列上。樣本比對(duì)率反映的是樣本測(cè)序數(shù)據(jù)與參考基因組的相似性,覆蓋深度和覆蓋度能夠直接反映測(cè)序數(shù)據(jù)的均一性與參考序列的同源性。
使用GATK(或samtools+bcftools)Haplotype Caller模塊進(jìn)行變異檢測(cè),獲得群體變異集文件(VCF 格式)。對(duì)變異進(jìn)行過(guò)濾:過(guò)濾參數(shù)為缺失率小于或等于0.2、雜合率小于或等于0.2、最小等位基因頻率(MAF) 大于或等于0.05,最終得到高質(zhì)量的基因型數(shù)據(jù)。
聚類(lèi)分析
群體分析三幅圖:群體結(jié)構(gòu)圖(祖先成分堆疊圖)、PCA、系統(tǒng)發(fā)生樹(shù)。
在獲得高質(zhì)量的標(biāo)記數(shù)據(jù)以后,利用vcftools將vcf文件處理得到plink.ped和plink.map文件(整理為plink軟件所需格式)。
使用plink 軟件隨機(jī)選擇連鎖不平衡(LD)小于0.1,且相鄰間隔在300kb以上的SNP位點(diǎn),最后得到一個(gè)包含3420 個(gè)SNP位點(diǎn)的標(biāo)記集,一般是生成.bed文件。
1.祖先成分堆疊圖
使用ADMIXTURE對(duì)此 SNP位點(diǎn)集(bed文件)進(jìn)行群體結(jié)構(gòu)分析(Structure),利用交叉驗(yàn)證過(guò)程確定確定合適的祖先數(shù)或亞群(K值)。若不知道理想的K值,可用ADMIXTURE計(jì)算,一般當(dāng)cross-validation error值最低時(shí)所對(duì)應(yīng)的K值為最合適的K值。
考慮到樣本所歸屬的分類(lèi)單元,即看看哪幾個(gè)物種聚在一起,對(duì)合適的K值利用Structure軟件(速度慢,其他軟件如frappe,ADMIXTURE也可做群體結(jié)構(gòu)圖,并且很快)聚類(lèi)圖,一些R包如hapmap也是可以做群體結(jié)構(gòu)圖的。
2.PCA
利用GCTA對(duì)SNP數(shù)據(jù)集進(jìn)行樣本的PCA分析(其他軟件如EIGENSOFT中的smartpca)。GCTA可以直接讀取.bed , .bim , .fam文件,利用–make-grm 生成個(gè)體對(duì)之間的遺傳關(guān)系矩陣,并將GRM的下三角元素保存為二進(jìn)制文件.grm.id , .grm.bin , .grm.N.bin。使用 –pca 設(shè)置要生成主成分的數(shù)目,一般來(lái)說(shuō)就可以刻畫(huà)出群體結(jié)構(gòu)。這一步會(huì)生成 .eigenval 和 .eigenvec 兩個(gè)文件。.eigenval文件為各主成分可解釋遺傳信息的比例,.eigenvec文件為每個(gè)樣本在top4主成分上的分解值。
3.系統(tǒng)發(fā)育樹(shù)
構(gòu)樹(shù)的方法有非加權(quán)分組平均法(UPGMA,已經(jīng)很少用)、最小進(jìn)化法(ME)、鄰接法(NJ)、最大簡(jiǎn)約法(MP)、最大似然法(ML)等。
構(gòu)樹(shù)軟件如FastTree/MEGA/cluster X/phylip,美化可以用FigTree/ggtree/treeview/GraPhIAn。
NJ法是基于最小進(jìn)化原理經(jīng)常被使用的一種算法,它不檢驗(yàn)所有可能的拓?fù)浣Y(jié)構(gòu),能同時(shí)給出拓?fù)浣Y(jié)構(gòu)和分支長(zhǎng)度。
GWAS的群體遺傳分析也是包含這三個(gè)圖,RADseq畢竟是簡(jiǎn)化基因組,得到的SNP有限,做這種群體分析效果肯定沒(méi)有GWAS好。
Ref:Admixture:一款快速分析群體遺傳結(jié)構(gòu)的軟件
群體結(jié)構(gòu)分析三種常用方法(下篇)
群體結(jié)構(gòu)分析三種常用方法 (上篇)
基于RAD高通量測(cè)序探討中國(guó)85種杜鵑花屬植物的分類(lèi)
http://www.360doc.com/content/17/1120/01/33459258_705424795.shtml
總結(jié)
以上是生活随笔為你收集整理的重测序(RADseq)做群体遗传分析套路的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ping请求超时的解决方法
- 下一篇: 数据库分区与分表