使用Plink对SNP数据进行质量控制
文章目錄
- 前
- 中
- 對個體和SNP的檢測和篩選
- 哈代平衡
- 次等位基因頻率
- 性別檢測
- 后
前
在做和基因相關的分析時,拿到基因型數據,首先要進行質量控制。
在使用Plink進行質量控制時,一般包含以下幾步:
當然一般也要根據數據進行步驟的選擇,因為我們處理數據是為了后續的相關性分析,所以這里沒有使用Plink做相關分析,同時因為人口分層暫時沒有特別了解,所以只記錄使用Plink進行上述前五步的工作。
在Plink中做這幾步的質量控制,可以直接使用命令+參數完成篩選,也可以使用Plink生成檢測結果來手動篩選。當然,一般對數據要求嚴格的實驗都是先生成結果,經過查看以后確定參數再使用Plink進行篩選。
中
具體來講,根據我的習慣一般先進行個體和SNP的篩選,次等位基因頻率、哈代平衡的檢測,之后做性別的檢測,剔除性別出錯的樣本,再做一遍上述的篩選。
對個體和SNP的檢測和篩選
根據個體和SNP的缺失率進行挑選。
–missing 生成個體和SNP缺失的檢測結果。
個體缺失位點結果文件為plink.imiss:
第一列為家系ID,第二列為個體ID,第三列是否表型缺失,第四列缺失的SNP個數,第五列總SNP個數,第六列缺失率。
單個SNP缺失的結果文件為plink.lmiss:
第一列為染色體,第二列為SNP名稱,第三列為缺失個數,第四列為總個數,第五列為缺失率
(這里有一點更正,之前SNP和個體寫反了,感謝評論區提醒。 2020/08/06)
–geno 篩選SNP
–mind 篩選個體
–mind 0.05:如果一個SNP5%的個體中都是缺失的,那么就刪掉該個體。
–geno 0.05:如果一個個體有5%的SNP都是缺失的,那么就刪掉該SNP。
哈代平衡
根據基因型頻率進行篩選。對于哈代平衡可以自行查找資料理解。
–hardy 計算所有位點的哈溫檢測結果
結果文件為plink.hwe:
第一列為染色體,第二列為SNP的ID,第三列為TEST類型,第四列A1為 minor 位點,第五列A2為 major 位點,第六列為基因型分布,對應A1A1, A1A2, A2A2的個數,第六列為觀測雜合度頻率,第七列為期望雜合度頻率,第八列為哈溫平衡的卡方檢驗P-value值。
–hwe 直接過濾
次等位基因頻率
根據基因頻率進行挑選。
這里談一點個人對次等位基因的理解,某一位點可能為AA,AT,TT,甚至出現更大的變異導致CC,CG,所以才有次等位基因頻率,而不是最小,很多人將minor allele frequency(MAF)解釋為最小等位基因頻率,感覺是不夠準確的。
某一位點可能有A,T,C,G四種基因情況,四種情況的頻率和應該為1,第二常見的基因型為次等位基因,次等位基因出現的基因頻率就稱為次等位基因頻率。
而使用MAF進行過濾,是因為一般在人群中肯定是少數患病,那么導致少數人患病的就可能是這個次等位基因,而當MAF小于一定值時,意味著大部分位點都是相同的基因型,這些SNP位點貢獻的信息很少(和所研究關系很小),會增加假陽性。極端情況MAF為0,該位點只有一種基因型,那么致病基因肯定和這個位點無關,故而過濾掉。
–freq 計算每個SNP位點的次基因頻率
結果文件為plink.frq:
第一列為染色體號,第二列為SNP ID,第三列為 minor 位點,第四列為 major 位點,第五列為次等位基因頻率,第六列為等位基因觀察數。
–maf 直接過濾
性別檢測
–check-sex 可以生成性別檢測的結果,然后根據結果構造removesample.txt(名稱自由),再使用 --remove removesamp.txt 將性別出錯的樣本剔除。
removesample 文本第一列為FID,第二列為IID。
結果文件為plink.sexcheck:
第一列為家系ID,第二列為個體ID,第三列為原始數據中所給性別,第四列為根據SNP推斷的性別,第五列是否正常,第六列為F值。
女性受試者的F值必須小于0.2,男性受試者的F值必須大于0.8。這個F值是基于X染色體近交(純合子)估計。不符合這些要求的受試者第五列為“PROBLEM”,符合則為“OK”。
后
將上述質量控制的完整流程總結成可用命令如下:
plink --bfile inputname --geno 0.05 --mind 0.1 --maf 0.05 --hwe 0.000001 --make-bed --out outputname1 plink --bfile outputname1 --check-sex plink --bfile outputname1 --remove removesamp.txt --make-bed --out outputname2 plink --bfile outputname2 --geno 0.05 --mind 0.1 --maf 0.05 --hwe 0.000001 --make-bed --out outputname3上述inputname、outputname均為文件名稱。
上圖是某次質量控制Plink日志文件的說明。
其實除了上述質量控制,根據實驗有時也需要做親緣關系的排查,結果如下。
還有–het,雜合率的檢測,因為本人實驗并不需要這些,有時間再寫。
上述均根據Plink1.90完成。Plink基本操作可參考PLink常用命令總結,更多有關Plink命令的使用可以在參考中去查找。
參考:
http://www.cog-genomics.org/plink2/
總結
以上是生活随笔為你收集整理的使用Plink对SNP数据进行质量控制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Bootstrap -Card卡片
- 下一篇: 修改cmd命令行窗口的颜色