基于帕累托最优的多目标SNP选择
#引用
##LaTex
@article{GUMUS201323,
title = “Multi objective SNP selection using pareto optimality”,
journal = “Computational Biology and Chemistry”,
volume = “43”,
pages = “23 - 28”,
year = “2013”,
issn = “1476-9271”,
doi = “https://doi.org/10.1016/j.compbiolchem.2012.12.006”,
url = “http://www.sciencedirect.com/science/article/pii/S1476927112001156”,
author = “Ergun Gumus and Zeliha Gormez and Olcay Kursun”,
keywords = “Feature selection, Principal component analysis (PCA), Mutual information (MI), Genomic鈥揼eographical distance, Human Genome Diversity Project SNP dataset”
}
##Normal
Ergun Gumus, Zeliha Gormez, Olcay Kursun,
Multi objective SNP selection using pareto optimality,
Computational Biology and Chemistry,
Volume 43,
2013,
Pages 23-28,
ISSN 1476-9271,
https://doi.org/10.1016/j.compbiolchem.2012.12.006.
(http://www.sciencedirect.com/science/article/pii/S1476927112001156)
Keywords: Feature selection; Principal component analysis (PCA); Mutual information (MI); Genomic–geographical distance; Human Genome Diversity Project SNP dataset
#摘要
Biomarker discovery 生物標志物發現
SNP — single nucleotide polymorphism 單核苷酸多態性
傳統單目標 — 最大化分類準確度
1 高分類準確度
2 種族群體遺傳多樣性與地理距離的相關性
#主要內容
數據集:
Human Genome Diversity Project (HGDP) SNP 數據集
1064個個體
52個族群
原始數據:
1043個個體
每個個體 — 660,918 SNPs(163來自線粒體DNA,排除)— 用660,755
每個SNP — 2個等位基因 — 編碼表示為:{?1,0,1}\left\{ -1, 0, 1 \right\}{?1,0,1}
目標一:
高分類準確度 — mutual information MI 互信息
HHH — 隨機變量的熵
目標二:
基因組地理相關性 — principal components analysis PCA
由于維度較高 — 對PCA使用了“維度戲法”
CCC — D×DD\times DD×D維協方差矩陣
YYY — N×DN \times DN×D為中心數據矩陣,N?DN \ll DN?D
kik_iki? — 特征向量iii
兩邊同乘YYY
vi=Ykiv_i = Yk_ivi?=Yki? — 協方差矩陣YYTYY^TYYT的第iii個特征向量
兩邊同乘YTY^TYT
可得:
總結
以上是生活随笔為你收集整理的基于帕累托最优的多目标SNP选择的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【新年快乐】2022年跨年钟声即将敲响,
- 下一篇: 光猫DNS服务器未响应,有光纤猫了还要猫