dna序列分类数学建模matlab,数学建模DNA序列分类模型(终稿).doc
您所在位置:網站首頁 > 海量文檔
 > 高等教育 > 生物學
數學建模DNA序列分類模型(終稿).doc32頁
本文檔一共被下載:次,您可全文免費在線閱讀后下載本文檔。
下載提示
1.本站不保證該用戶上傳的文檔完整性,不預覽、不比對內容而直接下載產生的反悔問題本站不予受理。
2.該文檔所得收入(下載+內容+預覽三)歸上傳者、原創者。
3.登錄后可充值,立即自動返金幣,充值渠道很便利
DNA序列分類模型
DNA序列分類模型
摘要
本文分析了已知類別的人工DNA序列的特征,建立了聚類分析延拓模型和馬爾可夫模型,分別對未知類別的人工DNA序列和自然序列進行分類,根據分類效果選出了較優模型。
首先對數據進行預處理,得到人工DNA序列的單個堿基豐度和不同堿基豐度之比等特征量,進而分析A、B兩類的差異,得到合適的特征判定條件對未知類別的DNA序列進行分類。計算人工DNA序列的特征量,給出各序列的統計數據。
其次用聚類分析延拓模型進行分類。用A、B兩類具有明顯差異的特征作為樣品特征變量,得到歐式空間中表征編號1-20人工DNA序列的特征向量,計算兩兩之間的Lance和Williams距離進行相似性度量,逐步選擇相似性較大的歸為一類,同時不斷更新類內的標準比較特征向量,對聚類方法進行延拓,最終得到類內差異小、類間差異大的A、B兩類,建立了聚類分析延拓模型。再對選取的特征變量進行改進,提高模型的分類效果。最后,借助均值、方差和相關系數等參數對改進模型的分類效果進行分析。
再次用馬爾可夫模型進行分類。將DNA序列看成是馬爾可夫鏈,求出編號1-10和11-20人工DNA序列在已知當前堿基種類的條件下,下一個堿基出現任一種的概率,結果存入概率轉移矩陣1和2,再利用矩陣1和2分別求出編號1-20中任一條DNA序列出現的概率,選擇較大的一個作為該DNA序列的分類,建立馬爾可夫模型。再進行與聚類分析延拓模型類似的改進和檢驗工作,然后對編號21-40人工DNA序列和182條自然序列進行分類,得到最終結果。
最后,用層次分析法綜合評價模型一與模型二,選擇聚類分析延拓模型作為最終模型,其分類結果作為最終結果,具體如下:
編號21-40人工DNA序列中屬于A類的樣品編號為:22,23,25,27,29, 30,34,35,36,37,39;屬于B類的樣品編號為:21,24,26,28,31,32,33,38,40。
182條自然序列中,屬于B類的樣品編號為:7,10,12,22,23,24,26,28,30,34,43,48,50,54,57,65,75,76,80,84,85,86,92,98,103,107,110,114,116,119,121,122,123,127,128,129,130,131,137,138,140,142,143,144,146,151,156,159,161,162,163,166,168,170,173,174,175,179,180,181,182;其余為A類。
關鍵詞 DNA序列分類 聚類分析延拓法 Lance和Williams距離 馬爾可夫法
一、問題重述
1.1題目背景
(1)2000年6月,人類基因組計劃中DNA全序列草圖完成,預計2001年可以完成精確的全序列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部信息的“天書”。
(2)這本 “天書”是由4個字符A,T,C,G按一定順序排成的無間隔的長約30億的序列,除了這4個字符表示4種堿基以外,人們對它包含的“內容”知之甚少。因此,破譯這部世界上最巨量信息的“天書”是二十一世紀最重要的任務之一。
(3)為解讀這部“天書”,首先要研究DNA全序列具有什么結構,以及由這4個字符排成的看似隨機的序列中隱藏著什么規律,這也是生物信息學最重要的課題。
1.2題目信息
(1)DNA序列分為編碼區與非編碼區。編碼區是用于編碼蛋白質的序列片段,即由這4個字符組成的64種不同的3字符串,其中大多數用于編碼構成蛋白質的20種氨基酸。
(2)在不用于編碼蛋白質的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結構也取得了一些結果。
(3)利用統計的方法還發現序列的某些片段之間具有相關性。
這些發現說明DNA序列中存在著局部的和全局性的結構,充分發掘序列的結構對理解DNA全序列有十分重要的意義。目前在這項研究中最普通的思想是省略序列的某些細節,突出特征,然后將其表示成適當的數學對象。
1.3題目要求
(1)有20個已知類別的人工制造的DNA序列(見附件1),其中序列標號1—10 為A類,11-20為B類。從中提取特征,構造分類方法,并用這些已知類別的序列,衡量所選分類方法是否足夠好。
(2)用(1)中的分類方法對另外20個未標明類別的人工序列(見附件1,標號21—40)進行分類,根據分類效果對方法不斷完善,將得到的最終結果用序號(按從小到大的順序)標明它們的類別(A類或B類,無法分類的不寫入)。
要求詳細描述所選的分類方法,給出計算程序。若論文中部分地使用了現成的分類方法,應將方法名稱準確注明。
發表評論
請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
用戶名:
驗證碼:
匿名?
發表評論
總結
以上是生活随笔為你收集整理的dna序列分类数学建模matlab,数学建模DNA序列分类模型(终稿).doc的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机组成原理实验报告十,合肥工业大学计
- 下一篇: SQL 中去重的三种方法