當前位置：首頁 > 人工智能 > 循环神经网络 >内容正文

循环神经网络

dna序列分类数学建模matlab,数学建模DNA序列分类模型(终稿).doc

發布時間：2024/5/8 循环神经网络 61 豆豆

生活随笔收集整理的這篇文章主要介紹了 dna序列分类数学建模matlab,数学建模DNA序列分类模型(终稿).doc 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

您所在位置：網站首頁 > 海量文檔

&nbsp>&nbsp高等教育&nbsp>&nbsp生物學

數學建模DNA序列分類模型(終稿).doc32頁

本文檔一共被下載：次,您可全文免費在線閱讀后下載本文檔。

下載提示

1.本站不保證該用戶上傳的文檔完整性，不預覽、不比對內容而直接下載產生的反悔問題本站不予受理。

2.該文檔所得收入(下載+內容+預覽三)歸上傳者、原創者。

3.登錄后可充值，立即自動返金幣，充值渠道很便利

DNA序列分類模型

摘要

本文分析了已知類別的人工DNA序列的特征，建立了聚類分析延拓模型和馬爾可夫模型，分別對未知類別的人工DNA序列和自然序列進行分類，根據分類效果選出了較優模型。

首先對數據進行預處理，得到人工DNA序列的單個堿基豐度和不同堿基豐度之比等特征量，進而分析A、B兩類的差異，得到合適的特征判定條件對未知類別的DNA序列進行分類。計算人工DNA序列的特征量，給出各序列的統計數據。

其次用聚類分析延拓模型進行分類。用A、B兩類具有明顯差異的特征作為樣品特征變量，得到歐式空間中表征編號1-20人工DNA序列的特征向量，計算兩兩之間的Lance和Williams距離進行相似性度量，逐步選擇相似性較大的歸為一類，同時不斷更新類內的標準比較特征向量，對聚類方法進行延拓，最終得到類內差異小、類間差異大的A、B兩類，建立了聚類分析延拓模型。再對選取的特征變量進行改進，提高模型的分類效果。最后，借助均值、方差和相關系數等參數對改進模型的分類效果進行分析。

再次用馬爾可夫模型進行分類。將DNA序列看成是馬爾可夫鏈，求出編號1-10和11-20人工DNA序列在已知當前堿基種類的條件下，下一個堿基出現任一種的概率，結果存入概率轉移矩陣1和2，再利用矩陣1和2分別求出編號1-20中任一條DNA序列出現的概率，選擇較大的一個作為該DNA序列的分類，建立馬爾可夫模型。再進行與聚類分析延拓模型類似的改進和檢驗工作，然后對編號21-40人工DNA序列和182條自然序列進行分類，得到最終結果。

最后，用層次分析法綜合評價模型一與模型二，選擇聚類分析延拓模型作為最終模型，其分類結果作為最終結果，具體如下：

編號21-40人工DNA序列中屬于A類的樣品編號為：22，23，25，27，29， 30，34，35，36，37，39；屬于B類的樣品編號為：21，24，26，28，31，32，33，38，40。

182條自然序列中，屬于B類的樣品編號為：7，10，12，22，23，24，26，28，30，34，43，48，50，54，57，65，75，76，80，84，85，86，92，98，103，107，110，114，116，119，121，122，123，127，128，129，130，131，137，138，140，142，143，144，146，151，156，159，161，162，163，166，168，170，173，174，175，179，180，181，182；其余為A類。

關鍵詞 DNA序列分類聚類分析延拓法 Lance和Williams距離馬爾可夫法

一、問題重述

1.1題目背景

(1)2000年6月，人類基因組計劃中DNA全序列草圖完成，預計2001年可以完成精確的全序列圖，此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部信息的“天書”。

(2)這本 “天書”是由4個字符A，T，C，G按一定順序排成的無間隔的長約30億的序列，除了這4個字符表示4種堿基以外，人們對它包含的“內容”知之甚少。因此，破譯這部世界上最巨量信息的“天書”是二十一世紀最重要的任務之一。

(3)為解讀這部“天書”，首先要研究DNA全序列具有什么結構，以及由這4個字符排成的看似隨機的序列中隱藏著什么規律，這也是生物信息學最重要的課題。

1.2題目信息

(1)DNA序列分為編碼區與非編碼區。編碼區是用于編碼蛋白質的序列片段，即由這4個字符組成的64種不同的3字符串，其中大多數用于編碼構成蛋白質的20種氨基酸。

(2)在不用于編碼蛋白質的序列片段中，A和T的含量特別多些，于是以某些堿基特別豐富作為特征去研究DNA序列的結構也取得了一些結果。

(3)利用統計的方法還發現序列的某些片段之間具有相關性。

這些發現說明DNA序列中存在著局部的和全局性的結構，充分發掘序列的結構對理解DNA全序列有十分重要的意義。目前在這項研究中最普通的思想是省略序列的某些細節，突出特征，然后將其表示成適當的數學對象。

1.3題目要求

(1)有20個已知類別的人工制造的DNA序列(見附件1)，其中序列標號1—10 為A類，11-20為B類。從中提取特征，構造分類方法，并用這些已知類別的序列，衡量所選分類方法是否足夠好。

(2)用(1)中的分類方法對另外20個未標明類別的人工序列(見附件1，標號21—40)進行分類，根據分類效果對方法不斷完善，將得到的最終結果用序號(按從小到大的順序)標明它們的類別(A類或B類，無法分類的不寫入)。

要求詳細描述所選的分類方法，給出計算程序。若論文中部分地使用了現成的分類方法，應將方法名稱準確注明。

發表評論

請自覺遵守互聯網相關的政策法規，嚴禁發布色情、暴力、反動的言論。

用戶名:

驗證碼:

匿名?

發表評論

總結

以上是生活随笔為你收集整理的dna序列分类数学建模matlab,数学建模DNA序列分类模型(终稿).doc的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：计算机组成原理实验报告十,合肥工业大学计
下一篇： SQL 中去重的三种方法