多序列比对的c语言程序,多序列比对的实际应用
Andreas D.Baxevanis
Genome Technology Branch
National Human Genome Research Institude
National Institutes of Health
Bethesda.Maryland
在尋找基因和致力于發(fā)現(xiàn)新蛋白的努力中,人們習慣于把新的序列同已知功能的蛋白序列作比對。由于這些比對通常都希望能夠推測新蛋白的功能,不管它們是雙重比對還是多序列比對,都可以回答大量的其它的生物學問題。舉例來說,面對一堆搜集的比對序列,人們會研究隱含于蛋白之中的系統(tǒng)發(fā)生的關系,以便于更好地理解蛋白的進化。人們并不只是著眼于某一個蛋白,而是研究一個家族中的相關蛋白,看看進化壓力和生物秩序如何結合起來創(chuàng)造出新的具有雖然不同但是功能相關的蛋白。研究完多序列比對中的高度保守區(qū)域,我們可以對蛋白質(zhì)的整個結構進行預測,并且猜測這些保守區(qū)域?qū)τ诰S持三維結構的重要性。
顯然,分析一群相關蛋白質(zhì)時,很有必要了解比對的正確構成。發(fā)展用于多序列比對的程序是一個很有活力的研究領域,絕大多數(shù)方法都是基于漸進比對(progressive alignment)的概念。漸進比對的思想依賴于使用者用作比對的蛋白質(zhì)序列之間確實存在的生物學上的或者更準確地說是系統(tǒng)發(fā)生學上的相互關聯(lián)。不同算法從不同方面解決這一問題,但是當比對的序列大大地超過兩個時(雙重比對),對于計算的挑戰(zhàn)就會很令人生畏。在實際操作中,算法會在計算速度和獲得最佳比對之間尋求平衡,常常會接受足夠相近的比對。不管最終使用的是什么方法,使用者都必須審視結果的比對,因為再次基礎上作一些手工修改是十分必要的,尤其是對保守的區(qū)域。
由于本書偏重于方法而不是原理,這里只討論一小部分現(xiàn)成的程序。我們從兩個多序列比對的方法開始,接下去是一系列的利用蛋白質(zhì)家族中已知的模體或是式樣的方法,最后討論兩個具有贈送的方法,因為絕大多數(shù)公開的算法不能達到出版物的數(shù)量。在本章結尾部分將會列出更詳細的多序列比對的算法。
漸進比對方法
CLUSTAL W
CLUSTAL W算法是一個最廣泛使用的多序列比對程序,在任何主要的計算機平臺上都可以免費使用。這個程序基于漸進比對的思想,得到一系列序列的輸入,對于每兩個序列進行雙重比對并且計算結果。基于這些比較,計算得到一個距離矩陣,反映了每對序列
Bioinformatics: A Practical Guide to the Analysis of genes and Proteins
Edited by A.D. Baxevanis and B.E.E. Ouellette
ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.的關系,于是,基于鄰近加入方法,這個矩陣被用來計算出一個系統(tǒng)發(fā)生輔助樹。這個輔助樹,加權后可以證實極相近的序列,然后以雙重比對極相近的序列開始,為組建比對提供基礎,然后重新比對下一個加入的比對,依次類推。如果加入的序列較多,那么毫無疑問,必須加入空位以適應序列的差異,但是加入空位必須接受空位開放罰分和空位擴展罰分。在絕大多數(shù)情況下,使用者不會在比對時加入結構信息,但是空位開放補償利用了可以出現(xiàn)在α-螺旋或β-折疊末端的特殊殘基以及空位罰分所偏好的殘基,眾所周知,這些殘基更喜歡顯示這個特異性。已經(jīng)存在的空位的擴展原則很簡單,只是要在那些極有可能在結構中形成彎曲的位點擴展空位,這些空位擴展罰分計算是有位置決定的。
為了介紹基于UNIX平臺的CLUSTAL W的使用,考慮一下從四種不同物種來源的UIA蛋白(人類,鼠,Xenopus laevis和果蠅)。這四種輸入序列放在一個單獨的文件中,作成六種可以接受的格式中的一種,然后在UNIX提示符下執(zhí)行clustalw,用戶必須執(zhí)行命令才會看見主菜單:
*********************************************************************
**********CLUSTAL W(1.60) Multiple Sequence Alignments******************
*********************************************************************
1.Sequence Input From Disc
2.Multiple Alignments
3.Profile / Structure Alignments
4.Phylogenetic trees
S. Execute a system command
H. HELP
X. EXIT (leave program)
Your choice: 1
選擇菜單中的選項1(Sequence Input From Disc)以輸入要比對的序列,選擇1后會出現(xiàn)序列輸入菜單:
Sequences should all be in 1 title.
6 formats accepted:
NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF.
Enter the name of the sequence file: UIA.seqs
系統(tǒng)會提示用戶有六種可以接受的格式,然后會提問輸入序列的文件名,在這里序列輸入文件名為UIA.seqs,一旦輸入這個文件名,屏幕上會顯示讀取文件的過程,然后返回主菜單,這時,用戶可以選擇選項2進行多序列比對:
**************** MULTIPLE ALIGNMENT MENU *****************
1.DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate)
2.Produce guide tree file only
3.do alignment using old guide tree file
4.Toggle Slow Fast pairwise alignments = SLOW
5.Pairwise alignment parameters
6.Multiple alignment parameters
7. Reset gaps between alignments? = ON
8. Toggle screen display = ON
9. Output format ooptions
S. Execute a system command
H. HELP
or press [RETURN] to go back to main menu
Your choice: 1
(責任編輯:大漢昆侖王)
總結
以上是生活随笔為你收集整理的多序列比对的c语言程序,多序列比对的实际应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 脉冲宽度测量程序 c51 c语言,基于C
- 下一篇: C语言检测大气成分,自动化结构健康监测