numpy序列预处理dna序列_【陪你学生信】七、在数据库中检索相似的序列
一、相似度Similarity
序列的分析離不開相似度這個指標,相似度比較高的序列往往具有相似的結構、執(zhí)行相似的功能。所以用未知序列blast得到的結果可以對未知序列進行推測。
當兩個序列非常相似時,生物學家稱之為同源。然而有一點不明確,就是什么程度的相似可以稱之為“非常”相似呢?書上說一般長度為100以上核苷酸序列或者氨基酸序列,序列之間的一致度(identical)大于70%(nt)或25%(aa)可以推測同源。
不過有時,一致度或相似度很高的兩個序列也有可能非同源,這種進化上的“趨同”現(xiàn)象可能是隨機產(chǎn)生的,這樣的一對序列可稱為同功序列。或者序列相似度很低,但是蛋白質(zhì)三維結構幾乎一樣的情況也有。分析的時候還要結合E-value,兩序列中可對應的序列長度占兩序列的比例,插入和刪除的殘基個數(shù)等一起判斷是否是同源。推薦閱讀往期推送【現(xiàn)學現(xiàn)賣】序列比對之identity VS similarity,【現(xiàn)學現(xiàn)賣】序列比對之bit-score VS E-value。
二、最棒的序列比對工具沒有之一——BLAST
之前第六章主要介紹了分析一條氨基酸序列理化性質(zhì),結構域的方法。這章說說序列比對,比對就不得不用BLAST。NCBI中蛋白質(zhì)相關的blast有:blastp(用氨基酸序列在氨基酸數(shù)據(jù)庫中比對),tblastn(用氨基酸序列在核苷酸數(shù)據(jù)庫中比對)。
1. NCBI-blastp
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
以序列號P09405的氨基酸序列為例進行blastp。
很快返回結果頁面,點擊按鈕可以展開一些折疊的結果,還有filter工具篩選你感興趣的東西。
上圖標記黃色的都可以點開看看,比如Graphic Summary打開后如下圖。彩色部分展示的是數(shù)據(jù)庫中得到的序列與查詢序列(query sequence)比對的位置,不同的顏色體現(xiàn)相似程度/得分。前面的幾個序列與查詢序列匹配程度很高,后面短的粉色部分的信息也并不是沒有用處,比如可以幫助我們找到蛋白質(zhì)結構域。
在Alignments里,上方是查詢序列,下方是匹配序列,中間那欄,如果是字母則表示匹配,如果是?表示是相似氨基酸殘基,如果是空則表示未匹配上。
2. NCBI-blastn
BLASTing DNA序列和蛋白質(zhì)序列很類似,而且如果你知道DNA序列的ORF,可以翻譯成氨基酸序列使用blastp,獲得更加準確的結果。
DNA序列比對可用blastn,還有tblastx和blastx,這里面的t表示translated,就是你輸入DNA序列,在blast之前會有工具將其翻譯,再進行blast比對。tblastx數(shù)據(jù)庫是TDNA數(shù)據(jù)庫(系統(tǒng)將nt翻譯為aa的一個數(shù)據(jù)庫),blastx數(shù)據(jù)庫是氨基酸序列庫。至于不同情況用什么工具,見下圖。
3. 用BLAST方式思考問題(一些BLAST可以解決的問題)
(1)在基因組中尋找目標基因
可以將基因組分為多條兩端互相重疊的序列(2-5kb),然后用blastx在NR庫(the Non Redundant protein database)中檢索。
(2)預測蛋白質(zhì)功能
用blastp在Swiss-Prot數(shù)據(jù)庫中檢索,你輸入的蛋白序列可能擁有和高分結果相似的功能。
(3)預測蛋白質(zhì)三級結構
用blastp在PDB數(shù)據(jù)庫中檢索,道理同(2)
4. 使用BLAST前可以設定的參數(shù)
一般情況下進行BLAST,會對organism進行限定,其他參數(shù)維持默認。那么什么情況下需要修改默認參數(shù)呢?比如沒有返回結果或者結果的E-value數(shù)值大,可以更改矩陣或空位罰分;或者返回太多結果,則可以限定所使用的數(shù)據(jù)庫、關鍵詞、E值等。
(1)blastp
一些蛋白質(zhì)序列的某一部分復雜程度比較低(low-complexity/ low-entropy),一種或幾種氨基酸殘基在一段區(qū)域內(nèi)富集。這樣兩個序列比對會產(chǎn)生高分結果,但是它們很可能毫不相干。為了避免這個問題,可以勾選Algorithm parameters——filters and mask高級選項——“l(fā)ow complexity regions”,過濾這樣的比對結果。
(2)blastn
對于DNA序列,限定的參數(shù)頁面如下,其中word size是指開始一段比對的序列長度,size越大,比對速度越快、精度越低。
三、PSI-BLAST簡單介紹
在blastp下方算法選擇里,還有PSI-BLAST。即Position-Specific Iterated BLAST,位點特異性迭代BLAST。
先BLAST 到一系列相似序列,并對其中每一個位置上的元素構建PSSM矩陣。繼續(xù)進行第二輪blast,再加上新搜索出來的序列結果構建新的PSSM矩陣。這樣迭代,直到無法搜索出新的結果為止或者直到獲得了足夠的序列為止。
BLAST的結果都是相近序列,使用PSI-BLAST可以幫助我們找到遠緣序列。
其他操作和BLAST類似,點擊BLAST返回結果頁面如下。
然后可以點擊Run PSI-Blast iteration 2開始迭代,直到?jīng)]有新的序列產(chǎn)生或產(chǎn)生的序列數(shù)目滿意為止。迭代產(chǎn)生的序列,系統(tǒng)會自動標黃。
這里需要解釋一下,如果選擇了這條序列構建PSSM矩陣,那么迭代之后,序列后面會有綠色圓形對勾,如果像我這次沒有勾選(熒光黃色的4條序列),則這些序列不參與構建矩陣。實際操作時,如果第N次迭代新增加的序列結果明顯不對,則不勾選它構建矩陣,剩下的序列構建的矩陣進行下一次分析。
當輸入的查詢蛋白質(zhì)序列包含多個結構域時,輸出結果可能不太可信。因為很多八竿子打不著的蛋白質(zhì)也會有相似結構域。這時候可以根據(jù)第六章里面尋找結構域的方法,找到結構域的位置,將長蛋白質(zhì)序列根據(jù)結構域分割為片段,進行blast。這種分割分析也適用于大于200aa的蛋白質(zhì)序列。
往期相關內(nèi)容:
【陪你學·生信】序
【陪你學·生信】一、生信能幫我們做什么
【陪你學·生信】二、一些你肯定會用到的生信工具和基本操作
【陪你學·生信】三、核苷酸序列數(shù)據(jù)庫的使用
【陪你學·生信】四、蛋白質(zhì)相關的數(shù)據(jù)庫
【陪你學·生信】五、當你有一段待分析的DNA序列(基礎操作介紹)
【陪你學·生信】六、當你有一段待分析的氨基酸序列?(基礎操作介紹)
總結
以上是生活随笔為你收集整理的numpy序列预处理dna序列_【陪你学生信】七、在数据库中检索相似的序列的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 下载vue-router
- 下一篇: Cannot bind to URL [