string数据库使用和实践第一部分string数据库介绍
生活随笔
收集整理的這篇文章主要介紹了
string数据库使用和实践第一部分string数据库介绍
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
背景
為什么要尋找蛋白質(zhì)互做關(guān)系?
因?yàn)橹挥姓_地發(fā)現(xiàn)和注釋細(xì)胞中的所有功能性的相互作用關(guān)系,才能對細(xì)胞的功能進(jìn)行系統(tǒng)層面的學(xué)習(xí)和理解。
大家在收集和展現(xiàn)蛋白質(zhì)相互作用的信息上,一直在努力地跟上相互作用關(guān)系探索的步伐
近年來,無論是在實(shí)驗(yàn)觀測和計(jì)算機(jī)預(yù)測技術(shù)都得到了顯著的進(jìn)步。但是,蛋白質(zhì)蛋白質(zhì)相互作用的信息比較容易出錯,而且乣相當(dāng)大的工作量來進(jìn)行注釋
資源分類?
1有些數(shù)據(jù)庫,他們的主要目的是收集和策展與蛋白質(zhì)-蛋白質(zhì)相互作用直接相關(guān)的實(shí)驗(yàn)證據(jù)
2.另外還有些數(shù)據(jù)庫會通過功能分組,將蛋白質(zhì)分為代謝、信號或轉(zhuǎn)錄途徑等這些更加廣義的角度來了解蛋白質(zhì)之間的關(guān)聯(lián)
3.最后就是第三類資源,通過嘗試使用多種計(jì)算的技術(shù)來預(yù)測新的蛋白質(zhì)-蛋白質(zhì)之間的相關(guān)性,從而彌補(bǔ)前兩種數(shù)據(jù)庫的不足之處
string數(shù)據(jù)庫正是一個整合提供這三種蛋白質(zhì)-蛋白質(zhì)關(guān)聯(lián)性證據(jù)的平臺
string database介紹
string(search tool for the retrival of interacting genes/proteins)基因、蛋白質(zhì)相互作用關(guān)系檢索工具
它能夠幫助用戶輕松獲取獨(dú)特的,覆蓋范圍廣的實(shí)驗(yàn)以及預(yù)測的相互作用關(guān)系信息
string提供的相互作用關(guān)系主要基于confidence score(可靠指數(shù)),以及其他附屬信息,比如提供蛋白質(zhì)域和3D結(jié)構(gòu)
string目前的9.1版本,包括1100+個物種的5200+萬蛋白質(zhì)
聯(lián)合開發(fā)的機(jī)構(gòu)包括:CPR,EMBL,SIB,KU,TUD,UZH
功能
1.主要目的是構(gòu)建蛋白質(zhì)蛋白質(zhì)相互作用網(wǎng)絡(luò)
2.該網(wǎng)絡(luò)可以用于過濾和評估功能性基因組學(xué)的數(shù)據(jù),以及為注釋蛋白質(zhì)的結(jié)構(gòu)、功能和進(jìn)化性提供一個比較直觀的平臺
3.探索預(yù)測的相互作用網(wǎng)絡(luò),能夠?yàn)榻窈蟮闹毖匝芯刻峁┬路较?#xff0c;并且能夠?yàn)橄嗷プ饔玫挠成?#xff0c;提供物跨物種預(yù)測
4.所有的蛋白質(zhì)相互作用關(guān)系數(shù)據(jù)都有被加權(quán)、整合,并且都會有一個計(jì)算得到的可靠值
5.所有計(jì)算的預(yù)測結(jié)果都能通過特定的視圖來查看
6.網(wǎng)頁界面可用來訪問數(shù)據(jù),并能夠快速獲取蛋白質(zhì)及他們之間的相互作用關(guān)系的概覽
優(yōu)勢
1.string數(shù)據(jù)庫完全是預(yù)先計(jì)算好的,無論是在高層次的網(wǎng)絡(luò)中,還是單個相互作業(yè)關(guān)系記錄的界面,所有的信息都可以被迅速獲取
2.它還支持單獨(dú)選擇各種證據(jù)類型,這樣能夠在運(yùn)行的時候進(jìn)行定制的搜索,同時也會有專門的查看器來對所有的關(guān)聯(lián)證據(jù)進(jìn)行查看
3.該數(shù)據(jù)庫是一項(xiàng)探索性的資源:它比基本的相互作用關(guān)系數(shù)據(jù)庫包含了更大的關(guān)聯(lián)數(shù)據(jù)--盡管是有不同的可能值
4.因此,它最好被用于快速、初步地獲取要查詢的蛋白質(zhì)的功能合作伙伴,尤其是對那種還沒能很好的表征的蛋白質(zhì)
數(shù)據(jù)庫介紹
string數(shù)據(jù)庫通過文獻(xiàn)內(nèi)容管理,來提取實(shí)驗(yàn)數(shù)據(jù)得出的蛋白質(zhì)-蛋白質(zhì)相互作用關(guān)系。此外,string數(shù)據(jù)庫還存儲得有一些計(jì)算預(yù)測的相互作用關(guān)系: 1.科學(xué)文章的文本挖掘 2.從基因組的特征計(jì)算得來的相互作用關(guān)系 3.基于直系同源的物種模型轉(zhuǎn)移來的相互作用關(guān)系 所有預(yù)測的活著導(dǎo)入的功能性關(guān)系對,都是以及各通用的參考數(shù)據(jù)庫為基準(zhǔn)來進(jìn)行注釋 導(dǎo)入的數(shù)據(jù) string數(shù)據(jù)庫的蛋白質(zhì)關(guān)聯(lián)信息,有一些是從物理相互作用數(shù)據(jù)庫,以及生物通路的信息數(shù)據(jù)庫導(dǎo)入的 準(zhǔn)確的數(shù)據(jù): KEGG????????? EcoCyc???????? BIioCyc????????? GO???????? reactome????????? Biocarta?????? ?NCI-Nature Pathway Interaction Database 實(shí)驗(yàn)數(shù)據(jù): MINT??? HPRD?? BIND ? DIP ?PID ?BioGRID?
預(yù)測的數(shù)據(jù) string數(shù)據(jù)庫中,還有一些數(shù)據(jù)是通過預(yù)測得來的 Neighborhood:不同物種之間,相似的基因組信息預(yù)示著相似的蛋白質(zhì)功能 Gene Fusion:某些基因組中的蛋白質(zhì)的融合,有很大可能性是具有功能性相關(guān)的 Co-occurrence:如果蛋白質(zhì)有相似的功能,或者出現(xiàn)在同一個代謝通路中,那他們應(yīng)該是會具有相似的表達(dá)模式的,以及相似的系統(tǒng)發(fā)生譜 Co-expression:基于觀察到的具有相同表達(dá)模式的基因,來預(yù)測基因之間的相關(guān)性 基因組信息
算法介紹
數(shù)據(jù)庫介紹
string數(shù)據(jù)庫通過文獻(xiàn)內(nèi)容管理,來提取實(shí)驗(yàn)數(shù)據(jù)得出的蛋白質(zhì)-蛋白質(zhì)相互作用關(guān)系。此外,string數(shù)據(jù)庫還存儲得有一些計(jì)算預(yù)測的相互作用關(guān)系: 1.科學(xué)文章的文本挖掘 2.從基因組的特征計(jì)算得來的相互作用關(guān)系 3.基于直系同源的物種模型轉(zhuǎn)移來的相互作用關(guān)系 所有預(yù)測的活著導(dǎo)入的功能性關(guān)系對,都是以及各通用的參考數(shù)據(jù)庫為基準(zhǔn)來進(jìn)行注釋 導(dǎo)入的數(shù)據(jù) string數(shù)據(jù)庫的蛋白質(zhì)關(guān)聯(lián)信息,有一些是從物理相互作用數(shù)據(jù)庫,以及生物通路的信息數(shù)據(jù)庫導(dǎo)入的 準(zhǔn)確的數(shù)據(jù): KEGG????????? EcoCyc???????? BIioCyc????????? GO???????? reactome????????? Biocarta?????? ?NCI-Nature Pathway Interaction Database 實(shí)驗(yàn)數(shù)據(jù): MINT??? HPRD?? BIND ? DIP ?PID ?BioGRID?
文本挖掘
string數(shù)據(jù)庫的有些信息是通過文本挖掘的方式收集的。通過對龐大的科學(xué)文章的解析,來搜尋到統(tǒng)計(jì)相關(guān)的共現(xiàn)基因的名字 SGD:Saccharomyces OMIM:Online Mendelian Inheritance? in Man FlyBase:A Database of Drophila Genes &Genomes PubMed:A search engine accessing primarily the MEDLINE database of references and abstracts on life sciences and biomedical topics預(yù)測的數(shù)據(jù) string數(shù)據(jù)庫中,還有一些數(shù)據(jù)是通過預(yù)測得來的 Neighborhood:不同物種之間,相似的基因組信息預(yù)示著相似的蛋白質(zhì)功能 Gene Fusion:某些基因組中的蛋白質(zhì)的融合,有很大可能性是具有功能性相關(guān)的 Co-occurrence:如果蛋白質(zhì)有相似的功能,或者出現(xiàn)在同一個代謝通路中,那他們應(yīng)該是會具有相似的表達(dá)模式的,以及相似的系統(tǒng)發(fā)生譜 Co-expression:基于觀察到的具有相同表達(dá)模式的基因,來預(yù)測基因之間的相關(guān)性 基因組信息
算法介紹
很大一部分的string的數(shù)據(jù)是從之前介紹的各種數(shù)據(jù)庫中導(dǎo)入的。同時,他也包含了大量的預(yù)測的關(guān)聯(lián)性
string數(shù)據(jù)庫會定期導(dǎo)入完整測序的基因組序列(多細(xì)胞基因組:Ensembl,其他:SwissProt/UnitProt),并從中搜索這三種基因組信息。目的就是為了識別在進(jìn)化過程中,也許具有一定功能相關(guān)聯(lián)的基因?qū)Α?string數(shù)據(jù)庫中,使用Confidence Score可靠指數(shù)來對應(yīng)每一個預(yù)測的相互關(guān)聯(lián)性
算法優(yōu)勢 將多種類型的證據(jù)數(shù)據(jù)映射到單一的、穩(wěn)定的蛋白質(zhì)組中,從而更有利于數(shù)據(jù)的比較 將已知預(yù)測的相互作用關(guān)系進(jìn)行了部分互補(bǔ),從而擴(kuò)大覆蓋的范圍綜合打分的方案比獨(dú)立的證據(jù)認(rèn)可,具有更高的可靠性
并映射和傳輸相互作用關(guān)系到大量的生物體中,有利于進(jìn)化的研究
算法總結(jié)
算法
總結(jié)
以上是生活随笔為你收集整理的string数据库使用和实践第一部分string数据库介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: fluent在运行时改变重力方向方法总结
- 下一篇: 计算机软考笔记