(转)基因芯片数据GO和KEGG功能分析
隨著人類基因組計劃(Human Genome Project)即全部核苷酸測序的即將完成,人類基因組研究的重心逐漸進入后基因組時代(Postgenome Era),向基因的功能及基因的多樣性傾斜。通過對個體在不同生長發育階段或不同生理狀態下大量基因表達的平行分析,研究相應基因在生物體內的功能,闡明不同層次多基因協同作用的機理,進而在人類重大疾病如癌癥、心血管疾病的發病機理、診斷治療、藥物開發等方面的研究發揮巨大的作用。它將大大推動人類結構基因組及功能基因組的各項基因組研究計劃。生物信息學在基因組學中發揮著重大的作用,而另一項嶄新的技術——基因芯片已經成為大規模探索和提取生物分子信息的強有力手段,將在后基因組研究中發揮突出的作用。基因芯片與生物信息學是相輔相成的,基因芯片技術本身是為了解決如何快速獲得龐大遺傳信息而發展起來的,可以為生物信息學研究提供必需的數據庫,同時基因芯片的數據分析也極大地依賴于生物信息學,因此兩者的結合給分子生物學研究提供了一條快捷通道。
本文介紹了幾種常用的基因功能分析方法和工具:
一、GO基因本體論分類法
最先出現的芯片數據基因功能分析法是GO分類法。Gene Ontology(GO,即基因本體論)數據庫是一個較大的公開的生物分類學網絡資源的一部分,它包含38675個EntrezGene注釋基因中的17348個,并把它們的功能分為三類:分子功能,生物學過程和細胞組分。在每一個分類中,都提供一個描述功能信息的分級結構。這樣,GO中每一個分類術語都以一種被稱為定向非循環圖表(DAGs)的結構組織起來。研究者可以通過GO分類號和各種GO數據庫相關分析工具將分類與具體基因聯系起來,從而對這個基因的功能進行描述。在芯片的數據分析中,研究者可以找出哪些變化基因屬于一個共同的GO功能分支,并用統計學方法檢定結果是否具有統計學意義,從而得出變化基因主要參與了哪些生物功能。
EASE(Expressing Analysis SystematicExplorer)是比較早的用于芯片功能分析的網絡平臺。由美國國立衛生研究院(NIH)的研究人員開發。研究者可以用多種不同的格式將芯片中得到的基因導入EASE進行分析,EASE會找出這一系列的基因都存在于哪些GO分類中。其最主要特點是提供了一些統計學選項以判斷得到的GO分類是否符合統計學標準。EASE能進行的統計學檢驗主要包括Fisher精確概率檢驗,或是對Fisher精確概率檢驗進行了修飾的EASE得分(EASE score)。
由于進行統計學檢驗的GO分類的數量很多,所以EASE采取了一系列方法對“多重檢驗”的結果進行校正。這些方法包括弗朗尼校正法
(Bonferroni),本杰明假陽性率法(Benjamini falsediscovery rate)和靴帶法(bootstraping)。同年出現的基于GO分類的芯片基因功能分析平臺還有底特律韋恩大學開發的Onto-Express。2002年,挪威大學和烏普薩拉大學聯合推出的Rosetta系統將GO分類與基因表達數據相聯系,引入了“最小決定法則”(minimal decision rules)的概念。它的基本思想是在對多張芯片結果進行聚類分析之后,與表達模式不相近的基因相比,相近的基因更有可能參與相同的生物學功能的實現。
GCBI分析平臺:是一個新型的網絡分析平臺,全稱是Gene-Cloud of Biotechnology Information。
GO-Analysis是對基因進行顯著性功能(GO)的分析。由于GO的條目中包含功能的層級關系,從而GO中包含基因的數目變化較大,通常在一到幾百個基因之間。GCBI的功能分析主要用Fisher精確檢驗,即利用如下的四格表:
在這個假設下分別利用fisher精確檢驗和 檢驗,分別得到 值和 值,通過多重比較檢驗,確定GO的FDR。最后得出顯著性GO,完成GO-Analysis。
ENRICHMENT計算公式為:
比較著名的基于GO分類法的芯片數據分析網絡平臺還有七十多個,表1列舉了其中的一部分。
|
Name |
InternetSite |
|
GCBI |
https://www.gcbi.com.cn/gclab |
|
Onto-Tools |
http://vortex.cs.wayne.edu/projects.htm |
|
ROSETTA |
http://rosetta.lcb.uu.se/general/ |
|
GOToolBox |
http://burgundy.cmmt.ubc.ca/GOToolBox/ |
|
GOstat |
http://gostat.wehi.edu.au/ |
|
GFINDer |
http://www.medinfopoli.polimi.it/GFINDer/ |
|
FatiGO |
http://www.fatigo.org/ |
|
EASE |
http://david.abcc.ncifcrf.gov/ease/ease.jsp |
表1用GO分類法進行芯片功能分析的網絡平臺
二、Pathway通路分析法
通路分析是現在經常被使用的芯片數據基因功能分析法。與GO分類法(應用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經研究清楚的基因之間的相互作用,即生物學通路。研究者可以把表達發生變化的基因列表導入通路分析軟件中,進而得到變化的基因都存在于哪些已知通路中,并通過統計學方法計算哪些通路與基因表達的變化最為相關。現在已經有豐富的數據庫資源幫助研究人員了解及檢索生物學通路,對芯片的結果進行分析。主要的生物學通路數據庫有以下兩個:
①KEGG數據庫:迄今為止,KEGG數據庫(Kyotoencyclopedia of genes and genomes)是向公眾開放的最為著名的生物學通路方面的資源網站。在這個網站中,每一種生物學通路都有專門的圖示說明。
②BioCarta數據庫:BioCarta是一家生物技術公司,它在其公共網站上提供了用于繪制生物學通路的模板。研究者可以把符合標準的生物學通路提供給BioCarta數據庫。BioCarta數據庫不會檢驗這些生物學通路的質量,因此其中的資源質量參差不齊,并且有許多相互重復。然而BioCarta數據庫數據量巨大,且不同于KEGG數據庫,包含了大量代謝通路之外的生物學通路,所以也得到廣泛的應用。
最先出現的通路分析軟件之一是GenMAPP(gene microarray pathwayprofiler)。它可以免費使用,其最新版本為Gen-MAPP2。在這個軟件中,使用者可以用幾種靈活的文件格式輸入自己的表達譜數據,GenMAPP的基因數據庫包含許多從常用的資源中得到的物種特異性的基因注釋和識別符(ID)。這些ID可以將使用者輸入的基因與不同的生物學通路的基因聯系起來。這些生物學通路存在于GenMAPP的MAPP文件中。MAPP文件需要時常下載更新。它包含有許多KEGG生物學通路,一些GenMAPP自己的生物學通路和許多GO分類的MAPP文件,全部操作簡單明了。而且依靠其自帶的MAPPBuilder和MAPPFinder兩個軟件,使用者可以自己繪制生物學通路和對MAPP文件進行檢索。由于使用者可以自己繪制生物學通路保存為MAPP格式,這個文件很小易于在網絡上傳播,所以GenMAPP數據庫更有利于研究者之間的及時交流。由于上述特點,GenMAPP數據庫及軟件仍是現今免費平臺里應用比較廣泛的。
2004年推出的Pathway Miner也是應用較為廣泛的免費通路分析網絡平臺,由美國亞利桑那大學癌癥中心建立維護,其最突出的特點就是信息全面,操作簡便。使用者可以在這個網站中獲得單個基因的序列、功能注釋,以及有關它們編碼的蛋白結構功能,組織分布,OMIM等信息。對于通路分析部分,使用者給出基因列表及他們的表達變化值,網站可以根據三大公用的通路數據庫:KEGG、GenMAPP和BioCarta,生成變化基因參與的通路,并用fisher精確概率檢驗。PathwayMiner自動把得到的通路分成兩大類:代謝通路和細胞調節通路。方便使用者根據不同的研究目的選擇需要查看的結果。
在2006年國內也開發了用于通路分析的網絡平臺,即KOBAS(KO-Based Annotation System),其基于KEGG數據庫建立,由北京大學生命科學院開發和維護。其特點是可直接采用基因或蛋白質的序列錄入基因,并對錄入的基因列表進行KO注釋。對于結果的可靠性檢驗提供了四種統計方法。使用者可以在網站進行注冊,網站會為使用者保存輸入的數據,方便日后直接調用。最近推出的軟件Eu.Gene整合了來自KEGG,Gen-MAPP以及Reactome的通路數據,并采用fisher精確概率檢驗及基因集富集分析(Gene Set Enrichment Analysis, GSEA)來檢驗結果是否具有統計學意義。
2014年國內的第二款網絡分析平臺GCBI也上線了,不過GCBI網絡分析平臺不僅僅是針對通路分析。最后會詳細介紹一下。
表2列舉了部分通路分析的網絡平臺及它們的網址。
|
Name |
Internet Site |
|
GenMAPP |
http://www.genmapp.org/ |
|
PathwayMiner |
http://www.biorag.org/pathway.html |
|
KOBAS |
http://kobas.cbi.pku.edu.cn |
|
GEPAT |
http://gepat.bioapps.biozentrum.uni-wuerzburg.de/GEPAT/index.faces |
|
VitaPad |
http://bioinformatics.med.yale.edu/group |
|
KEGGanim |
http://biit.cs.ut.ee/kegganim/ |
|
WholePathwayScope |
http://www.abcc.ncifcrf.gov/wps/wps_index.php |
|
VisANT 3.0 |
http://visant.bu.edu/ |
|
Eu.Gene |
http://www.ducciocavalieri.org/bio/Eugene.htm |
|
GCBI |
https://www.gcbi.com.cn/gclib/html/dictSearch/VFA1Mw |
表二通路分析網絡平臺
三、基因調控網絡分析
通路分析法是芯片功能分析的有力工具之一,其與GO分類法的主要區別也正是它的弱點。在生物反應的過程中,發生表達變化的基因通常不只局限在一個通路中,而是存在于由許多調控因子和通路參與的復雜調控網絡中。生物調控網絡十分復雜,并沒有現成的文獻和數據庫供參考。而且,把芯片中發生表達變化的基因放在生物調控網絡的水平來看,它們通常在多個通路中都有分布,而每個通路只包含幾個發生表達變化的基因。這就解釋了為什么有些通路只有部分基因表達發生變化,而且表達變化的趨勢在整個通路水平上不一定是一致的。
進行生物調控網絡的研究需要更多的數據庫及分析工具的支持。比如需要關于基因組調控序列(啟動子和增強子)的信息,現在已經有許多關于轉錄因子結合位點(transcriptionfactor binding site, TFBS)的數據庫可以滿足這個要求,如TRANSFAC及JASPAR。而且芯片檢測的基因變化應該深入到轉錄本水平,因為不同的轉錄本的轉錄可能是由不同的啟動子啟動的。外顯子連接芯片(exonjunction microarray)將基因組中外顯子與外顯子之間的連接序列做成36nt的探針點到芯片上,與樣本mRNA進行雜交后可檢測出樣本中多外顯子基因pre-mRNA的剪接狀況。
轉錄調節控制基因表達,調控不同組織中的細胞在各種生理條件及外界刺激下的反應。不同于原核細胞,真核細胞的轉錄調節涉及大量轉錄因子的相互作用,而且基因組調控序列不只位于啟動子,還包括內含子及許多基因下游序列。所以真正了解真核細胞的基因調控網絡是一項非常艱巨的工作。用基因調控網絡來分析基因芯片數據還需要更多信息及技術的支持。
四、(差異基因+GO&Pathway analysis+網絡圖)一鍵式分析
常見的芯片功能分析有差異分析、GO&Pathway analysis、網絡分析,一項差異分析得到的差異基因過多,不利于后面的研究,做芯片功能分析的時候一般是選擇多項聯合分析,有的時候為了研究的需要還會用到多種類型的芯片數據,比如microRNA-gene-lncRNA的網絡圖分析就用到了兩種芯片。
GCBI一鍵式分析平臺:這個平臺可以進行多種芯片的功能分析。
目前支持的分析:差異分析、GO analysis、pathway analysis、STC、STC GO、pathway-Network、Signal-Network、gene-Coexpression-Network、lncRNA-Gene-Network、miRNA-Gene-Network、 miRNA-GO-Network等。
差異分析:為了得到可驗證性的高質量差異結果,GCBI實驗室推薦每個分組(Each Group)的樣本數不少于3。而且為了保證后續交叉分析(如miRNA與mRNA聯合分析,多次差異結果的交集、并集或扣除等)結果的可靠性,GCBI實驗室推薦每種平臺類型的芯片總樣本數不少于10。
聚類圖:下面給出GCBI實驗室處理聚類圖的一些步驟細節:
(1)首先計算基因與樣本間的相關性,即計算基因間的皮爾森Pearson相關系數ρij,以1?ρij作為基因i與j之間的距離按照先基因、后樣本的順序,將基因表達數據進行層次聚類,連接方法為AverageLink。
(2)然后對差異基因表達值做中位數標準化,數學表示為:
gij= gij-median(gi*)
(3)取標準化后數據信號值的10與90分位數對整個差異表達數據做最低值與最高值數值截斷,將上述截斷值按照顏色層級分為20個漸變狀態,可見于聚類圖左上角的標示。
(4)最后在聚類圖的上方標示了樣本的分組信息,即相同分組的樣本標示為同一個顏色。
其他分析方法見www.gcbi.com.cn的實驗室。
進行芯片功能分析的方法還有很多,最常見的軟件就是R語言、perl語言等,還有一些分析平臺,如國外的七橋基因、國內的KOBAS、GCBI等,具體的選擇還要根據自己的研究來決定。
總結
以上是生活随笔為你收集整理的(转)基因芯片数据GO和KEGG功能分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 老赖名下无财产,可以执行老赖子女名下的财
- 下一篇: 一台7纳米光刻机月产能有多大,何为能卖上