基因功能不确定?做一下单基因GSEA怎么样?
生物信息學(xué)習(xí)的正確姿勢
NGS系列文章包括NGS基礎(chǔ)、在線繪圖、轉(zhuǎn)錄組分析?(Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細(xì)胞測序分析?(重磅綜述:三萬字長文讀懂單細(xì)胞RNA測序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測序分析、GEO數(shù)據(jù)挖掘(典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step))、批次效應(yīng)處理等內(nèi)容。
今天在討論群看到有群友提問 單基因GSEA怎么做?。之前也看到過這個(gè)概念,但一直不清楚這個(gè)單是什么含義,一直以為是用單個(gè)基因做GSEA。如果之前看過生信寶典的一文掌握GSEA,超詳細(xì)教程,一定會(huì)特別熟悉GSEA的原理和操作流程。當(dāng)然越是理解,越是想不明白單個(gè)基因怎么做GSEA。當(dāng)然如果您不熟悉GSEA,建議先看上一篇文章。
后來群友點(diǎn)撥理解了,不是對單個(gè)基因做GSEA,是拿單個(gè)基因 (一般是感興趣的基因)作為分組方式,探索與給定的單個(gè)基因相關(guān)的 (可以是表達(dá)相關(guān),也可以是其它相關(guān))基因富集在哪些調(diào)控通路和分子功能。
分組方法有兩種,一種是定性分組,一種是定量相關(guān)。
定性分組
根據(jù)感興趣的單個(gè)基因的度量值如表達(dá)值進(jìn)行分組,比如按照該基因表達(dá)中位數(shù)分組,該基因表達(dá)值高于中位數(shù)的樣品為一組,低于中位數(shù)的樣品為一組,構(gòu)建一個(gè)cls文件。如下,假如有8個(gè)樣品,其中4個(gè)樣品中該基因表達(dá)高 (samp1, samp3, samp7, samp8),4個(gè)樣品中該基因表達(dá)低(samp 2 4 5 6),則cls文件如下 (一定注意樣本順序要一致):
8 2 1 #gene_high gene_low gene_high gene_high gene_high gene_high gene_low gene_low gene_low gene_low調(diào)整后的表達(dá)矩陣格式如下 (注意列的對應(yīng),high對高的樣品。)
Gene samp1 samp3 samp7 samp8 samp2 samp4 samp5 samp6 A 4 4 4 4 1 1 1 1 B . . . . . . . . C . . . . . . . .后續(xù)的操作就不說了,還是看生信寶典的一文掌握GSEA,超詳細(xì)教程,看完就都會(huì)了。
注:也可以按照該基因表達(dá)的第一和三四分位數(shù)分組,小于第一四分位數(shù)的為一組,大于第三四分位數(shù)的為另一組。
相關(guān)性排序
與前面把樣本分組不同,這里樣本不進(jìn)行分組了,而是把感興趣基因的表達(dá)做為樣本的一個(gè)屬性。在做GSEA分析時(shí),其它基因按照與感興趣基因的表達(dá)相關(guān)性排序進(jìn)行后續(xù)分析。
這時(shí)應(yīng)該怎么準(zhǔn)備cls文件呢?
咱們先以一個(gè)時(shí)間序列樣本的cls文件為例:
#numeric為固定寫法,第一行,不需要修改
#Time名字隨便取,這里是時(shí)間序列,取名Time。#是必須的。
第3行是每個(gè)樣品的處理時(shí)間,0為0小時(shí),1為1小時(shí);每個(gè)時(shí)間3個(gè)重復(fù),所以寫了3遍;總共5個(gè)時(shí)間點(diǎn),15個(gè)樣品。
回到我們這個(gè)例子,還是8個(gè)樣品,分別為samp 1 2 3 4 5 6 7 8,假如感興趣基因是A,表達(dá)矩陣如下:
Gene samp1 samp2 samp3 samp4 samp5 samp6 samp7 samp8 A 9 8 7 6 3 4 1 2 B . . . . . . . . C . . . . . . . .這時(shí)對應(yīng)的cls文件這么寫(注意一一對應(yīng)關(guān)系)。Aexpr隨便起的一個(gè)名字,代表A基因的表達(dá)。
#numeric #Aexpr 9 8 7 6 3 4 1 2然后導(dǎo)入GSEA就可以分析了。需要注意的是選擇合適的Ranking metric,如pearson相關(guān)性、Cosine、Manhattan 或Euclidean。
基于相關(guān)性的GSEA操作展示
直接看動(dòng)畫,數(shù)據(jù)格式也有展示,GMT文件是自己整理的。這是1我們單細(xì)胞和群體轉(zhuǎn)錄組課程的一個(gè)小環(huán)節(jié) (回頭把這部分視頻拆出來放到騰訊課堂供訪問)。
公眾號看不了動(dòng)畫,截圖兩張,點(diǎn)擊閱讀原文去查看吧。
討論學(xué)習(xí)是個(gè)很好的方式,歡迎大家有問題發(fā)到train@ehbio.com,信息全的,問題可重現(xiàn)的,或有意思的開放問題我們都會(huì)給予解決,寫個(gè)推文發(fā)出,既方便自己,又方便他人。
當(dāng)然如果類似轉(zhuǎn)錄組怎么分析, 宏基因組怎么分析,這樣大的問題還是參加我們的線下培訓(xùn)班或購買網(wǎng)課吧,都在www.ehbio.com/Training。
這個(gè)只需一步就可做富集分析的網(wǎng)站還未發(fā)表就被CNS等引用超過350次
什么,你算出的P-value看上去像齊天大圣變的廟?
DESeq2差異基因分析和批次效應(yīng)移除
GO、GSEA富集分析一網(wǎng)打進(jìn)
GSEA富集分析 - 界面操作
無需寫代碼的高顏值富集分析神器
去東方,最好用的在線GO富集分析工具
沒錢買KEGG怎么辦?REACTOME開源通路更強(qiáng)大
超簡便的國產(chǎn)lncRNA預(yù)測工具LGC
一文掌握GSEA,超詳細(xì)教程
UCSC XENA - 集大成者(TCGA, ICGC)
ICGC數(shù)據(jù)庫使用
TCGA數(shù)據(jù)庫在線使用
BROAD開發(fā)的TCGA分析平臺(tái),強(qiáng)大的下載功能
cBioPortal功能強(qiáng)大的TCGA再分析平臺(tái)
這是數(shù)據(jù)更新最實(shí)時(shí)的TCGA網(wǎng)站,功能強(qiáng)大
不懂R,如何進(jìn)行GEO數(shù)據(jù)庫表達(dá)譜的差異分析、富集分析、蛋白互作、可視化?
典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - Limma差異分析、火山圖、功能富集
典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step) - 數(shù)據(jù)獲取到標(biāo)準(zhǔn)化
為什么GEO2R/GEOquery的結(jié)果可能是錯(cuò)的?
WGCNA分析,簡單全面的最新教程
psych +igraph:共表達(dá)網(wǎng)絡(luò)構(gòu)建
一文學(xué)會(huì)網(wǎng)絡(luò)分析——Co-occurrence網(wǎng)絡(luò)圖在R中的實(shí)現(xiàn)
一文看懂PCA主成分分析
往期精品(點(diǎn)擊圖片直達(dá)文字對應(yīng)教程)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的基因功能不确定?做一下单基因GSEA怎么样?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PCA主成分分析实战和可视化 | 附R代
- 下一篇: 你的数据也可以-三篇NAR的数据库