databasemetadata获取表注释_宏基因组测序中短序列的注释
宏基因組中短序列的注釋是理解測序微生物群落潛在功能的重要步驟之一。單純利用局部匹配的注釋容易混淆那些蛋白同源性且局部序列非常相似的序列,進(jìn)而不能真實(shí)準(zhǔn)確反映復(fù)雜蛋白質(zhì)家族中多變的結(jié)構(gòu)和功能域。
今天我們介紹一種新方法MetaGeneHunt,該方法可以識別特定的蛋白質(zhì)結(jié)構(gòu)域,并根據(jù)結(jié)構(gòu)域的長度對hit-counts進(jìn)行標(biāo)準(zhǔn)化。使用MetaGeneHunt對MG-RAST對公開獲取的宏基因組進(jìn)行分析,包括哺乳動(dòng)物微生物群和Twin Gut腸道菌群研究,以評估短序列中含GH蛋白的頻率和位于GH區(qū)域的匹配頻率。
在對糖苷水解酶(GHs)的研究,發(fā)現(xiàn)在所有樣本中4726,023條含有GH區(qū)域蛋白匹配的短讀序列中,有58.3%的序列位于目標(biāo)區(qū)域之外。接下來,在比較樣本之前,將匹配到目標(biāo)區(qū)域的hit-counts標(biāo)準(zhǔn)化,以說明對應(yīng)的域長度。腸道和盲腸中的菌群顯示出與不同微生物組合相匹配的GH譜特征。
相反,胃和結(jié)腸的菌群在結(jié)構(gòu)和功能上顯示出更多樣性和多變性。在樣本中,盡管有波動(dòng),但碳水化合物處理的潛在功能變化與群落組成的變化相關(guān)。這表示,在利用MG-RAST平臺處理宏基因組測序序列時(shí),MetaGeneHunt是一種能快速準(zhǔn)確地識別短序列宏基因組中離散蛋白結(jié)構(gòu)域的新方法。
在過去的幾十年里,宏基因組DNA的高通量測序已經(jīng)產(chǎn)生了大量的序列,這些序列的特征為我們了解微生物群落的結(jié)構(gòu)和功能提供了許多認(rèn)知。例如,截至2019年12月,MG-RAST托管了約40萬個(gè)可公開訪問的帶注釋的數(shù)據(jù)集。在數(shù)據(jù)處理過程中,不考慮目標(biāo)區(qū)域(或蛋白質(zhì))的長度會導(dǎo)致兩個(gè)主要的系統(tǒng)偏差。
首先,目標(biāo)區(qū)域越長,他們的頻率就越容易被高估。其次,如果數(shù)據(jù)處理涉及稀疏性,較短的、不太豐富的域,盡管重要,也可能被丟棄。為了解決這些問題,研究人員設(shè)計(jì)了MetaGeneHunt來精確注釋從MG-RAST檢索到的短序列宏基因組中的蛋白質(zhì)結(jié)構(gòu)域。MetaGeneHunt將MG-RAST提供的短序列局部比對與M5nr數(shù)據(jù)庫中精確的基于PFam的蛋白質(zhì)結(jié)構(gòu)域識別相結(jié)合,以在公共可訪問數(shù)據(jù)集中識別蛋白質(zhì)結(jié)構(gòu)域。
方 法
MetaGeneHunt簡要說明:
MetaGeneHunt的設(shè)計(jì)基于MG-RAST平臺注釋的數(shù)據(jù)集的。在使用GeneHunt創(chuàng)建的M5nr數(shù)據(jù)庫中,MetaGeneHunt使用了糖苷水解酶和輔助結(jié)構(gòu)域(如CBMs)的精確的特定結(jié)構(gòu)域注釋(PFam)作為參考注釋表(RAT)。
首先,MetaGeneHunt使用MG-RAST應(yīng)用程序接口從MG-RAST(“330”和“650”文件)檢索M5nr注釋的宏基因組。接下來,使用來自RAT的注釋命中的MD5id,在文件“650”中識別與潛在的GHs匹配的序列。
接下來,對于這些局部匹配,將精確對齊位置與RAT中特定于域的注釋進(jìn)行比較。如果查詢中的>20AAs與特定的蛋白質(zhì)結(jié)構(gòu)域(考慮到RAT中的HMM-envelope位置)對齊,則該結(jié)構(gòu)域注釋被轉(zhuǎn)移到查詢中。
相反,如果查詢的>20AAs匹配在目標(biāo)區(qū)域之外(例如,在連接域、輔助域、信號肽中),則該注釋被認(rèn)為是否定的。用戶可以隨意修改重疊(overlapping)的閾值。接下來,從序列聚集文件( “330”文件)中檢索每個(gè)識別出的命中的實(shí)際序列計(jì)數(shù)。最后,在后續(xù)的數(shù)據(jù)處理和標(biāo)準(zhǔn)化過程中,根據(jù)Pfam數(shù)據(jù)庫中蛋白質(zhì)結(jié)構(gòu)域的大小,對每個(gè)蛋白質(zhì)結(jié)構(gòu)域的命中計(jì)數(shù)進(jìn)行標(biāo)準(zhǔn)化。
方法驗(yàn)證:
文中使用的原始數(shù)據(jù)和預(yù)處理數(shù)據(jù)可在MG-RAST服務(wù)器上公開訪問。在mgp20861項(xiàng)目中可獲得對應(yīng)于?555百萬個(gè)100 bp序列的小鼠微生物組數(shù)據(jù)。使用MG-RAST API 檢索了哺乳動(dòng)物微生物組數(shù)據(jù)(mgp116)和雙腸腸道菌群研究(mgp10)其他數(shù)據(jù)集。哺乳動(dòng)物微生物組研究糖苷水解酶(GHs)和相關(guān)酶的附加注釋表是從Brian Muegge(直接對應(yīng))獲得的。使用MG-RAST API檢索了預(yù)處理的數(shù)據(jù),包括從門到屬水平的讀物分類注釋。數(shù)據(jù)分析和統(tǒng)計(jì)使用R統(tǒng)計(jì)語言。
主 要 結(jié) 果
1. 糖苷水解酶的識別,識別蛋白質(zhì)結(jié)構(gòu)域并考慮其長度產(chǎn)生了一個(gè)健壯的功能注釋系統(tǒng),對hit-count的標(biāo)準(zhǔn)化反應(yīng)了目標(biāo)區(qū)域的實(shí)際分布。
a).橫軸為目標(biāo)區(qū)域的原始hit-count,縱軸為標(biāo)準(zhǔn)化后的hit-count,圖中的顏色階梯表示目標(biāo)區(qū)域的長度。這種標(biāo)準(zhǔn)化主要影響長度短的域(例如,GH78、GH25)、小的亞域(例如,GH31N、GH36C)和目標(biāo)區(qū)域的附屬域(例如,CMB5_12)。
b).小鼠胃腸道中目標(biāo)區(qū)域的標(biāo)準(zhǔn)化后的hit-count(僅顯示大于100的hit-count的區(qū)域),可見,標(biāo)準(zhǔn)化后的hit-count與結(jié)構(gòu)域長度無關(guān)(附加文件中有對兩者做相關(guān)分析,結(jié)果分別為P.pearson=0.38,P.spearman=0.33)
c).熱圖顯示了小鼠胃腸道中最受樣本來源影響的被稀疏標(biāo)準(zhǔn)化的GH區(qū)域的分布(two-way方差分析)。縱軸的注釋列Mx:F/M:S/I/C/L分別表示小鼠(樣本號):雌性/雄性:胃/腸/盲腸/結(jié)腸
2. 小鼠腸道菌群的結(jié)構(gòu),與盲腸中的微生物群落相比,結(jié)腸與腸道中的微生物群落結(jié)構(gòu)更相似,結(jié)腸和胃中的微生物群落有較高的相似性。
a).對受樣本來源影響較大的樣本根據(jù)屬水平進(jìn)行樣本聚類(Bray-Curtis距離指數(shù),complete linkage)。
b).樣本間的微生物群落組成,只展示了相對豐度至少占群落中1%的屬水平物種(V:疣微菌門,B:擬桿菌門,A:放線菌門,F:厚壁菌門)。
c).NMDS分析(2D stress=0.020),展示了在樣本聚類中都存在的這些菌屬,在b)中的主要類群用標(biāo)簽指示,不同門水平按顏色區(qū)分,點(diǎn)的大小反映該屬在樣本中的最大頻率。
微生物組中的結(jié)構(gòu)-功能關(guān)系,多樣性仍然與潛在功能高度相關(guān)。胃和盲腸的群落在結(jié)構(gòu)和功能上是最多樣化的。其次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落相關(guān)的大腸則顯示出可變功能潛力。
對同一位置的樣本的微生物群落結(jié)構(gòu)和功能差異進(jìn)行成對比較(Bray-Curtis),線條為線性回歸的結(jié)果。在胃,腸,盲腸和結(jié)腸中,屬水平群落結(jié)構(gòu)的變化與多糖解構(gòu)功能的相關(guān)性分析結(jié)果表示除大腸外,其余的P.pearson的值都在0.001以下。胃和盲腸的群落在結(jié)構(gòu)和功能上是最多樣化的,盡管多樣性仍然與功能潛力高度相關(guān)。其次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落相關(guān)的大腸則顯示出可變的功能潛力。
結(jié) 論
MetaGeneHune提供了一種新的方法來識別短序列宏基因組中的GHs及其相關(guān)結(jié)構(gòu)域。識別結(jié)構(gòu)域而不是蛋白質(zhì)是至關(guān)重要的,因?yàn)镚H結(jié)構(gòu)域與許多可變結(jié)構(gòu)域相關(guān)。這種新方法基于GeneHunt注釋方法,并對其進(jìn)行補(bǔ)充,旨在分析MG-RAST中的短序列宏基因組。因此,它不需要大型計(jì)算機(jī)基礎(chǔ)設(shè)施。
通過這種新方法對小鼠胃腸道菌群的GHs研究發(fā)現(xiàn),在胃中,雖然富含碳水化合物處理的酶,但相對于胃腸道的其他部分,胃中沒有特定酶可供選擇;在腸道中,出現(xiàn)了更保守的菌群,最為富集的是擬桿菌門,它們的潛在功能主要在多糖處理上;來自結(jié)腸和胃的菌群雖然是距離最遠(yuǎn)的,但在結(jié)構(gòu)和功能上卻表現(xiàn)出高度的相似性。
研究人員認(rèn)為在未來,利用GeneHunt和MetaGeneHunt相結(jié)合創(chuàng)建新的專用參考注釋表將為研究宏基因組的潛在功能提供新的更有效的途徑。
MetaGeneHunt和GH的RAT可在GitHub上公開訪問。(https://github.com/renober/MetaGeneHunt)
參 考 文 獻(xiàn)
Berlemont R, Winans N, Talamantes D, Dang H, Tsai HW.MetaGeneHunt for protein domain annotation in short-read metagenomes. Sci Rep.2020 May 7;10(1):7712. doi: 10.1038/s41598-020-63775-1. PMID: 32382098; PMCID:PMC7205989.
Muegge BD, et al. Diet drives convergence in gut microbiomefunctions across mammalian phylogeny and within humans. Science.2011;332:970–4. doi: 10.1126/science.1198719
Turnbaugh PJ, et al. A core gut microbiome in obese and leantwins. Nature. 2009;457:480–484. doi: 10.1038/nature07540.
Berlemont R, Martiny AC. Glycoside Hydrolases acrossEnvironmental Microbial Communities. PLOS Comput. Biol. 2016;12:e1005300. doi:10.1371/journal.pcbi.1005300.
Lozupone CA, Stombaugh JI, Gordon JI, Jansson JK, Knight R. Diversity,stability and resilience of the human gut microbiota. Nature. 2012;489:220–30.doi: 10.1038/nature11550.
Sharpton TJ. An introduction to the analysis of shotgunmetagenomic data. Front. Plant Sci. 2014;5:209. doi: 10.3389/fpls.2014.00209.
相關(guān)閱讀:
谷禾健康:多快好省的宏基因組研究技巧 — 資深專家分享?zhuanlan.zhihu.com谷禾健康:如何讀懂和利用你的微生物多樣性測序結(jié)果??zhuanlan.zhihu.com谷禾健康:宏基因組的一些坑和解決方案?zhuanlan.zhihu.com谷禾健康:最新研究 《CELL》縱向多組學(xué)揭示腸易激綜合征(IBS)的潛在機(jī)制?zhuanlan.zhihu.com谷禾健康官網(wǎng):
谷禾健康 - 讓你我更健康?www.guhejk.com谷禾健康 是谷禾面向健康領(lǐng)域的品牌,通過無創(chuàng)采集微量糞便樣品,常溫快遞運(yùn)輸至谷禾檢測中心,經(jīng)全自動(dòng)化樣品處理和提取后大規(guī)模高通量測序獲取菌群基因數(shù)據(jù)并進(jìn)行分析解讀,憑借全球領(lǐng)先的樣本積累和業(yè)界獨(dú)有的人工智能算法實(shí)現(xiàn)了基于腸道菌群的疾病預(yù)測和系統(tǒng)健康風(fēng)險(xiǎn)評估, 以及腸道菌群,病原物感染,重金屬污染以及營養(yǎng)物質(zhì)和激素代謝水平等在內(nèi)的綜合健康風(fēng)險(xiǎn)提示,并提供精準(zhǔn)個(gè)性化的健康管理方案。公司成立于2012年,總部位于杭州,擁有優(yōu)秀的研發(fā)團(tuán)隊(duì)和獨(dú)立實(shí)驗(yàn)室,經(jīng)過多年的積累,已完成超7萬例臨床腸道菌群樣本檢測,并構(gòu)建了超過25萬各類人群樣本數(shù)據(jù)庫。
谷禾健康的服務(wù)旨在通過持續(xù)不斷的研發(fā)和改進(jìn),大量自動(dòng)化提升效率,降低檢測成本,為廣大消費(fèi)者提供更好更有價(jià)值的產(chǎn)品。
聯(lián)系方式:400-161-1580
總結(jié)
以上是生活随笔為你收集整理的databasemetadata获取表注释_宏基因组测序中短序列的注释的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vc2010中开始执行不调试灰的_消防水
- 下一篇: 怎么判断是不是欧拉回路_儿科医生分享:宝