GPB | 陈润生/何顺民团队发布新版SmProt数据库,提供小蛋白丰富、可靠的系统性注释...
小蛋白是翻譯自小開放閱讀框(small open reading frame, sORF)、長度低于100個氨基酸的蛋白質,在此前的基因組注釋中通常被忽略。sORF廣泛存在于人類等多種生物的基因組中,包括mRNA的非翻譯區(untranslated regions, UTR)以及多種非編碼RNA (non-coding RNA, ncRNA)區域,部分能夠翻譯成小蛋白。近年來,越來越多的研究發現小蛋白在胚胎發育、細胞凋亡、肌肉收縮等多種生物學過程中行使功能,并在腫瘤等疾病進展中發揮作用。
由于序列較短和研究技術的限制,小蛋白在此前的基因組注釋中通常被忽略。此外,雖然基因組中有豐富的sORF,但經過充分研究的小蛋白數量非常有限,其遺傳學功能與角色仍存在著許多未知。因此,我們亟需對小蛋白進行系統的挖掘與注釋,以促進對非編碼RNA和基因組的全面了解,并為各種生理和病理過程的研究提供參考。
為此,中國科學院生物物理研究所陳潤生院士團隊和何順民研究員團隊合作在國際學術期刊Genomics, Proteomics & Bioinformatics在線發表了題為“SmProt: A Reliable Repository with Comprehensive Annotation of Small Proteins Identified from Ribosome Profiling”的文章(圖1),介紹了該團隊關于新版小蛋白數據庫SmProt(http://bigdata.ibp.ac.cn/SmProt/)(圖2)的工作,旨在提供關于小蛋白豐富、可靠的系統性注釋。?
圖1.?文章發表于Genomics, Proteomics & Bioinformatics。?
圖2. SmProt數據庫。來源:Genomics, Proteomics & Bioinformatics
SmProt基于對419套公共核糖體圖譜測序(ribosome profiling, Ribo-seq)數據的嚴格質控與重新分析,對已發表文獻、數據庫的信息挖掘,鑒定了來自人(Homo sapiens)、小鼠(Mus musculus)、大鼠(Rattus norvegicus)、果蠅(Drosophila melanogaster)、線蟲 (Caenorhabditis elegans)、酵母(Saccharomyces cerevisiae)、斑馬魚(Danio rerio)、大腸桿菌(Escherichia coli)8個物種300余種組織/細胞系的3,165,229條小蛋白翻譯事件記錄,并收集了從人類微生物組中鑒定的小蛋白家族。通過對各種來源信息的交叉整合以及對結果的合并去冗余,獲得了638,958個唯一的小蛋白,包括大量由UTR、非編碼RNA編碼的小蛋白(圖3)。??
圖3. SmProt中的小蛋白統計數據。來源:Genomics, Proteomics & Bioinformatics
SmProt主要基于肽?;稽c(peptidyl-tRNA site, P-site)偏移譜的三堿基周期性特征保證所鑒定小蛋白翻譯事件的可靠性:
首先,研究團隊基于獨立發布的工具Ribo-TISH構建了新的翻譯事件解析系統,允許使用常規Ribo-seq(regular Ribo-seq, rRibo-seq)和翻譯起始測序(translation initiation sequencing, TI-seq)準確檢測ORF和TIS。其使用秩和檢驗檢測三堿基周期性,使用負二項分布檢驗檢測翻譯起始位點(translation initiation site, TIS),預測精度優于其他已建立的方法。
其次,除了基于Ribo-TISH quality模塊的質量控制外,對所有數據集進行人工校驗,以確保Ribo-seq數據具有清晰的三堿基周期性和明確的P-site偏移量,進一步消除噪聲。
第三,提供多水平的支持證據,包括 (1)多個Ribo-seq數據集鑒定結果的P value,代表不同樣本和處理條件下檢測小蛋白的置信度;(2)相應基因組區域的PhyloCSF分值,反映其編碼能力;(3)來自質譜數據的肽段證據。另外,基于文獻數據庫挖掘的小蛋白也與以上分析結果進行交叉整合,以互相驗證。
同一物種中,從不同數據集和轉錄本鑒定出的相同基因組定位的sORF,被認為是相同的小蛋白,對其進行合并但保留不同數據集和轉錄本來源的信息。對于所鑒定的小蛋白,SmProt還進行了系統全面的注釋,包括基本注釋(圖4)與功能性注釋(圖5):
1.SmProt整合多種來源的小蛋白信息,提供基本注釋包括物種來源、組織/細胞系來源、數據來源、基因來源、長度、序列、基因組定位、起始密碼子、編碼基因區塊、基因組區域編碼能力、分子量,提供小蛋白的Ribo-seq分析信息、文獻數據庫收集信息、質譜檢測肽段信息,并基于Ribo-seq數據提供其基因注釋、翻譯起始注釋、顯著性水平、翻譯水平等信息。
2.基于蛋白序列分析,提供小蛋白功能域與蛋白家族注釋,為功能性小蛋白的鑒定與研究提供參考依據。
3.基于翻譯起始位點選擇,提供小蛋白的不同亞型注釋。
4.參考RNA-seq數據計算表達量RPKM?(Reads Per Kilobase per Million mapped reads)的方式,基于Ribo-seq數據對每個sORF的閱讀框內reads(in-frame reads)進行計數,并基于文庫測序深度(樣本in-frame reads總數)和sORF長度進行歸一化,以代表sORF的翻譯水平。
5.SmProt基于人類Ribo-seq數據鑒定了小蛋白編碼序列上2萬多個變異,及其對小蛋白的影響。有研究表明,上游ORF(upstream ORF, uORF)可通過泄漏掃描、重新啟動和核糖體停滯等機制來調節下游 CDS的翻譯。為促進對基因組調控機制的全面了解,SmProt集成多個全基因組測序(whole genome sequencing, WGS)項目資源,評估了人類全基因組變異對可能翻譯的uORF及其下游蛋白編碼序列(coding sequence, CDS)的影響。
6.進一步地,基于人類的Ribo-seq數據來源樣本的表型信息,SmProt鑒定了包括腫瘤在內16種疾病中特異性存在的小蛋白及小蛋白上的變異,并基于已發表文獻收錄了已知的疾病相關小蛋白,為臨床醫學提供基于小蛋白視角的研究前景。
圖4. 基于多種數據來源的小蛋白基本注釋。?來源:Genomics, Proteomics & Bioinformatics
圖5. 小蛋白的功能性注釋。來源:Genomics, Proteomics & Bioinformatics
綜上,SmProt對多個物種中小蛋白編碼基因進行了系統性鑒定,進一步豐富了基因組注釋,并通過全新的和多種來源、級別的翻譯證據,確保結果的可靠性。當前SmProt版本提供了更加豐富全面的注釋信息和功能模塊,數據量、數據質量極大提升,并為非編碼RNA研究、功能基因組學研究以及臨床研究提供了新的參考。
中國科學院生物物理研究所的何順民研究員、張鵬副研究員、陳潤生院士為該文共同通訊作者,中國科學院大學的李燕燕、中國科學院生物物理研究所的周紅紅與陳曉敏為該文并列第一作者。該研究得到了國家重點研發計劃、國家自然科學基金、中國科學院戰略性先導科技專項(B類)、中國科學院信息化專項、科技部科技基礎資源調查專項、國家基因組科學數據中心的支持。?
參考資料:
Yanyan Li, Honghong Zhou, Xiaomin Chen, Yu Zheng, Quan Kang, Di Hao, et al. SmProt: A Reliable Repository with Comprehensive Annotation of Small Proteins Identified from Ribosome Profiling. Genomics Proteomics?Bioinformatics?2021. ?https://doi.org/10.1016/j.gpb.2021.09.002.?
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的GPB | 陈润生/何顺民团队发布新版SmProt数据库,提供小蛋白丰富、可靠的系统性注释...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 监督学习 | 集成学习 之Bagging
- 下一篇: 基于VTK User Guide和VTK