NAR再版 | 人类长非编码RNA知识库LncRNAWiki 2.0
LncRNA在哺乳動(dòng)物中大量轉(zhuǎn)錄,通過復(fù)雜多樣的分子機(jī)制在多種生物學(xué)過程發(fā)揮重要功能,與人類疾病的發(fā)生發(fā)展密切相關(guān)。近些年,lncRNA成為基因組學(xué)與生物信息學(xué)領(lǐng)域的研究熱點(diǎn),涌現(xiàn)出大量研究成果。然而,豐富的lncRNA知識(shí)分散在文獻(xiàn)中,使得獲取、整合、統(tǒng)計(jì)及解析這些信息變得費(fèi)時(shí)費(fèi)力。盡管目前已開發(fā)了一些lncRNA知識(shí)庫(kù),為深入研究lncRNA提供了支持,但多數(shù)知識(shí)庫(kù)專注于某一方面的注釋,如疾病、互作、生物學(xué)功能、臨床信息、亞細(xì)胞定位及發(fā)育過程。
為方便科研人員全方位深入研究lncRNA,國(guó)家基因組科學(xué)數(shù)據(jù)中心開發(fā)了更新版本的人類lncRNA知識(shí)庫(kù)LncRNAWiki 2.0。LncRNAWiki 2.0大幅提升了系統(tǒng)框架,結(jié)構(gòu)化展示了功能性lncRNA的10類共計(jì)41個(gè)主題的注釋信息(基本信息、保守性、分子特征、臨床關(guān)聯(lián)、靶基因、調(diào)控因子、實(shí)驗(yàn)樣本、生物學(xué)功能、CRISPR實(shí)驗(yàn)以及文獻(xiàn)),并支持注冊(cè)用戶基于標(biāo)準(zhǔn)化的審編模型在線提交/編輯/更新lncRNA相關(guān)知識(shí)。
截至2021年10月,LncRNAWiki 2.0共收錄2,512個(gè)經(jīng)實(shí)驗(yàn)研究的人類lncRNA的106,242條知識(shí)關(guān)聯(lián)信息,所有相關(guān)知識(shí)在Browse頁(yè)面均可一鍵免費(fèi)下載。此外,還開發(fā)了多種在線工具,用于lncRNA ID轉(zhuǎn)換、序列比對(duì)和功能預(yù)測(cè),助力發(fā)掘新的lncRNA功能。
該知識(shí)庫(kù)以“LncRNAWiki 2.0: a knowledgebase of human long non-coding RNAs with enhanced curation model and database system”為題在國(guó)際學(xué)術(shù)期刊Nucleic Acids Research 在線發(fā)表(知識(shí)庫(kù)網(wǎng)址為:https://ngdc.cncb.ac.cn/lncrnawiki/)。
圖1 LncRNAWiki 2.0首頁(yè)截圖
知識(shí)庫(kù)核心功能及操作演示
1.LncRNA知識(shí)瀏覽及下載
目前,LncRNAWiki 2.0共包含2,512個(gè)lncRNA的106,242條知識(shí)關(guān)聯(lián)信息(疾病:13,395條;功能:12,650條;藥物:1,065條;互作:4,093條;分子標(biāo)記:18,840條;實(shí)驗(yàn)樣本:49,691條;CRISPR:587條)。為提供全面的lncRNA知識(shí)注釋信息,LncRNAWiki 2.0整合了文獻(xiàn)及16個(gè)專業(yè)數(shù)據(jù)庫(kù)中的相關(guān)知識(shí),并通過五個(gè)關(guān)鍵步驟實(shí)現(xiàn)標(biāo)準(zhǔn)化整合并確保注釋內(nèi)容的質(zhì)量:(1)基于HGNC數(shù)據(jù)庫(kù)中的symbol-alias信息統(tǒng)一庫(kù)中l(wèi)ncRNA的名稱;(2)標(biāo)準(zhǔn)化重要名詞的寫法(疾病、組織/細(xì)胞系、實(shí)驗(yàn)方法等);(3)去除不可靠文章來源(如論文工廠)的注釋;(4)去除冗余及有歧義的注釋;(5)改正書寫錯(cuò)誤等內(nèi)容。
為方便用戶查詢及下載,Browse頁(yè)面提供了不同形式的過濾和展示(https://ngdc.cncb.ac.cn/lncrnawiki/browse/)。具體來說,用戶可以通過點(diǎn)擊頁(yè)面上常見的疾病、上游調(diào)控因子、下游靶向基因、生物學(xué)過程、通路以及功能機(jī)制名稱來查詢對(duì)應(yīng)的注釋信息(圖2),也可以在下方的搜索框中輸入感興趣的內(nèi)容來檢索對(duì)應(yīng)的注釋條目,圖3-4是以TUG1為例展示的部分注釋結(jié)果。全部注釋信息或過濾篩選后的結(jié)果均可通過點(diǎn)擊“Download”按鈕,一鍵下載獲取。
圖2 Browse頁(yè)面展示的特色注釋條目
圖3 Browse頁(yè)面過濾篩選功能
圖4 Browse頁(yè)面TUG1部分注釋結(jié)果
2.單基因頁(yè)面瀏覽
用戶可通過訪問單基因頁(yè)面全面了解某一個(gè)lncRNA的全部注釋信息(可通過在主頁(yè)面的搜素框內(nèi)輸入基因名字進(jìn)行訪問,也可通過點(diǎn)擊Browse頁(yè)面中l(wèi)ncRNA名稱鏈接跳轉(zhuǎn)到單基因頁(yè)面)。以TUG1為例,在單基因頁(yè)面中可以看到該基因的詳細(xì)注釋條目及統(tǒng)計(jì)信息(https://ngdc.cncb.ac.cn/lncrnawiki/lncrna?symbol=TUG1)。用戶在瀏覽頁(yè)面過程中,可通過點(diǎn)擊表格旁邊的“CSV”或“Copy”按鈕來下載感興趣的內(nèi)容。
單基因頁(yè)面提供了錯(cuò)誤報(bào)告功能,若用戶發(fā)現(xiàn)錯(cuò)誤(任何用戶,無需注冊(cè)),可以通過點(diǎn)擊對(duì)應(yīng)位置的“Report”按鈕對(duì)錯(cuò)誤進(jìn)行描述,并提交正確的內(nèi)容及聯(lián)系方式。經(jīng)過審核后,錯(cuò)誤的內(nèi)容便會(huì)被修改。
3.在線工具
為豐富lncRNA的功能注釋,基于審編得到的lncRNA與上游調(diào)控因子、下游靶向基因的互作關(guān)系,以及與之共表達(dá)的mRNA,LncRNAWiki 2.0開發(fā)了lncRNA功能預(yù)測(cè)工具(https://ngdc.cncb.ac.cn/lncrnawiki/tool)。主要是從生物學(xué)過程、分子功能、細(xì)胞組分以及通路角度對(duì)lncRNA的功能進(jìn)行預(yù)測(cè),用戶可以下載預(yù)測(cè)的結(jié)果圖以及對(duì)應(yīng)表格。例如,對(duì)TUG1的預(yù)測(cè)顯示,除了已被證實(shí)的相關(guān)生物學(xué)功能,其可能在RNA剪切等方面發(fā)揮作用(圖5,藍(lán)色標(biāo)記的是已有文獻(xiàn)報(bào)道的功能條目)。
圖5 TUG1生物學(xué)功能預(yù)測(cè)
另外,LncRNAWiki 2.0還提供了ID轉(zhuǎn)換(LncRNA Symbol在LncExpDB、GENCODE、LNCipedia、NONCODE、BIGtranscriptome、CHESS、RefLnc、MiTranscriptome和FANTOM等數(shù)據(jù)庫(kù)間的轉(zhuǎn)換)以及BLAST序列比對(duì)等功能。
4.文獻(xiàn)檢索
LncRNAWiki 2.0共收錄7703篇相關(guān)文獻(xiàn)(https://ngdc.cncb.ac.cn/lncrnawiki/publication/)。在文獻(xiàn)頁(yè)面,用戶可以看到每篇文章報(bào)道的lncRNA名稱、引用次數(shù)、發(fā)表期刊以及時(shí)間等(圖6)。用戶可以在搜索框中輸入感興趣的lncRNA的名稱來查詢對(duì)應(yīng)的文獻(xiàn),基于引用次數(shù)等排序?yàn)g覽。
圖6 Publication頁(yè)面
5.在線審編
為方便lncRNA知識(shí)注釋并規(guī)范審編流程,LncRNAWiki 2.0提供在線審編功能。用戶可通過點(diǎn)擊主頁(yè)上的“Submit”按鈕,注冊(cè)個(gè)人信息并進(jìn)入審編頁(yè)面,對(duì)分子特征、臨床關(guān)聯(lián)、靶基因、調(diào)控因子、實(shí)驗(yàn)樣本、生物學(xué)功能、CRISPR實(shí)驗(yàn)、文獻(xiàn)等內(nèi)容進(jìn)行系統(tǒng)性審編。每一個(gè)主題提示框均有對(duì)應(yīng)的受控詞表提示詞,用戶可根據(jù)提示進(jìn)行在線審編,需要注意的是,PMID以及l(fā)ncRNA的Symbol信息為必填項(xiàng)(圖7-8)。
圖7 提交頁(yè)面
圖8 審編頁(yè)面
北京基因組所(國(guó)家生物信息中心)特別研究助理劉琳,博士研究生李昭和碩士研究生劉暢為本文共同第一作者,馬利娜副研究員與章張研究員為共同通訊作者。該研究得到了中科院戰(zhàn)略性先導(dǎo)科技專項(xiàng)、國(guó)家重點(diǎn)研發(fā)計(jì)劃、中科院青促會(huì)等項(xiàng)目資助。
也想做這樣的數(shù)據(jù)庫(kù):生物大數(shù)據(jù)時(shí)代,如何做好數(shù)據(jù)管理和再利用,發(fā)IF10+的數(shù)據(jù)庫(kù)文章?
參考文獻(xiàn)
1.LncRNAWiki 2.0: community annotation of long non-coding RNAs with enhanced curation model and web system. Nucleic Acids Res 2021. Doi: 10.1093/nar/gkab998. [PMID=34751395]
2.LncRNAWiki: harnessing community knowledge in collaborative curation of human long non-coding RNAs. Nucleic Acids Res 2015. Doi: 10.1093/nar/gku1167. [PMID=25399417]
往期精品(點(diǎn)擊圖片直達(dá)文字對(duì)應(yīng)教程)
機(jī)器學(xué)習(xí)
后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集
總結(jié)
以上是生活随笔為你收集整理的NAR再版 | 人类长非编码RNA知识库LncRNAWiki 2.0的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AlphaFold2开源了,不是土豪也不
- 下一篇: 【转】理解小波消失矩