论文解读:《XG‑ac4C:使用带有电子离子相互作用假电位的eXtreme梯度增强技术鉴定mRNA中的N4-乙酰胞苷(ac4C)》
論文解讀:《XG?ac4C: identification of N4?acetylcytidine(ac4C)in mRNA using eXtreme gradient boosting with electron?ion interaction pseudopotentials》
- 1.文章概括
- 2.介紹
- 3.方法
- 3.1 數據集
- 3.2 特征編碼
- 3.3 XGBoost分類器。
- 4.結果與討論
- 4.1 與其他機器學習分類器的比較
- 4.2 與現有方法的比較
- 4.3 功能重要性及其貢獻
- 4.4 構建服務器
- 5.結論
文章地址:https://www.nature.com/articles/s41598-020-77824-2
DOI: https://doi.org/10.1038/s41598-020-77824-2
數據集:http://rnanut.net/paces/dataset.zip
服務器:http://nsclbio.jbnu.ac.kr/tools/xgac4c/
1.文章概括
N4-乙酰胞苷(ac4C)是mRNA的轉錄后修飾,在mRNA穩定和調節中起主要作用。 ac4C修飾mRNA的工作機制仍不清楚,傳統的實驗室實驗既費時又昂貴。作者提出了一種基于極限梯度提升分類器的XG?ac4C機器學習模型,用于ac4C站點的識別。 XG?ac4C模型使用了ac4C位點中核苷酸的三核苷酸的電子離子相互作用假電位和電子離子相互作用假電位的組合。此外,使用Shapley加性解釋和局部可解釋的模型不可知性解釋來理解特征的重要性及其對最終預測結果的貢獻。獲得的結果表明,XG?ac4C優于現有的最新方法。更詳細地說,該模型在交叉驗證和獨立測試中分別將PRC提高了9.4%和9.6%。
2.介紹
已鑒定出160多種不同的RNA修飾。其中,N4-乙酰胞苷(ac4C)具有調節潛力。它發生在胞苷上,是真核mRNA中唯一的乙酰化修飾。 ac4C在調節mRNA翻譯和促進翻譯效率中的作用是由Arango等人建立的。對mRNA半衰期的分析表明,乙酰化水平與目標mRNA的穩定性呈正相關。同樣,當存在于胞苷3的擺動位點中時,ac4C增強翻譯。此外,ac4C與幾種人類疾病的進展,預后和發展相關。最近,Arango等人報道了NAT10乙酰轉移酶作為一種mRNA修飾參與N4-乙酰胞苷(ac4C)的催化作用。 ac4C的整個轉錄組圖譜揭示了編碼序列內的大量乙酰化區域。 NAT10突變會降低在映射的mRNA位置上對ac4C的檢測,并與目標mRNA的下調相關。因此,乙酰化殘基擴大了mRNA修飾的范圍,從而確立了ac4C在調節mRNA翻譯中的作用。
作者提出了基于極限梯度增強(XGboost)方法的計算模型,以識別mRNA中的ac4C修飾位點。利用三核苷酸的核苷酸化學性質(NCP),核苷酸密度(DN),Kmer,one-hot編碼,電子離子相互作用假電位(EIIP)和電子離子相互作用假電位(PseEIIP)表示基準中的mRNA序列數據集。采用了各種評估指標來評估XG-ac4C,即SN、SP、ACC 、MCC。此外,我們將5倍交叉驗證與評估指標一起應用,以評估XG-ac4C的POC和PRC。提出的模型構建了一個用戶友好的Web服務器,該服務器可從http://nsclbio.jbnu.ac.kr/tools/xgac4c/免費訪問。提出的模型XG-ac4C如下圖所示。
3.方法
3.1 數據集
從http://www.rnanut.net/paces/獲得,訓練集中有1160個陽性樣品,10855個陰性樣品,測試集中有469個陽性樣品,4343個陰性樣品。五倍交叉驗證:訓練數據集被分為五個部分,每個部分包含232個陽性樣本和2171個陰性樣本。將四部分用于訓練,將剩余的一部分用于測試,最終表現是所有五次結果的平均值。
3.2 特征編碼
one-hot編碼:輸入的RNA序列使用單發技術編碼,其中A由(1,0,0,0)編碼,T由(0,1,0,0)編碼,G由(0, 0,1,0),而C由(0,0,0,1)編碼。因此,基準數據集中的每個輸入序列都由長度為415×4 = 1660的矢量編碼。
核苷酸化學性質(Nucleotide chemical property, NCP):基于環結構,官能團和氫鍵,mRNA序列的核苷酸可分為三類。C和T具有單環結構,而A和G具有兩環結構。 A和C屬于氨基,而G和T屬于酮基。和A和T形成強氫鍵,而C和G形成弱氫鍵。根據這些化學性質的枚舉,每個mRNA序列均由3維向量(x,y,z)編碼,其中x,y和z如下所示:
其中xi,yi和zi表示位置i處核苷酸n的NCP值。因此,來自基準數據集的每個輸入序列都由長度為415×3 = 1245的矢量編碼。
核苷酸密度(Nucleotide density, ND):核苷酸密度提供有關核苷酸頻率的信息以及mRNA序列中的核苷酸位置信息。 ND已被用于各種研究中。核苷酸nj在位置j的ND di表示為:
其中Ni是從第一個位置到第i個位置的第i個前綴子序列的長度,l是序列長度。因此,來自基準數據集的每個輸入序列均由長度為415的矢量編碼。通常,我們將NCP與ND連接起來。因此,所得向量的維數為1245 + 415 = 1660。
K-mer: K-mer是指對長度為k的所有可能子序列的頻率進行計算。它已被用于解決各種問題。在本文中,作者使用k = 1、2和3,其中1-mer代表單核苷酸(SN),2-mer代表二核苷酸(DN),而3-mer代表三核苷酸(TN)。因此,來自基準數據集的每個輸入序列均由長度為4 + 16 + 64 = 84的向量編碼。
EIIP + PseEIIP:在EIIP中,mRNA序列的每個核苷酸均由與自由電子能量的分布相對應的數值編碼。 A=0.1260,C=0.1340,G=0.0806,T=0.1335。此外,通過獲取每個核苷酸的平均EIIP值,將偽EIIP(PseEIIP)應用于mRNA序列的三核苷酸。使用PseEIIP通過長度為64的載體將mRNA序列編碼為:
其中fxyz是第i個三核苷酸的歸一化頻率,EIIPxyz = EIIPx + EIIPy + EIIPz,x,y,z∈{A,C,G,T}。 PseEIIP特征向量的結果維為64.因此,基準數據集的每個輸入序列均由長度為415 + 64 = 479的向量編碼.415維向量代表輸入序列的EIIP值和64維向量表示輸入序列的PseEIIP值。
3.3 XGBoost分類器。
極限梯度提升(XGboost)是最可靠的機器學習分類器之一,已廣泛應用于生物信息學問題。它基于一個樹模型,該樹模型使用提升算法進行分類。為了降低模型的復雜性和控制過度擬合,將正則項添加到成本函數中。此外,XGboost算法支持并行計算功能,從而提高了計算速度。另一方面,它是一個高度靈活的系統,其中用戶可以自定義優化目標和評估標準。此外,XGboost可以輕松處理不平衡的數據集。因此,作者提出使用XGboost算法來解決與不平衡數據集相關的分類問題。應用了網格搜索方法來識別XGboost中的最佳超參數。最佳超參數值如表3所示。
4.結果與討論
4.1 與其他機器學習分類器的比較
4.2 與現有方法的比較
4.3 功能重要性及其貢獻
討論每個功能對模型結果的貢獻。為了理解每個功能的重要性和貢獻,我們采用了兩種技術:Shapley可加性解釋(SHAP)和局部可解釋模型不可知性解釋(LIME)。 SHAP利用本地解釋和博弈論,適合于機器學習模型的解釋。 XGboost分類器根據信息獲取,覆蓋范圍或權重,而SHAP值是一種局部精確的加法,表明大多數全局特征對于分類的重要性。圖4顯示了具有局部和全局EIIP和PseEIIP的訓練模型中最重要的20個最重要特征。較低的特征值顯示為藍色,而較高的特征值顯示為紅色。預測的ac4C位點與Gse的PseEIIP值的較高頻率密切相關,CGG,CGG,GGC和CCC是豐富的核苷酸。另一方面,在未富集的核苷酸位置N198和N216處EIIP的較低頻率與該序列為ac4C位點的較低預測概率相關。為了進一步了解這些特征對預測的影響,作者繪制了圖5a的正序和圖5b的負序的LIME輸出。 LIME提供了比SHAP更多的細節,因為它指定了允許給定特征發揮其影響力的一系列特征值。在圖5中,綠色條顯示支持ac4C站點分類的加權特征,而紅色條顯示支持非ac4C站點分類的加權特征。這些結果與SHAP結果一致。
4.4 構建服務器
建立了一個用戶友好且可免費訪問的Web服務器:http://nsclbio.jbnu.ac.kr/tools/xgac4c/
5.結論
準確鑒定mRNA的轉錄后修飾,例如乙酰胞嘧啶(ac4C),對于加深我們對各種生物學機制的理解至關重要。在這項工作中,作者開發了一種有效且強大的機器學習模型,該模型可以識別乙酰化的mRNA位點。此外,提出的模型利用EIIP功能來準確預測ac4C站點。所提出的模型XG-ac4C在交叉驗證和獨立測試方面均優于最新方法。此外,我們使用SHAP和LIME解釋器技術可視化了XG-ac4C中功能的重要性。最后,XG-ac4C模型可用于促進生物學研究的許多領域。因此,我們開發了一個可免費訪問的Web服務器。
總結
以上是生活随笔為你收集整理的论文解读:《XG‑ac4C:使用带有电子离子相互作用假电位的eXtreme梯度增强技术鉴定mRNA中的N4-乙酰胞苷(ac4C)》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 5G工业路由器
- 下一篇: 传《斗战神》美术创作婉拒暴雪挖角 中国游