整合基因组学和蛋白质结构的致病机制分析
在單基因疾病研究中,對致病突變的發現和論證是最核心的工作。一般而言,大部分的文章僅僅局限于“樣本-測序-信息分析-致病突變發現”之模式。相對于這種以樣本和測序為核心的工作,“樣本-測序-信息分析-致病突變發現-整合公共數據庫挖掘突變和表型關系”的模式則在一定程度上可以增加文章的廣度和深度。本文以The Deciphering Developmental Disorders (DDD) study發表的三篇文章為例,來論述整合群體變異位點和蛋白結構分析來增加對致病變異特征的理解這一分析思路。
整合群體變異和蛋白結構分析來提高對WD40結構域上的錯義突變致病性解釋[1]:
結果簡介:
1)作者在6個DDD 患者的TBL1XR1基因上發現了6個de novo mutation,其中5個錯義突變,一個1bp的移碼插入突變,經過生信分析(如人群頻率、危害性預測、保守性分析等)判斷這些突變為疑似致病突變;
2)隨后,作者在ExAC、dbSNP等數據庫發現了64個群體變異位點,因為這些位點的人群頻率相對較高,因此認為這些變異為中性變異位點。進一步,將突變映射到TBL1XR1編碼的蛋白結構上,發現6個de novo mutations和33個population missense variants均位于WD40結構域上;
3)對WD40結構域進行解讀發現該結構域為TBL1XR1的重要功能域;
4)對新發現的幾個突變進行具體分析,包括保守性分析、蛋白結構上的氫鍵分析(H-bonds),表明突變位于保守性區域(圖1);且點突變會對氫鍵互作造成影響(圖2);
5)突變位置分析:以WD40結構域的β-折疊為軸線從top到bottom 面(即文中的z-軸),表明致病相關的氨基酸呈現聚集現象,富集于top binding face,與中性變異呈現出明顯的不同,差異分析也表明二者有顯著差異(P = 9E-5)(圖3)。一些基于危害性預測的結果也表明二者有類似的顯著差異關系。
圖1:新發突變的序列物種保守性分析,A)為PROSITE sequence logo圖,B)為多序列比對圖?
圖2:突變的局部氫鍵網絡圖分析??
圖3:TBLR1的WD40結構域所有突變的Z-軸位置(以4lg9.pdb為例來計算);A)x軸表示氨基酸序號,y軸表示在氨基酸Z-axis上的分布位置,其中有害突變為紅色,中性為綠色,其余為藍色;B)不同種類的氨基酸在蛋白結構上的分布;C)z-軸位置的箱線圖分布(注:Z-axis表示在PDB文件中每個氨基酸骨架的carbonyl carbon三維坐標的z 值,z值相近的氨基酸在空間上也更近)
對發育類疾病患者DYRK1A基因致病突變蛋白結構分析[2]
對4293 個DDD study 的trios 家系分析發現19個 de novo mutations,其中14個為蛋白disrupting突變(包括 six frameshift, two splice-site, five stop-gained and a 20kb intragenic inversion),由于突變的位置在C端之前,因此會造成無功能的蛋白產物,剩余的5個為錯義突變,位于kinase domain上。作者對5個錯義突變的局部氫鍵同樣做了細致的分析(圖4)。類似的,作者也從公共數據庫中發現中性突變,將兩類突變映射到蛋白三維結構上,發現致病突變和中性突變的位置分布有顯著差異,即致病突變相對于中性突變在ATP、肽或者ATP+肽三方面的距離都不同且結果都具有顯著性(P=0.001,0.01和0.008)(圖5)。
圖4,5個錯義突變在DYRK1A的kinase domain 上的分布和局部氫鍵圖
圖5,DYRK1A上的致病和中性突變分析,A)中性和致病突變在結構域上的位置分布圖和頻率圖,B)3D蛋白結構分布圖,C)DYRK1A上突變位點和ATP、肽或者ATP+肽的最近距離的箱線圖
STXBP1致病突變和群體變異蛋白結構和表型分析研究[3]
該研究同樣來源于DDD study發現STXBP1基因上的de novo mutation,然后將將錯義突變和ExAC中的群體變異位點映射到蛋白結構上,發現二者在溶劑可及表面積、序列保守性、互作氨基酸的個數以及蛋白質穩定性變化等方面均存在差異(圖6)
圖6,致病變異和中性變異的比較? ?
總結
這三篇由同一機構發表,采用的思路是比較相近的。因此,基于一定數量的樣本,發現可疑的致病變異,再通過數據庫整合已報道的致病變異,中性變異,結合具體的生物學功能在蛋白三維結構上對兩類變異的差異進行分析,挖掘一些規律,不失為一種比較好的研究思路。
作者:毛勇
參考文獻:
Laskowski R A, Tyagi N, Johnson D, et al. Integrating population variation and protein structural analysis to improve clinical interpretation of missense variation: application to the WD40 domain[J]. Human molecular genetics, 2016, 25(5): 927-935.
Evers J M G, Laskowski R A, Bertolli M, et al. Structural analysis of pathogenic mutations in the DYRK1A gene in patients with developmental disorders[J]. Human molecular genetics, 2017, 26(3): 519-526.
Suri M, Evers J M G, Laskowski R A, et al. Protein structure and phenotypic analysis of pathogenic and population missense variants in STXBP 1[J]. Molecular genetics & genomic medicine, 2017, 5(5): 495-507.
你可能還想看
Seq logo 在線繪制工具——Weblogo
R包ggseqlogo 繪制seq logo圖?
來一場蛋白和小分子的風花雪月
R語言學習 - 箱線圖(小提琴圖、抖動圖、區域散點圖)
可視化之為什么要使用箱線圖?
?
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的整合基因组学和蛋白质结构的致病机制分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 没钱买KEGG怎么办?REACTOME开
- 下一篇: 机器学习算法-随机森林初探(1)