遗传突变 | 正常与突变蛋白三维结构模型的绘制与分析
利用全外顯子或全基因組測序進行遺傳變異分析時,可發現大量的突變位點。這些突變位點在使用SIFT、PolyPhen-2或CADD批量地預測對蛋白的有害性后,一般需要進行下游更高級的分析,例如突變蛋白的具體功能影響、結構的預測和比較。
變異的有害性、致病性和ACMG分類
有幾點容易混淆的地方,在此明確一下:
(1)變異的有害性。SIFT、PolyPhen-2和CADD等軟件或算法屬于生物信息學計算預測程序或硅基分析工具(Silico?Tools),用于評估序列變異對蛋白質功能的影響(functional effect),返回的結果是定性的(雖然也有打分),類似于:無害(Tolerated/Benign)、有毒、可能有害或很可能有害(Deleterious、Possibly damaging、Possibly damaging)(具體見:外顯子和基因組基本概念(二))。
(2)變異的致病性。上述軟件的預測結果,與ACMG(美國醫學遺傳學與基因組學學會,American College of Medical Genetics and Genomics)給出的變異致病性指南中的分類術語(包括良性、可能良性、意義不明確、可能致病、致病:Benign、?Likely Benign、uncertain significance、Likely Pathogenic、Pathogenic),是兩個完全不同的分類系統。ACMG是序列變異臨床解讀的標準和指南,涵蓋除了生信程序預測外,更多其它因素與證據(如下圖),包括:人群變異頻率,Case-Control突變頻率的差異、果蠅反向遺傳篩選等基因功能研究(鏈接)、家系表型-基因型的共分離和新發變異等。
http://acmg.cbgc.org.cn/doku.php?id=start
SIFT、PolyPhen-2和CADD等生物信息學計算預測程序極大地幫助了對潛在致病位點的篩選,利于獲得候選基因。但上述軟件(即使是多個)預測的結果被ACMG視為單一證據,需結合其它證據給出更具體的致病性分類,推進臨床應用。
(3)ACMG分類 vs 致病機制。并不是所有的研究或Paper都必須給出ACMG指導下的變異致病性分類。很多文章不涉及ACMG分類,例如下文截圖的一篇文章,以及之前我們公眾號推薦的一篇文章:基因突變與腦癱發生風險(文獻解讀,Nature Genetic,2020),這些文章雖不涉及ACMG致病性分類,但會深入研究變異可能的致病機制,例如:預測和驗證突變對蛋白磷酸化、親水性、GTP結合位點、表面電荷和三維結構的具體影響,以發現和證明某些候選變異的致病原理。
文獻中的相關方法與軟件
1)關于SIFT、PolyPhen-2和CADD等生物信息學計算預測的研究方法,可參考下面這篇文章的描述:
Possible functional effect of the rare?variants?using in silico prediction tools.
2)上述程序只預測了變異的有害性,是定性的“影響”(Tolerated/Benign、Deleterious、Possibly?damaging、Possibly?damaging),研究更具體的問題(例如蛋白磷酸化、親水性、GTP結合位點、表面電荷和三維結構的改變)需要使用其它軟件:
Potential effects of missense variations on protein sequence or structure.
PLOS Genetics | https://doi.org/10.1371/journal.pgen.1007394 July 12, 2018
上述常用軟件匯總如下:
NetPhos:預測突變對蛋白磷酸化位點的影響;
DictyOGlyc:預測突變對蛋白糖基化位點的影響;
SMART:預測蛋白有哪些結構域;
PSIPRED(紐普生物有在線工具):預測蛋白二級機構,如α-螺旋、β折疊;
SWISS-MODEL/Phyre2/AlphaFold:從頭預測野生及突變蛋白三維結構(模型);
PyMOL/Chimera/POLYVIEW-2D:蛋白模型的可視化、結構比較。
分析時輸入野生與突變的氨基酸序列或PDB文件。
PDB文件:PDB即protein data bank,一般把蛋白質的三維結構信息用pdb文件保存(后綴為.pdb),信息包括:作者,參考文獻,結構(二硫鍵、螺旋、片層、活性位點等)說明;每一行信息稱為一個記錄(record),類型包括:標題、一級結構、雜因子、二級結構、連接注釋、晶胞特征及坐標變換、原子坐標、連接信息、簿記。
下圖PDB文件中,Residue表示氨基酸殘基;Chain的A表示α螺旋,三維坐標系用于呈現三維結構。
PDB File Format - E-Learning@VIB
PyMOL軟件:py代表python,即主要由python編譯的開源軟件(可運行于Windows系統,可含命令行);mol代表molecule,主要用于(大)分子結構可視化軟件,可展示發表級的靜態或動態分子結構圖,可自定義顏色、風格、突出顯示、電子密度、表面靜電、在原PDB文件上自定義突變、兩個蛋白的結構對比。PyMOL官方資料:https://pymolwiki.org/index.php/。
更下游的高級工具,如分子對接:主要研究分子間相互作用,并預測其結合模式和親合力的一種理論模擬方法。例如:突變對蛋白復合物結構的影響;通過受體的特征以及受體和藥物分子之間的相互作用方式來進行藥物設計,涉及分子之間的空間匹配和能量匹配。此后再談,相關內容見:分子對接教程
蛋白質結構和功能的相關背景知識
依據功能的大致分類
Structure | Collagen in tendons and ligaments, Keratin in the nails and skin |
Transport | Hemoglobin in the blood, Na+,K+-ATPase in cell membranes |
Protection | Antibodies of the immune system |
Movement | Actin and Myosin in muscles |
Enzymes | Digestive enzymes in the small intestine (Lactase, Sucrase, Trypsin) |
Receptors | Membrane proteins that respond to chemical messengers (insulin receptors) |
Regulation | Chemical messengers: hormones, neurotransmitters, cytokines |
https://content.byui.edu/file/a236934c-3c60-4fe9-90aa-d343b3e3a640/1/module3/readings/proteins.html
氨基酸殘基的標準IUB/IUPAC縮寫
單字母 | 三字母 | 中文 | 單字母 | 三字母 | 中文 | 單字母 | 三字母 | 中文 | ||
A | Ala | 丙氨酸 | I | Ile | 異亮氨酸 | R | Arg | 精氨酸 | ||
C | Cys | 半胱氨酸 | K | Lys | 賴氨酸 | S | Ser | 絲氨酸 | ||
D | Asp | 天門冬氨酸 | L | Leu | 亮氨酸 | T | Thr | 蘇氨酸 | ||
E | Glu | 谷氨酸 | M | Met | 蛋氨酸 | V | Val | 纈氨酸 | ||
F | Phe | 苯丙氨酸 | N | Asn | 天門冬酰胺 | W | Trp | 色氨酸 | ||
G | Gly | 甘氨酸 | P | Pro | 脯氨酸 | Y | Tyr | 酪氨酸 | ||
H | His | 組氨酸 | Q | Gln | 谷氨酰胺 | X | Unk | 未指定或未知氨基酸 |
注意:單字母不一定是三字母的首字母
蛋白質二級結構(secondary structure of protein)
多肽主鏈骨架原子沿一定的軸盤旋或折疊而形成的特定的構象,不涉及氨基酸殘基側鏈。主要形式包括α-螺旋、β-折疊、β-轉角和無規卷曲,維持此些結構的主要作用力為氫鍵。
http://quizlet.com/13611888/ct-macromolecules-part-1-flash-cards
蛋白質三級結構(protein tertiary structure)
在二級結構的基礎上進一步盤繞,折疊形成,主要是靠氨基酸側鏈之間的疏水相互作用,氫鍵,范德華力和靜電作用維持。
https://content.byui.edu/file/a236934c-3c60-4fe9-90aa-d343b3e3a640/1/module3/readings/proteins.html
蛋白結構性狀的兩大類:球性和纖維狀
??
球狀蛋白非常脆弱,可以通過加熱、有機溶劑或強離子溶液等方式失活(變性);纖維蛋白幫助形成骨骼、軟骨、肌腱(將肌肉固定在骨骼上)、韌帶(將骨骼固定在其他骨骼上)和我們內臟器官周圍的囊。
PyMOL的蛋白靜電勢圖?vs?泊松-玻耳茲曼靜電圖
部分文獻,例如基因突變與腦癱發生風險(文獻解讀,Nature Genetic,2020),使用的是泊松-玻耳茲曼靜電圖:Poisson–Boltzmann electrostatic maps。但PyMOL默認使用的所謂蛋白接觸電勢圖:(Vacuum Electrostatics)Protein contact potential (local)。二者有什么區別與聯系?
以下內容來自PyMOL官方文檔(https://pymolwiki.org/index.php/Protein_contact_potential)的解釋:
蛋白質接觸電位(Protein contact potential)可在PyMOL中自動表示,即在蛋白質上顯示虛擬的(false)紅/藍電荷光滑表面。如下圖(上):
PyMOL Charge-smoothed potential
APBS-generated potential
關于PyMOL內部“蛋白質接觸電勢”的經驗法則(rule of thumb)是,如果關心它的工作原理,那么應該使用真正的泊松-玻耳茲曼靜電解算器(Possion-Boltzman electrostatics solver),如APBS。
不管怎樣,PyMOL生成定性的靜電展示(a qualitative electrostatic representation)(軟件操作步驟:via action popup-->generate-->vacuum electrostatics-->...)所做的工作相當于使用準庫侖形卷積(quasi-Coulombic-shaped convolution)函數對(每個)小空間區域上的電荷進行平均。亦可稱為“電荷平滑”("charge smoothing")。
PyMOL使用“接觸”("contact")這個術語涉及的事實是,如果忽略溶劑篩選(solvent screening),只考慮附近的原子,則默認著色所顯示的電位近似于:蛋白質表面一個溶劑半徑上的一個點電荷所能感受到的電位。當查看泊松-玻爾茲曼計算結果時,這種處理方法也很有意義(在APBS插件的“可視化”選項卡中選擇“Color by?potential?on?sol. acc. surf.”,以獲得該效果),如下上圖(下)。
靜電可視化程序顯示分子表面上的電勢對我來說毫無意義,因為(1)我們采用了點電荷模型,這些點電荷模型僅被參數化,以近似計算位于原子中心的部分電荷之間的勢能,以及(2)分子表面位于空間區域,由于低介電內部和高介電外部(溶劑區域)之間的離散不連續性,PB計算中的偽影和噪聲最大。
以實例介紹蛋白結構相關軟件的使用
1. 首先從Biomart(Ensemble)下載基因、轉錄本(及長度)、與蛋白ID的各種轉換(很重要):
獲取:Gene name、Transcript stable ID、Protein stable ID、Transcript length (including UTRs and CDS)、PDB ID和UniProtKB Gene Name ID。
2. 進入:SWISS-MODEL官網:https://swissmodel.expasy.org/
搜索基因名,并尋找對應物種:
?
Biomart給出的ID對應關系:
3.?在PyMOL中可視化:
在PyMOL>處輸入代碼,回車:
bg_color white將α螺旋(h)改為紅色:
color red , ss h將β折疊(s)改為藍色:
color blue , ss s將無規則卷曲(小寫L)和其他結構(+以及一個雙引號)改為黃色:
color yellow , ss l+"注意:上述1-3步中,第二步可直接在AlphaFold(https://alphafold.ebi.ac.uk/)中下載PDB文件。一般人類的常見蛋白在AlphaFold中都能獲取全長!
接下來看一個經典的單一氨基酸取代后,導致疾病的案例:鐮狀細胞性貧血。該病是一種常染色體顯性遺傳血紅蛋白病,因β-肽鏈第6位氨基酸谷氨酸被纈氨酸所代替,構成鐮狀血紅蛋白,取代了正常血紅蛋白。突變基因為HBB基因。
該病臨床表現為慢性溶血性貧血、易感染和再發性疼痛危象引起慢性局部缺血從而導致器官組織損害。主要通過輸血、藥物治療等方法進行治療。純合子患者預后較差,雜合子患者預后相對較好。2018年5月11日,國家衛生健康委員會等5部門聯合制定了《第一批罕見病目錄》,鐮刀型細胞貧血病被收錄其中。(葛均波,徐永健,王辰.內科學(第九版):人民衛生出版社,2018)
該疾病更具體的介紹及其機制:
MalaCards based summary : Sickle Cell Anemia, also known as hemoglobin sc disease, is related to acute chest syndrome and deficiency anemia, and has symptoms including angina pectoris, abdominal pain and chest pain. An important gene associated with Sickle Cell Anemia is HBB (Hemoglobin Subunit Beta), and among its related pathways/superpathways are Glucose / Energy Metabolism and Interleukin-4 and 13 signaling. The drugs Amodiaquine and Proguanil have been mentioned in the context of this disorder. Affiliated tissues include Blood, bone marrow and endothelial, and related phenotypes are chronic hemolytic anemia and recurrent infections.
KEGG : 36 Sickle cell anaemia (SCA) is a recessive genetic disease caused by a single-point mutation in the beta globin gene in codon 6 (Glu6Val) that specifies one of the chains of haemoglobin. The disease is characterized by a chronic haemolytic anaemia with the sickle cells which show abnormal morphology due to the damage of the membrane skeletons and agglutinate under deoxygenated conditions.
Sickle Cell Anemia disease: Malacards - Research Articles, Drugs, Genes, Clinical Trials
球蛋白(Globulin protein,正常的血紅蛋白)允許轉運氧氣。而在鐮狀細胞貧血中,只有1個氨基酸被取代,即第6位氨基酸Glu轉位為Val(Glu6Val),血紅蛋白分子不能以同樣的方式形成,結晶成鐮狀細胞,如下圖:
HBB野生(PDB文件來自AlphaFold):
HBB突變(直接使用PyMOL(v 2.2.3)手動突變):
使用SWISS-MODEL從頭預測HBB野生蛋白的三維結構:
使用SWISS-MODEL從頭預測HBB突變蛋白的三維結構:
撰寫:宋紅衛? ?校對:葉明皓
關于人類遺傳學知識、文獻和數據分析技術,可關注和星標“聊生信、生信寶典”
總結
以上是生活随笔為你收集整理的遗传突变 | 正常与突变蛋白三维结构模型的绘制与分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 应用领域
- 下一篇: 小波阈值去噪原理及实现