Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质
在過去幾年中,深度學習技術徹底改變了蛋白質結構預測。而現在,人工智能又在蛋白質設計領域引發了新一輪革命。計算生物學家發現,使用深度學習,可以在幾秒鐘內創建出全新蛋白質分子。而在以前,這個過程也許需要幾個月。并且,新方法準確率也更高。
9月15日,華盛頓大學醫學院David Baker的研究團隊在Science上連發兩篇論文,介紹了他們在蛋白質設計領域的最新進展。
?
也許你會問:創造出自然界中沒有的蛋白質,對我們有什么意義?
簡單的說,通過這些蛋白質,也許我們會開發出更多疫苗,加快治療癌癥的研究,研發出碳捕獲工具,和全新的可持續生物材料。
蛋白質設計的一般方法
這幾年,已經有幾十種人工智能蛋白質設計工具被開發了出來,研究人員可以混合和匹配各種方法來得出一個可行的最終設計。總體來講,不外乎四種方法:
-
固定骨架設計:給定一個預設蛋白質結構,然后用Al確定該蛋白質的氨基酸序列。
-
序列生成: 利用語言模型,讓AI學會如何生成蛋白質。然后通過微調這些神經網絡,得到特定蛋白質家族成員的新序列。
-
結構生成:對蛋白質結構進行訓練的神經網絡可以生成完全新穎的蛋白質結構,但往往對輸出的控制有限。
-
序列和結構設計:使用一種叫做inpainting的方法,研究人員輸入他們希望包含在蛋白質中的結構或序列,而Al網絡則填補其余部分。
?
?
在這兩篇新論文中,華盛頓大學醫學院的生物學家表示,機器學習可用于比以前更準確、更快速地創建蛋白質分子。
David Baker是華盛頓大學醫學院生物化學教授、2021年生命科學突破獎獲得者。
據他介紹:「蛋白質是整個生物學的基礎,但是要知道,現在我們在每種植物、動物和微生物中發現的所有蛋白質,都還不到所有可能的蛋白質的百分之一。有了這些新的軟件工具,研究人員也許就能夠找到長期的解決方案,去攻克醫學、能源和技術上的難題。」
在自然界中,蛋白質被稱為「生命的基石」,因為它們在所有生物的結構中都是必不可少的。在一個細胞生長、分裂、修復的每一個過程中,幾乎都有蛋白質的參與。
可以說,蛋白質基本解決了生命的所有問題,生物學中的一切都發生在蛋白質上。
Baker介紹說:「為了解決生物體在進化過程中面臨的問題,它們在進化中不斷演變。人類今天在面臨著新的問題,比如新冠病毒。如果我們能設計出一種新的蛋白質,讓它像在進化過程中演變出的蛋白質一樣,解決種種問題,那它的力量將是非常強大的。」
蛋白質由數十萬個氨基酸組成,這些氨基酸以長鏈的形式連接起來。蛋白質中的氨基酸序列決定了它的三維形狀。這種復雜的形狀對于蛋白質的功能至關重要。
在2020年,人工智能實驗室DeepMind宣布AlphaFold時,就已經讓全世界大吃一驚了。這個AI工具利用深度學習,解決了生物學的一個大挑戰:準確預測蛋白質的形狀。而今年夏天,DeepMind宣布,AlphaFold現在可以預測科學上已知的所有蛋白質的形狀。
通過預測蛋白質的結構,就可以洞察它們的表現。
在蛋白質預測領域,科學家已經取得了舉世矚目的驚人成績。而在蛋白質設計領域, Baker的團隊也取得了突破性進展。
要知道,按照一般的傳統,研究人員設計蛋白質時,是通過調整自然界中已知的蛋白質。但是ProteinMPNN的出現,可以讓研究人員從頭設計所有可能的蛋白質,這就打開了一個新世界。
ProteinMPNN幫助研究人員解決了逆向的問題——如果他們心中已經有了一個確切的蛋白質結構,它就能幫助他們找到能折疊成這個形狀的氨基酸序列。ProteinMPNN使用的的是一個在很多折疊成三維結構的氨基酸序列中訓練出來的神經網絡。
ProteinMPNN: 基于AI的蛋白設計新算法
Baker的團隊將蛋白質設計的挑戰分解為三個部分,并且針對每個部分,都設計了特定的軟件方案。
第一部分
首先,必須生成新的蛋白質形狀。在 7 月 21 日發表在《科學》雜志上的一篇論文中,該團隊表明人工智能可以通過兩種方式生成新的蛋白質形狀。
第一種被稱為「幻想」(hallucination),類似于DALL-E或其他基于簡單提示產生輸出的生成AI工具。
通過「幻想」,用戶可以在所有可能的蛋白質序列中進行隨機搜索,并傾向于具有特定功能的序列。它使探索所有可能的蛋白質結構空間成為可能,這要歸功于機器學習對龐大數據集的處理能力。
Baker對此解釋道:「自然界中的蛋白質,只是采樣很小的一部分,因此,如果你把搜索限制在自然界已經存在的那些序列上,你就不會有任何收獲。」
使用「幻想」生成的對稱環
第二種被稱為「修復」(inpainting),類似于文字處理器中的自動完成功能,不過它針對的是蛋白質的結構和序列。
這種方法從功能位點開始填充額外的序列和結構,通過經過專門訓練的RoseTTAFold網絡在單次正向傳遞中創建可行的蛋白質支架。
用這兩種方法,可以設計包含功能位點的候選免疫原、受體陷阱、酶活性位點等。
?
第二部分
其次,為了加快這一過程,Bakery團隊設計了一種生成氨基酸序列的新算法。
在9月15日的Science上,他們介紹了這個名為ProteinMPNN的軟件工具,它的運行時間大約為一秒。比起以前最好的軟件,ProteinMPNN要快200多倍!
ProteinMPNN算法
?
ProteinMPNN不僅速度快,它的結果還優于以前的工具,并且不需要專家定制就可以運行。
「 如果你有大量數據,神經網絡是很容易訓練的,但是對于蛋白質,我們并沒有那么多例子。我們必須深入其中,確定這些分子中哪些特征是最重要的。你需要反復試錯。」蛋白質設計研究所的博后研究員Justas Dauparas說。
第三部分
在第三部分,該團隊使用了由DeepMind開發的工具AlphaFold,來獨立評估他們提出的氨基酸序列是否可以折疊成預期的形狀。
「預測蛋白質結構的軟件是解決方案的一部分,但它本身無法提出任何新東西。」Dauparas解釋說。
「ProteinMPNN之于蛋白質設計,就像AlphaFold之于蛋白質結構預測。」Baker補充道。
在9月15日發表在Science上的另一篇論文中,Baker實驗室的一個團隊證實,使用新機器學習工具的組合,我們能夠可靠地生成新的蛋白質,這些新蛋白質會在實驗室中發揮作用。
「我們發現,使用ProteinMPNN制造的蛋白質更有可能按預期折疊,我們可以使用這些方法制造非常復雜的蛋白質組裝體。」蛋白質設計研究所的博后研究員Basile Wicky說。
蛋白質設計的意義
利用這些新方法,研究人員創造出了一種在自然界中沒有見過的全新蛋白質,比如一個巨大的納米環。
Baker的團隊正在試驗,看這些環狀結構是否可以用作定制納米機械的部件。在電子顯微鏡下,這些環的直徑大約比罌粟種子小十億倍。或許在未來,這些納米機器可以被用來疏通動脈。
使用機器學習來設計蛋白質,會讓整個過程更快、更容易,并且讓研究人員在更大的范圍內創造出全新的蛋白質結構。這些軟件比以前最好的工具還要快上200多倍,并且只需要最小的用戶輸入,這將大大降低蛋白質設計的門檻。
「這些研究正在改變整個生物分子結構預測和設計領域。」約翰霍普金斯大學化學和生物分子工程教授,同時也是Baker的前博士后,Jeffrey Gray說。「在理解生物學、健康和疾病上,以及設計新的分子減少人類自殺上,影響都是巨大的。」
Gray說,他的實驗室正在將自己開發的深度學習工具與Baker團隊的工具結合起來,以更好地了解免疫系統和免疫相關的疾病,并使用AI來設計治療方法。
「AlphaFold通過解決蛋白質結構預測問題,將生物學帶入了一個新時代,并展示了AI在生物學中發揮的革命性作用」。DeepMind的AI for Science團隊負責人Pushmeet Kohli說。「ProteinMPNN是這種范式轉變的另一個證明,從此我們可以為特定任務設計蛋白質」。
「這僅僅是機器學習在蛋白質設計中的一個開始。在接下來的幾個月里,我們會努力改進這些工具,爭取創造出更具動態性和功能性的蛋白質。」Baker說。
現在,ProteinMPNN可以在GitHub上免費使用了,研究人員可以用它創作出無限的新設計。
最后,Baker說:「現在,最有挑戰性的地方在于……你要設計什么?」
作為復雜的大分子,蛋白質結構相關研究難度頗高。而人工智能的出場,可以大大提升蛋白質結構相關研究的效率,為生命科學領域的科學家們幫上大忙。幾年前推出的“阿爾法折疊”,可以利用人工智能預測蛋白質的結構,曾一度震動生命科學界。如今,這項最新研究可以利用人工智能設計全新的蛋白質,更進一步彰顯了人工智能在生命科學領域的巨大潛能。
?
總結
以上是生活随笔為你收集整理的Science | 华盛顿大学Baker实验室提出新方法设计全新蛋白质的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ThingsBoard接入阿里ALink
- 下一篇: JS实现24点游戏