Nat. Commun.| 机器学习对可突变的治疗性抗体的亲和力和特异性进行共同优化
這次為大家分享的是來自nature communications上的一篇題為《Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space》的文章,來自密歇根大學生物界面研究所、生物醫學工程系、化學工程系項目組的Peter M.Tessier團隊。
治療性抗體的開發需要高親和力分子的選擇以及其他類藥物的生物物理特性,多種抗體特性的聯合優化仍然是一個困難和耗時的過程,嚴重阻礙藥物開發。在這篇文章中,作者團隊提出了開發了一種簡便的機器學習模型,對治療性抗體的親和力和特異性進行多目標優化。結果表明,機器學習模型的力量極大地擴展了對新型抗體序列空間的探索,并加速了高效的藥物類抗體的開發。
介紹
抗體療法被用于治療人類疾病,從癌癥和自身免疫性疾病到過敏和神經退行性疾病。抗體療法的成功歸功于它們的分子特性,包括它們的高親和力、長半衰期和出色的生物物理特性。然而,從免疫接種或體外文庫中選出的候選抗體通常具有廣泛的生物物理特性。在許多情況下,具有最高生物活性的候選抗體表現出一種或多種阻礙生產、配制和遞送的不良生物物理特性,這通常是在開發過程的后期發現的,并且可能會損害其他候選抗體的治療潛力。因此,在開發的早期階段,需要抗體工程方法來改善其生物物理特性,同時保持高親和力和生物活性。不幸的是,改善給定的次優抗體特性,如特異性或溶解度,會導致其他特性(如親和力)的缺陷。因此,迫切需要一種簡單而可靠的方法來預測CDR突變,以最少的實驗來共同優化抗體親和力和各種生物物理特性。
作者團隊在該項工作中,以共同優化臨床階段抗體(emibetuzumab)的親和力和特異性(非特異性結合)特征開發預測模型,該模型可以從大量但采樣稀疏的抗體CDR庫中學習,并預測未在原始庫中采樣的新CDR突變體的抗體特性,以識別罕見的共同優化變體。作者團隊報告了一種綜合實驗和計算方法,結合深度測序、機器學習和高通量實驗方法來識別共同優化的治療性抗體變體,包括相對于親本臨床期抗體具有優越親和力和非特異性結合組合的變體。
圖1識別共同優化的治療性抗體變體實驗流程
結果與討論
常規分析不能很好地預測共同優化的 emibetuzumab 變體
為了識別具有高親和力和特異性(低非特異性結合)的emibetuzumab 變體目標,通過突變重鏈 CDR 中的位點設計了一個大型抗體文庫(約 107 個變體),接下來將文庫作為單鏈 Fab 片段展示在酵母表面,并通過針對抗原 (HGFR) 的磁激活細胞分選(MACS,第 1-2 輪)對文庫進行分類,以去除片段化或非展示抗體。然后通過熒光激活細胞分選(FACS,第 3 輪)對 MACS 分選的文庫進行分選,以獲得高水平的抗原結合以及與兩種多特異性試劑。最后,對輸入文庫和 FACS 分類文庫進行了深度測序,并選擇了 4000 個在親和力和特異性選擇中觀察到的最常觀察到的抗體突變體,以進行進一步分析。
為了評估預測具有高親和力和低水平非特異性結合的抗體突變體的能力,接下來對來自 FACS 分選文庫的 125 個突變體進行了測序,并評估了它們在酵母表面上的抗原和非特異性結合的相對水平。觀察到抗原結合和頻率之間缺乏統計學上顯著的正相關性。此外,作者還觀察到對于負非特異性結合選擇,非特異性結合和頻率之間缺乏統計學上顯著的負相關性。雖然我們確實觀察到非特異性結合和富集率之間存在顯著的負相關,但缺乏相應的親和力顯著相關性阻礙了使用富集率來可靠地識別高親和力和特異性均最佳的抗體變體。
機器學習預測帕累托最優抗體變體
接下來,作者團隊通過分析陽性類別中相對于陰性類別的文庫突變的富集來評估選擇的 4000 個序列數據集中包含的信息(圖 2),注意到野生型殘基對高親和力和高非特異性結合選擇的強烈富集。
圖2 分選的 emibetuzumab 文庫中的 CDR 殘基富集水平與高親和力和高非特異性結合選擇相似
為了保留這些信息用于模型開發,作者團隊選擇將抗體 V H序列編碼為 one-hot 編碼向量,以捕獲庫中每個位點是否存在突變。假設學習這些單個特征權重的體系結構的分類算法不僅可以準確預測屬性類別,還可以準確預測連續屬性值。為了檢驗這一假設,評估了線性判別分析 (LDA) 模型預測抗體親和力和特異性的能力(圖 3)。
圖3 ?(AB) (LDA) 模型使用基于序列的特征(one-hot 編碼序列作為二元向量)進行訓練,顯示出對通過深度測序在富集文庫中鑒定的 4000 種抗體的抗體親和力和特異性進行分類的高精度。(CD) LDA 模型的連續預測,與隨機選擇的 125 種單鏈抗體 (Fabs)的相對親和力( C )和非特異性結合( D )的實驗測量密切相關。
因此,作者使用 one-hot 編碼特征訓練 LDA 模型以預測深度測序標簽,本文稱為 OneHot 模型。OneHot 模型對深度測序數據集中抗體突變體的親和力和特異性進行了非常好的分類,兩個模型(親和力和特異性各一個)對抗體親和力和特異性進行分類的準確率為 93%。這一發現與經驗一致,并表明基于深度測序數據對抗體特性(如親和力和特異性)進行分類是一項相對簡單的任務,并且弱依賴于用于預測的模型類型。
然而,特性類別的預測對于鑒定具有最佳特性組合的抗體突變體的作用有限。但是對于LDA預測,表明不僅可用于預測類間差異(例如,低親和力與高親和力的分類),還可用于預測類內差異(例如,高親和力與非常高親和力)。因此,作者團隊還評估了模型預測的能力,文庫分選后通過 Sanger 測序分離(圖 3C,D)。這些抗體突變體中沒有一個出現在用于訓練和測試的 4000 種抗體中。作者觀察到模型預測和實驗測量之間的強相關性,包括親和力和非特異性指標,這些結果表明,與每個屬性相關的連續指標可以以相對較高的準確度預測庫中的序列。
LDA 模型的簡單性引發了一個問題,即更復雜的機器學習模型是否會提高預測抗體親和力和特異性指標的性能。因此,作者團隊開發了全連接神經網絡模型來預測親和力和特異性指標。值得注意的是,神經網絡模型的表現與 LDA 模型相似。兩種模型的親和力和特異性的分類預測準確度相同,即基于深度測序數據的抗體特性分類準確度弱依賴于模型復雜性。對于連續抗體特性的預測,預測抗原結合的性能相同,并且神經網絡模型預測非特異性結合的性能略有提高。
作者團隊接下來繪制了 LDA 模型對 4000 個抗體序列中的每一個的親和力和特異性的預測,以在連續的尺度上直接可視化這兩個屬性之間的權衡(圖 4A)。值得注意的是,emibetuzumab 變體在兩種特性之間表現出強烈的權衡,因為親和力的增加通常需要特異性的降低,反之亦然。
圖4 分選抗體庫中 emibetuzumab 突變體的帕累托最優親和力和特異性的模型預測和實驗評估。
為了評估帕累托最優抗體變體的預測,團隊接下來鑒定并產生了 41 個抗體突變體,這些突變體被預測為處于或接近帕累托邊界(圖 4A),并通過實驗評估了它們的抗原水平(圖 4B)和非特異性 (圖 4C) 結合,結果表明模型預測對親和力和特異性具有很強的預測能力。
預測進一步共同優化抗體的新突變
作者確定了用于進一步優化的主要候選者 (EM1),該候選者表現出抗原結合增加(1.2倍)和非特異性結合減少(0.51倍)。作者還選擇了額外的克隆進行進一步的誘變,以研究優化具有多種特性的抗體突變體的潛力,試圖預測新的 CDR 突變,包括以前未突變的 CDR 位點,以提高 EM1 和相關變體的親和力和特異性。
因此,作者團隊評估了基于抗體VH結構域的另外兩組分子特征,以整合到預測新突變對抗體親和力和特異性的影響的模型中。第一組特征是統一表示 (UniRep) 特征,它是從神經網絡獲得的深度學習特征,該神經網絡在超過 2000 萬個未標記的蛋白質序列上進行訓練,以執行下一個氨基酸預測。第二組特征(PhysChem),稱之為物理化學特征,是基于 V H結構域序列的 26 個物理化學特征。
作者團隊接下來使用 UniRep 和 PhysChem 特征構建 LDA 模型,用于預測抗體親和力和特異性指標。結果表明對抗體親和力進行分類的準確度很高,PhysChem 模型(85%), UniRep 模型(91%),抗體特異性進行分類的準確度很高(兩種模型均為 92%);同樣還在兩個模型上評估預測,結果表明模型預測與親和力和特異性的實驗測量密切相關。我們還使用神經網絡模型重復了這一分析,簡單 (LDA) 和更復雜的 (神經網絡) 模型都能夠預測與抗體特性密切相關的連續指標。基于兩個簡單 (OneHot) 特征集,這些特征集僅限于觀察到的突變,而測序庫和更復雜的(PhysChem 和 UniRep)特征集,可用于預測新的突變特征。受到這些結果的鼓舞,接下來直接測試我們的模型是否可以推廣到新的突變空間(圖 5)。
新突變預測的實驗驗證
為了測試這些預測,生成了 29 種抗體變體作為可溶性 IgG,并評估了它們的親和力和非特異性結合的相對水平(圖 5),總體而言,這些發現表明,與使用傳統物理化學抗體特征訓練的 LDA 模型相比,使用深度學習特征訓練的 LDA 模型在泛化到新的突變空間方面更勝一籌。更一般地說,這些發現證明了使用這些方法預測新 CDR 位點的抗體突變的巨大潛力,這些突變共同優化了與治療性抗體性能相關的多種特性。
圖5 利用深度學習訓練的模型推廣到新的突變空間
接下來繪制了本研究中產生的 70 種 IgG 的相對抗體親和力和非特異性相互結合的實驗測量值,包括原始文庫中不存在的 29 種具有新突變的 IgG,以鑒定具有最多共性的變體。
EM1和 EM2(一種變體)具有比野生型更高的親和力(圖 6B)。盡管這些變體的親和力增加,但與野生型相比,它們都顯示出非特異性結合減少(圖 6C),這與使用卵清蛋白獲得的類似非特異性結合測量結果一致(圖 6A ),此外,EM1 和 EM2 在抑制肝細胞生長因子誘導的人類癌細胞增殖方面至少與野生型抗體一樣有效(圖 6D)總的來說,這些結果證明了使用機器學習來共同優化治療性抗體以提高親和力和特異性,同時保持高生物活性和其他類似藥物的生物物理特性的巨大潛力。
圖6 親和性和特異性協同優化的Emibetuzumab抗體突變體也顯示出很高的生物活性和穩定性
總結
作者團隊開發了一種基于機器學習的方法,用于簡化臨床階段抗體的抗體協同優化,模型表現出親和力和非特異性結合兩個特征之間具有強烈權衡,該方法還可以同時選擇特定水平的多種抗體特性,從而比以前更好地控制抗體工程過程。并且本文使用深度學習訓練的模型能夠預測新的抗體突變,從而協同優化親和性和特異性,還能夠識別原始抗體庫中不存在的有益突變,從而能夠外推到新的突變空間。未來工作如過從更密切相關的蛋白質序列(例如人類抗體庫)中提取深度學習特征將會帶來更好的模型性能,這些模型可以越來越多地推廣到新的突變空間,并減少獲得共同優化的藥物樣抗體所需的實驗量。
參考資料
Makowski, E.K., Kinnunen, P.C., Huang, J. et al. "Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space." Nat Commun 13, 3788 (2022).?
https://doi.org/10.1038/s41467-022-31457-3
總結
以上是生活随笔為你收集整理的Nat. Commun.| 机器学习对可突变的治疗性抗体的亲和力和特异性进行共同优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言程序警告不能打开文件,Win10安
- 下一篇: c语言教材课后习题答案,C语言课后习题答