Colibri 片段化学空间的兴起
2007 年,Reymond 等人發布了 GDB-11?數據庫,11 個重原子?2640 萬個分子。時隔兩年,再度發布的 GDB-13 數據庫,13 個重原子 9.7 億。2012 年,發布?GDB-17?數據庫,激增到?17?個重原子?1660?億!!
GDB 數據庫是人類朝超大規模數據庫進發的一個縮影。這種通過在邊界約束下枚舉出所有可能的有機分子,無疑人類探索化學空間的突出典范。
下圖是一些知名枚舉數據庫的示意圖。
指數級的增長!!!
——枚舉數據庫的問題——
360-CPU cluster,100 000??CPU hours?才枚舉生成了高達 1660 億規模的?GDB-17?數據庫。對于?1660 億如此大的規模,就算以 zip 形式儲存一維的 SMILES?格式,都需要大約 400 GB。做過虛擬篩選的人,應該很容易理解直接暴力對?1660 億枚舉數據庫進行虛擬篩選,意味著什么!
下圖是?NIH?研討會中展示的枚舉類數據庫的操作成本和時間,如相似性檢索、子結構檢索、三維構象生成、分子對接、結構疊合和儲存等等。
以?AstraZeneca?的實際項目為例,枚舉出百億級數據庫,一維的 Smiles 格式 400 CPUs 1.5天。三維構象生成,29000 CPUs 55 小時。儲存 20 TB。采用?FastROCS?進行三維相似性檢索,1330 M,50 GPUs 加載 23min,查詢 18 min。
和這種枚舉類數據庫相比,通過?infiniSee?檢索百億級片段化學空間,一臺普普通通的辦公電腦就可以完成,檢索時間最快幾秒鐘,生成 10W 個解決方案也大多都在 30 min以內。天然之別!!
隨后 2018年,AstraZeneca?對外公布完成內部 10 的 15 次方規模化學空間的構建。如今已經達到了 10 的 17 方。
可以預料,隨著枚舉數據庫的激增,成本的增加沒有盡頭,效率也是極為低下。所以枚舉類數據庫通常的解決方式是檢索部分數據庫,而非全部,從而大大降低成本!!
除了成本和效率,這種枚舉產生的虛擬數據庫的可合成性也是大問題,如果通過篩選拿到了系列化合物,但是無法直接購買、甚至難以合成或者無法合成,那這個化合物就沒有意義。
對于枚舉數據庫,常規做法是首先對化學空間進行均勻采樣,然后對采樣后的數據庫進行虛擬篩選等操作,找到合適的化學型后,再針對該化學型周圍的化學空間進行詳細采用,如此進行迭代,如化學空間加速藥物發現 @重復迭代。
很明顯,這種方式受采樣質量的影響,會漏掉很多有價值的數據,并非解決良策。能否高效率、短時間完整的遍歷化學空間?直接進行相似性檢索、虛擬篩選和子結構檢索?
——化學空間的崛起——
預料到枚舉數據庫的盡頭,大型制藥公司開始基于分子砌塊和化學反應構建片段化學空間。下圖是全球化學空間示意圖,有 BiosolveIT 標志的即為 Colibri 片段化學空間。?
片段化學空間和枚舉數據庫最大的區別就是枚舉類數據庫都是以完整的化合物儲存的,而片段化學空間只有分子砌塊和分子砌塊間的連接方式。所以超大規模枚舉類數據庫動則需要 PB 級別的儲存(千億),而片段化學空間一臺最普通辦公電腦就可以。
下方是片段組合的示意圖,在進行片段化學空間的檢索,如相似性檢索、子結構檢索和化學空間篩選時,分子砌塊通過對應的連接方式即時生成完整的化合物。效率遠遠超過枚舉類數據庫!!!!
枚舉類數據庫和片段化學空間都有各自的優點兒。對于化學空間,只要有明確驗證的化學反應和高質量高的分子砌塊,就可以構建高質量可合成的片段化學空間。
對于可合成性,以四大制藥公司的內部數據和 Merck 高達 10 的 20 次方的 MASSIVE 化學空間為例,合成率都在 80% 以上。Merck 內部數據表明在 12 個藥物發現項目中,可合成性均在 80?% 以上,構建化學空間后,項目推進快了兩倍,成本降低十倍!!而且內部分子砌塊保證高 IP。這!就是構建片段化學空間的魅力!
略微可惜隨著國外大型企業紛紛完成轉型,成功完成企業內部化學空間的構建。但是中國制藥企業還未有超大規模化學空間的報道。
商業可獲得化學空間有四家?Enamine、WuXi、ChemSpace 和 OTAVA。可喜的是,藥明康德構建了目前 80 億的 GalaXi?化學空間,也算開了中國的先河。在 infiniSee 中檢索 GalaXi,主觀效率最高。
——化學空間的解決方案——
由于片段化學空間中并非完整的化合物,所以所有的檢索方式都要重寫。就算是基本的相似性檢索、分子對接、子結構等等算法都需要重寫。不過效果確實迥異。
以下方幾個案例進行觀察:
▎1.? 相似性檢索 -?FTrees +?Tanimote
化學空間最開始引起?Pfizer 和?Boehringer Ingelheim?等大型制藥企業注意的就是相似性檢索。在 2008 年,Pfizer 第一次系統的證明了 FTrees 在發現新化學型中的潛力。
相似性檢索分為兩種:
一是發現結構極為的化合物(Close-by,Tanimoto)。
二是發現結構有一定的差異性,但是可能具有相似生活活性的化合物(distant,FTrees)。
下圖是 FTrees 示意圖,綠點表明查詢化合物,紅點為結果,可以發現化學相似度變化較大時,生物活性并為有太大的降低。而且這點活性的喪失在后期結構修改時,可以很容易的改善。
FTrees 檢索示意圖
通常為發現全新化學型,會將 FTrees 相似度設置在 0.9 附近,以期發現具備同樣相似生物活性,但是結構差異大的化合物。
目前,化學空間的檢索算法較少,藥企廣泛使用的是 FTrees,目前集成在 infiniSee 中,同時內置五大化學空間,商業可獲取的化學空間四個共 500 億,還有一個基于文獻和專利中的化合物和反應構建的 10 的 14 次方的化學空間,可以直接檢索。
infiniSee 檢索示意圖(可后臺回復任意文字聯系小編試用)
但是!!FTrees 雖然有助于骨架躍遷,發現全新的結構,但是該檢索形式是二維,假陽性較大,必須運用三維的方式進行后處理才可以得到合適的結果。
下圖是一個常見的工作流,通過 infiniSee 進行二維的檢索后,通過 ROCS 等進行三維形狀過濾、約束對接、聚類分析和可視化檢查。
下圖是輝瑞內部項目測試,在同樣的數據庫規模下,二維 FTrees 檢索和三維方法的結合,可以實現最優的富集。
鑒于 FTrees?短時間可以實現百億級以上化學空間的完整檢索,可以遠超于正常規模,理論富集率會更高。
基于相似性檢索的自動化藥物發現工作流可以參考:藥物發現三種強大的自動化工作流。
▎2.??化學空間對接/篩選?- Chemical Space Docking
化學空間對接的核心理論就是先對接分子砌塊,分子砌塊基于化學反應進一步生長,最后形成完整的化合物。這也是目前可以實現百億、萬億、兆億或更大規模虛擬篩選的唯一方式。
以 Genentech 在今年 DrugSpace2022 大會上的報道為例,以? ROCK1 為例進行化學化學對接的概念驗證(Chemical Space Docking)。
化學空間對接不僅可以輕松完成整個化學空間的探索,發現所有有可能的化學型。而且由于化學空間的特性,篩選出的化合物可以保證可合成性,藥企根據內部的分子砌塊,可高效的完成合成和后續檢測。
最后的結構也是顯而易見,選擇的 69 個化合物中,有 27 個有效的化合物(閾值設置為 20 微摩爾),命中率高達 40 %。
這個技術未來肯定是大規模普及,其中的震撼,真的是懂得人才懂!!
對于規模越大的數據庫,化學空間的魅力也就越大,下圖是計算資源隨著分子數據增加的二維圖,化學空間對接在計算資源的優勢顯而易見。
▎3.??片段生長 - FastGrow
化學空間對接是針對化學空間中的所有化合物,有時候如果基于片段進行藥物發現,確定初始片段片段后,可以直接基于初始片段進行后續生長。
以 AbbVie 的案例為例,360 萬的片段通過 FastGrow 需要多久?
AbbVie 的案例是以 PKC theta 為例,對于 FBDD 項目而言,拿到初始片段后,可以根據計算模擬篩選現有的片段庫,根據化學可衍生部位進行片段生長以得到可能有效的藥物。
具體可參考:艾伯維 | FastGrow 在類藥性化合物設計和合成中的應用。
可以發現完整遍歷 360 萬的片段庫,給出 1 萬個結果只需要 2h 20min,給出 10W 個結果只需要 3h 40min。注意這里是 360W 片段庫的完整遍歷。而常規對接需要多長時間?!
完成片段生長后,無需對接,直接通過 HYDE 計算親和力,然后進行過濾即可。
FastGrow 誕生前,原本需要幾周完成的工作量,如今幾個小時就可以輕松完成!!這對效率的提升不言而喻。
總結
以上是生活随笔為你收集整理的Colibri 片段化学空间的兴起的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MOS管相关知识
- 下一篇: CORS跨域以及Cookie跨域