将图卷积神经网络用于解码分子生成
?PaperWeekly 原創 ·?作者|張瑋瑋
學校|東北大學碩士
研究方向|腦電情緒識別
論文標題:
A Two-Step Graph Convolutional Decoder for Molecule Generation
論文鏈接:
https://arxiv.org/abs/1906.03412
引言
1.1 論文動機
藥物發現和材料科學的一個基本問題是設計具有優化化學性質的任意分子。由于分子本質上是組合在一起的,化學結構中的任何小擾動都可能導致所需分子性質的大變化。因此,這是一個極具挑戰性的數學和計算問題。
此外,隨著原子和鍵的組合排列數量的不斷增加,有效分子的空間也越來越大。目前,大多數藥物都是經過化學和藥理學專家多年的反復試驗而制作的。最近機器學習和深度學習的進展開辟了一個新的研究方向,有望學習這些分子空間來優化分子生成,減少實驗流程。
1.2 論文工作
論文提出了一個分子生成自動編碼器框架。分子圖首先被編碼成一個連續的潛在表示 ,然后再被解碼回一個分子。編碼過程很簡單,但解碼過程仍然具有挑戰性。
在本工作中,我們介紹了一個簡單的兩步譯碼過程。在第一步,一個完全連接的神經網絡使用潛在的向量 生成一個分子式,例如二氧化碳(一個碳和兩個氧原子)。
在第二步中,圖形卷積神經網絡使用相同的潛在向量 在第一步中產生的原子之間建立鍵(例如,將在碳和每個氧之間建立一個雙鍵)。這個兩步過程,首先生成一袋原子,然后組裝,允許開發一個高效的分子自動編碼器。
本文方法
圖1表示自動編碼器框架。在本節中,詳細介紹系統的各個部分:
2.1 分子編碼器
每個原子類型和邊緣類型首先嵌入到空間 中,然后這些特征通過 層圖神經網絡進行處理。本文使用 Bresson 和 Laurent 中引入的 garph ConvNet 技術來計算隱藏節點和邊緣特征表示。 表示節點特征, 表示邊 之間的關系。圖卷積網絡更新 和 ?如下:
其中, 表示 dense attention function, 表示 sigmoid 函數,ReLU 表示 ReLU 非線性函數,BN 為 batch normalization。每一層都有一組不同的參數,最后,利用縮減步驟來產生固定大小的向量 :
2.2 原子生成
編碼器的第一步是產生分子式,分子式表示分子中每種類型原子的數量,而沒有鍵結構的信息。例如二氧化碳的分子式是 ,表示這個分子含有一個碳和三個氧。分子式可以看作是分子的一個簡單的原子袋表示。
三氧化二碳的分子式可用向量表示 (1 個碳,0 個氮,3 個氧)。一般來說,如果我們考慮具有 m 種可能類型的原子的分子,分子公式可以用包含每種類型原子的 m 個分量的向量表示。
由于分子式是由一個固定大小的向量 m 表示的,它可以很容易地由一個全連接的神經網絡產生。因此,解碼器的第一步是將潛在向量 z 輸入到一個完全連接的神經網絡(這里是一個隱藏層的 MLP):
?是一個 矩陣,其中 為原子類型的數量, 為訓練集中最大分子大小。分子式 是沿著 的第二維得分最大值的指標產生的。分子式生成之后,解碼器將決定如何通過生成原子之間的鍵來連接每個原子。
2.3 連接鍵的生成
解碼器的第二步是利用原子袋向量 和潛在表示 在一個單一通道中組裝原子,為此,本文首先通過連接分子式中的每個原子來創建一個完全連通的圖。全連通圖的每個頂點通過某個嵌入矩陣接收到 中對應于原子類型的特征,每條邊接收到相同的嵌入特征向量 , 為某個可學習的權值矩陣。
然后由第一個所描述的圖卷積網絡的 層對該全連通圖進行處理,并添加新的分子解碼參數。由此得到的最后一個卷積層的特征向量 可以用來預測在可能的類型中連接原子 和原子 的鍵的類型:
預測邊緣類型的一種簡單方法是使用 MLP 對每個向量 進行獨立分類:
其中 為邊得分,n 為 b 中的鍵數,最終取最大邊得分指數來選擇邊類型。
2.4 位置編碼
圖 1 右上方所示的全連通圖,初始化時,鍵解碼器的 5 條邊每條都有完全相同的特征 ,3 個碳原子每條都有相同的特征向量(碳類型的嵌入向量)。
當 GCN 處理此圖時,碳原子上的特征將無法彼此區分(以及連接碳和氧的 3 條邊上的特征)。為了彌補這一對稱性問題,我們引入了一些位置特征,允許將同一類型的原子嵌入到不同的向量中,從而區分同一類型的原子。
位置特征
化合物二氯氧 3,它的分子式是 (2 個氯和 6 個氧)。假設我們有一種自然的方式來排列分子中的原子,這樣組成二氯六氧化合物的 8 個原子可以寫成:
表示分子中的第 3 個氧。”在本例中,我們將數字 3 稱為位置特性”,作者只是根據原子在分子的標準 SMILES 表示中出現的位置,這些位置特征包含了一些關于分子的弱結構信息。
2.5 變分自編碼器(VAE)
最后,本文使用了 VAE 方法來填充潛在空間來改善分子生成任務,VAE 需要學習參數化的分子潛在向量表示 :
其中, 與 可以通過帶有 reduction layer 的編碼器學習到:
總損失由三項組成:邊緣概率的交叉熵損失、原子袋概率的交叉熵損失和 VAE 高斯分布的 Kullback Leibler 散度:
最后,輸入和輸出分子之間不需要匹配,因為使用了相同的原子順序。
2.6 束搜索
由于潛在的原子價破壞,所提出的一次性解碼器可能不能產生化學上有效的分子。我們使用波束搜索技術來產生一個有效分子。波束搜索的定義如下。我們從一條隨機的邊開始。
我們選擇(1)有最大概率(或通過伯努利抽樣)的下一條邊,(2)連接到所選的邊,且(3)不違反價原理。當邊選擇結束時,生成一個分子。本文對不同隨機初始化的 重復這個過程,生成 候選分子。最后,本文選擇了最大限度的邊緣概率或化學性質的乘積的分子。
實驗
3.1 數據集
本文使用的 ZINC 分子數據集,該數據集有 250k 類藥物分子,有 38 個重原子(氫原子除外)。數據集最初是用 smile 編碼的,并使用開源的化學信息學軟件包 Rdkit2 來獲得規范的 smile 表示。
3.2 分子重構
第一個任務是重構潛在空間的分子并從中取樣。表 1 了重表示了分子重建和有效性結果。為了評估系統的新穎性和唯一性,我們從先驗分布 采樣 5000 個分子。
表 2 給出了結果表示,我們的系統不只是簡單地記憶訓練集,它還能夠生成 100% 的新的有效分子。此外,所有的新分子都是不同的,因為新穎性度量是 100%(生成數據集中分子的唯一百分)。圖2展示了一些生成的分子。
3.3 性質優化
第二個任務是生產具有理想化學性質的新分子。本文選擇目標性質為辛醇-水分配系數(logP),由合成可達性(SA)評分和長循環次數懲罰。為了進行分子優化,我們訓練我們的 VAE 同時自動編碼訓練分子和目標化學性質。
為此,我們在圖形卷積編碼器之后添加了一個 MLP 層來預測化學性質,并添加了一個 回歸損失來懲罰不良的性質預測.
利用梯度上升法對潛在空間的化學性質進行優化,然后對分子進行解碼并計算目標性質。本文對訓練集中屬性值排名前 100 的分子進行了優化。表 3 報告了我們的模型和文獻中排名前 3 的分子。
第三個任務是生成具有優化化學性質的新分子,同時約束原始分子和生成分子之間的分子相似性。在表4中報告了性能的改進和原始分子與生成分子之間的分子相似性。圖4給出了約束優化的分子與分子距離。
總結
針對分子生成任務,本文引入了一種簡單有效的 VAE 模型。解碼器可以一次性生成分子式和鍵結構。據我們所知,這也是束搜索首次用于改進分子生成任務,beam 搜索可以高度并行化,就像自然語言處理系統一樣,總體而言,本文提出的技術更容易實現。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的将图卷积神经网络用于解码分子生成的全部內容,希望文章能夠幫你解決所遇到的問題。