中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.1 最优传输理论与 WGAN 模型...
最優傳輸理論是連接幾何和概率的橋梁, 它用幾何的方法為概率分布的建模和衡量概 率分布之間的距離提供了強有力的工具。最 近,最優傳輸理論的概念和方法日益滲透進 機器學習領域,為機器學習原理的解釋提供 了新的視角,為機器學習算法的改進提供了 新的指導方向。
本文介紹最優傳輸理論的基本概念和原 理,解釋如何用最優傳輸理論的框架來表示 概率分布,度量概率分布間的距離,如何降 維逼近,并進一步解釋這些手法在機器學習 中的應用,給出機器學習原理和特點的最優 傳輸理論闡釋。
1.1 最優傳輸理論與 WGAN 模型
1. 生成對抗網絡簡介
訓練模型生成對抗網絡 (GAN, Generative Adversarial Networks)[1] 是一個“自 相矛盾”的系統,就是“以己之矛,攻己之盾”, 在矛盾中發展,使得矛更加鋒利,盾更加強 韌。這里的矛被稱為判別器(Descriminator), 這里的盾被稱為生成器(Generator)。如圖 1~3 所示。
生成器 G 一般是將一個隨機變量(例如 高斯分布,或者均勻分布),通過參數化的 概率生成模型(通常是用一個深度神經網來 進行參數化),進行概率分布的逆變換采樣, 從而得到一個生成的概率分布。如圖 2 所示。 判別器 D 也通常采用深度卷積神經網。
我們的目的是要找出給定的真實數據內 部的統計規律,將其概率分布表示為 Pr。為 此制作了一個隨機變量生成器 G,G 能夠產生 隨機變量,其概率分布是 Pg,我們用 Pg 來盡 量接近 Pr。為了區分真實概率分布 Pr 和生成 概率分布 Pg,又制作了一個判別器 D,D 用 來判別一個樣本是來自真實數據,還是來自 G 生成的偽造數據。為了使 GAN 中的判別器盡 可能將真實樣本判為正例,將生成樣本判為負 例,Goodfellow 設計了如下的損失函數(loss function):
這里第一項不依賴于生成器 G。 此式也可用 于定義 GAN 中生成器的損失函數。
矛盾的交鋒過程如下:在訓練過程中, 判別器 D 和生成器 G 交替學習,最終達到納 什均衡(零和游戲)。在均衡狀態,判別器 無法區分真實樣本和生成樣本,此時的生成 概率分布 Pg,可以被視作是真實概率分布 Pr 的一個良好逼近。如圖 1~3 所示。
GAN 具有非常重要的優越性:當真實 數據的概率分布 Pr 不可計算時,依賴于數 據內在解釋的傳統生成模型無法被直接應 用。但是 GAN 依然可以被使用,這是因 為 GAN 引入了內部對抗的訓練機制,能 夠逼近難以計算的概率分布。Yann LeCun 一直積極倡導 GAN,因為 GAN 為無監督 學習提供了一個強有力的算法框架,而無 監督學習被廣泛認為是通往人工智能的重 要一環。
原始 GAN 形式具有致命缺陷:判別器 越好,生成器的梯度消失越嚴重。我們固定 生成器 G 來優化判別器 D。考察任意一個樣 本 x,其對判別器損失函數的貢獻是
在這種情況下(判別器最優),如果 Pr 和 Pg 的支撐集合 (support) 交集為零測度,則生成 器的損失函數恒為 0,梯度消失。
本質上,JS 散度給出了概率分布 Pr 、 Pg 之間的差異程度,亦即概率分布間的度 量。我們可以用其他的度量來替換 JS 散度。Wasserstein 距離就是一個好的選擇,因為 即便 Pr 、Pg 的交集為零測度,它們之間的 Wasserstein 距離依然非零。這樣我們就得到 了 Wasserstein GAN 的模式 [2-3]。Wasserstein 距離的好處在于,即便 Pr、 Pg 兩個分布之間 沒有重疊,Wasserstein 距離依然能夠度量它們的遠近。
為此,我們引入最優傳輸的幾何理論 (Optimal Mass Transportation),這個理論可視 化了 W-GAN 的關鍵概念,例如概率分布、 概率生成模型(生成器)、Wasserstein 距離。 更為重要的,這套理論中所有的概念、原理 都是透明的。例如,對于概率生成模型,理 論上我們可以用最優傳輸的框架取代深度神 經網絡來構造生成器,從而使得機器學習的 黑箱變得透明。
2. 最優傳輸理論梗概
蒙 日-安 培 方 程 解 的 存 在 性、 唯 一 性 等價于經典的凸幾何中的亞歷山大定理 (Alexandrov Theorem)。
3. W-GAN 中關鍵概念可視化
W-GAN 模型中,關鍵的概念包括概率分 布(概率測度)、概率測度間的最優傳輸映 射(生成器)、概率測度間的Wasserstein距離。 下面我們詳細解釋每個概念的含義、所對應 的構造方法和相應的幾何意義。
概率分布 GAN 模型中有兩個至關重要 的概率分布(probability measure),一個 是真實數據的概率分布 Pr;一個是生成數 據的概率分布 Pg。另外,生成器的輸入隨 機變量可以是任意標準概率分布,例如高 斯分布、均勻分布等。
概率測度可以看成是一種推廣的面積(或 者體積)。我們可以用幾何變換隨意構造一 個概率測度。如圖 5 所示,我們用三維掃描 儀獲取一張人臉曲面,那么人臉曲面上的面 積就是一個概率測度。我們縮放變換人臉曲 面,使得總面積等于 π;然后,用保角變換 將人臉曲面映射到平面圓盤。如圖 5 所示, 保角變換將人臉曲面上的無窮小圓映到平面 上的無窮小圓,但是,小圓的面積發生了變化。 每對小圓的面積比率定義了平面圓盤上的概 率密度函數。
4. 小結
在 W-GAN 模型中,通常生成器和判別 器是用深度神經網絡來實現的。根據最優傳 輸理論,可以用 Briener 勢函數來代替深度 神經網絡這個黑箱,從而使得整個系統變得透明。在另一層面上,深度神經網絡本質上 是在訓練概率分布間的傳輸映射,因此有可 能隱含地在學習最優傳輸映射,或者等價地 Brenier 勢能函數。對這些問題的深入了解, 將有助于我們看穿黑箱。和圖6中的例子類似, 圖 12 顯示了用最優傳輸映射計算的曲面保面 積參數化。最優傳輸理論在任意維空間都成立, 圖 13 顯示了一個三維體的最優傳輸例子。
總結
以上是生活随笔為你收集整理的中国人工智能学会通讯——最优传输理论在机器学习中的应用 1.1 最优传输理论与 WGAN 模型...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不要“个人英雄主义”,物联网安全共同体更
- 下一篇: Radware为夏威夷电信公司全新的DD