kl散度度量分布_强化学习新思潮1:值分布强化学习(04)
經典強化學習有比較好的理論保證,盡管值分布強化學習的效果很好,但理論分析比較少。本文繼續介紹值分布強化學習算法的理論分析。參考論文為“An Analysis of Categorical Distributional Reinforcement Learning”。
Wasserstein 度量
Bellemare等在他們的第一篇值分布強化學習論文“A Distributional Perspective on Reinforcement Learning”中給出了一個重要的引理。
引理3:分布式貝爾曼操作符
對于 來說是 收縮的。我們并不證明引理3,但要說明引理3中每個符號,以及引理3在說什么事情。
首先要說明符號
, 這個符號來源于Wasserstein度量。Wasserstein度量在最近兩年的機器學習中被廣泛討論和應用,該度量被引起廣泛關注來源于2017年的Arjovsky寫的“神文”:”Wasserstein GAN”。在該論文中,作者指出Wasserstein度量比之前廣泛應用的KL散度更適合做損失函數。一個重要的原因是KL散度無法度量支集沒有交疊的兩個概率分布,而Wasserstein卻可以很好地描述任意概率分布之間的距離。
下面我們看看Wasserstein度量的定義:
Wasserstein距離俗稱“推土機”距離,是指將概率分布為
的土挪成概率分布為 的土所需要的“消耗”。更學術的語言表達為:
其中
表示邊緣分布分別為 和 所有聯合概略分布 的集合。直觀上來說, 表示多少“質量”必須從x處運輸到y.用更形象的圖像來表示為:
如圖13為Wasserstein的圖像解釋,將概率分布
變為概率分布 最小的代價如圖13中的移動方式。圖13 Wasserstein度量圖解p-Wasserstein距離的定義是原Wasserstein距離定義的泛化,即利用兩個概率分布的 階矩來定義,定義如下:
其中
表示下界,即表示最小值。 為邊際分布為 的所有的聯合概率分布。該定義(2)式與定義(1)式類似。對于有限馬爾科夫決策過程,狀態行為對的個數為
,因此在每個狀態行為對處都有一個分布,我們用所有點處的p-Wasserstein距離的上界來度量兩個概率分布集的距離,即supremum-p-Wasserstein 度量 定義為:有了這些定義,我們再次闡述一遍Bellemare等在2017年的論文“A Distributional Perspective on Reinforcement Learning” 中的引理
引理1:分布式貝爾曼操作符
在上界p-Wasserstein度量下是 收縮的,并且對于任意的初始分布集合 ,我們有:引理1是說,對于分布式貝爾曼操作符,從任意初始概率分布出發,根據策略
進行迭代更新,最終會收斂到一個固定的概率分布。這個結果在上一篇文章中已經給出來了,但C51引入了四個近似(前文已經說明)。現在的問題是,當引入四個近似時,引理1是否依然成立?
論文“An Analysis of Categorical Distributional Reinforcement Learning”用引理2給出了答案。我們先看看引理2是什么。
引理2:操作符
一般在上界p-Wasserstein度量 下并不是收縮的。引理2直接給出了一個答案:盡管分布式操作符
在 下是收縮的,但是加了一個投影操作之后,在 下就不收縮了。為了理解引理2,我們給出一個很簡單的例子:
圖14 兩個簡單的分布如圖14為兩個簡單的分布,分別為
,根據p-Wasserstein的定義(2),兩個分布之間的距離為:將該分布進行投影操作后,兩個分布變為:
, 圖15 兩個分布在投影算子下的投影根據p-Wasserstein的定義(2), 兩個投影后的分布距離為:
當
時,因此投影操作符并不是收縮的。從直觀上來解釋下,原來的分布在投影后p-Wasserstein距離會變大。
既然投影映射在p-Wasserstein距離下并非收縮的,那么投影貝爾曼操作符就一定不收縮嗎?
答案是:未必。因為投影映射在Cramer距離下是收縮的
從Wasserstein距離到Cramer距離
Bellemare在2017年的論文“The Cramer Distance as a Solution to Biased Wasserstein Gradients”中指出,跟Wasserstein距離相比,Cramer距離有更好的特性:用樣本計算Cramer距離的梯度是無偏的,而用樣本計算Wasserstein距離的梯度其實是有偏的。
作者在論文“An Analysis of Categorical Distributional Reinforcement Learning”中進一步利用Cramer距離證明了投影算子的收縮性。下面我們先介紹Cramer距離的定義。
Cramer距離
兩個分布
的Cramer距離 由其對應的累積分布函數 進行定義:在分布集合
上定義上界cramer度量 :有了上述定義,我們不加證明地給出幾個命題。
命題1:Cramer度量
賦予了概率空間 一個特殊的投影子空間,該投影操作符正好是啟發式投影 ,因此 相對于Cramer度量是非擴展的。如圖16為Cramer距離的幾何解釋。其中
為參數化空間。由幾何解釋可以很自然地得到距離關系:其中
圖16 Cramer距離的幾何解釋命題2:操作符
在cramer度量 下是一個 收縮的。進一步,存在唯一的分布函數 使得給定初始分布函數 我們有:命題2是說在投影貝爾曼操作符下,分布會收斂到極限分布
,一個很自然的問題是該極限分布 與真正的分布 之間到底差多少。命題3回答了這個問題:
命題3:令
為命題2的極限回報分布函數,如果 的支集在 ,則我們有:命題3是說隨著離散分辨率越來越小,極限回報分布函數與真實分布函數之差越來越小。
命題3假設了真實的分布
的支集都限制在 ,即與參數化的分布有相同的支集。但是在實際中我們并不知道真實的分布的定義域在哪,那么命題2的極限分布于真實分布之間的差距是多少呢?命題4給出了答案。命題4 :令
為命題2的極限回報分布函數,如果 的支集在 ,并且 ,則我們有:文章的其余部分則是作者利用隨機近似理論證明基于采樣的值分布強化學習算法的收斂性,這里就不再細說了。最后作者提出還沒有解決和證明的問題是當引入函數逼近來表示分布值函數的時候的收斂性,而這個主題非常非常重要但又非常非常難!留待以后的工作。
寫得好累,休息休息一下。C51算法及其分析已經差不多,下次更新會講分位數回歸算法,參考論文為:“DistributionalReinforcementLearningwithQuantileRegression”敬請期待!
總結
以上是生活随笔為你收集整理的kl散度度量分布_强化学习新思潮1:值分布强化学习(04)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 老人用32g内存够用吗(老人高清摄影照片
- 下一篇: 多少人能过初赛_蜂蜜和水的比例是多少?蜂