演化博弈与GAN网络
演化博弈與GAN網絡
- 0.摘要
- 1.引言
- 2.博弈論相關
- 2.1二人零和博弈
- 2.2交叉熵
- 3.對抗生成網絡模型
- 3.1模型概述
- 3.2手寫體數據集實驗
- 3.3圖片生成實驗
- 4.結論
- 5.參考文獻
0.摘要
人們早已注意到,在重復博弈中的策略均衡結局與一次性博弈中的個體理性結局有很大差別。也就是說,博弈中的最優策略會隨著次數的增加而不斷演變。在有限輪博弈中,廠商無法完成合作,而如果博弈的次數是無限的,廠商就可以以合作的方式擺脫困境。同時,受行為經濟學的啟發,博弈理論也逐漸摒棄理性人假說。在這種新的假設下,參與人既不是是完全理性的,也不要求完全信息的約束,只需假定參加者能夠積累關于各種策略被采用時的相對優勢的經驗信息,納什均衡仍可達到,亦即演化博弈。
演化博弈在自然選擇和經濟學中很好地描繪了參與人策略演進的過程并解釋了為何將達到納什均衡以及如何達到。而深度學習中的對抗生成網絡模型(GAN)繼承了這一思路。GAN將環境設置為二人零和重復博弈,通過生成器(Generator)和判別器(Discriminator)的“對抗博弈”來訓練神經網絡,利用交叉熵定義損失函數,最終進行模型生成。
本文在GAN網絡的基礎上簡要介紹其依靠的雙人零和博弈理論及生成器,判別器和損失函數的數學原理,并嘗試探索GAN網絡在金融市場中的應用。在可視化部分中,利用手寫體數據集展示了GAN實際應用的有效性。
1.引言
深度學習的廣泛傳播讓業界和學界都開始思考深度學習技術本身在金融市場的應用[1]。深度學習非線性的特性,使得其能夠幫助挖掘傳統線性回歸等統計工具所難以發現的規律,在非線性問題及張量,多重共線性數據的處理等問題上具有無可比擬的優勢,因此造成了眾多量化交易策略的涌現。
同樣地,如何將經濟學的體系遷移到深度學習的算法設計中也是一個十分具有前景的課題。如利用帕累托最優進行多目標優化的多任務學習[3],該方法使每個任務損失的加權線性組合最小化。而在[2]中,作者將博弈論中的雙人多輪零和博弈策略應用到對抗網絡的更新中。在分類和回歸分析中,深度學習的應用也非常廣泛。
進一步地,經濟學中以形式邏輯為主的研究范式的局限性已多次被歷史所證明:全部古典經濟學都構建在以理性人為假說的基石上。不同于社會科學,這一演繹的過程很容易陷入二律背反的困境[4]:雙方各自根據普遍承認的原則建立起來的兩個命題之間的矛盾,即經濟自由主義和國家干預主義的沖突。因此有了行為經濟學和博弈論等理論的修正。但是形式邏輯,尤其是數學工具的濫用問題依舊在經濟學中普遍存在[5]。而建構在神經網絡方法上的模型引入了非線性和辯證性的存在,盡管其在經濟學領域的有效性仍有待時間的檢驗,但至少目前不失為一個高效的研究工具,因此具有廣闊的科研前景與價值。
在GNN網絡中,生成器G(generator)與判別器D(discriminator)像是雙人零和重復博弈的參與者。G類似于一個偽造者,嘗試生成贗品并盡可能地不被D識破。而D的身份像是一個警察,盡可能地將G生成的贗品和真品進行區分。在這一過程中,我們首先應該讓D學習到真品的特點,即輸入訓練集(training set)的數據特征,學習完成后給G輸入噪聲,嘗試讓G利用噪聲生成以假亂真的贗品。
以手寫體數據集為例,D首先學到了Training set 中手寫體數據的特點。G會根據輸入噪聲生成Fake image。D要根據“經驗”判斷輸入到底是真品還是贗品(即來自于Training set 還是來自于G),最終輸出一個結果標簽。以手寫體數據集為例,D首先學到了Training set 中手寫體數據的特點。G會根據輸入噪聲生成Fake image。D要根據“經驗”判斷輸入到底是真品還是贗品(即來自于Training set 還是來自于G),最終輸出一個結果標簽。
2.博弈論相關
為了行文的嚴謹性與邏輯性,在此節引入博弈論相關內容的形式化定義與信息學概念的介紹。
2.1二人零和博弈
2.2交叉熵
GNN網絡在“博弈”時使用交叉熵定義損失函數(即支付函數)。在信息論中,熵被用來描述信源概率分布的混亂程度。而交叉熵則用來度量兩個分布之間的差異。因此使用交叉熵就可以輕易地看出生成分布q(x)與原始分布p(x)之間的差異,并進一步地優化模型,使q(x)盡可能地逼近p(x)的分布,以此達到以假亂真的效果。交叉熵的定義如下:
此外,使用交叉熵定義損失函數還可以在使用sigmoid函數梯度下降時避免MSE損失函數學習速率降低的問題。在p(x)的信源熵一定的情況下,交叉熵可用KL散度替換[6]。
3.對抗生成網絡模型
3.1模型概述
3.2手寫體數據集實驗
GAN模型的泛化能力允許多模態的輸入數據,其中包括圖片。將本算法應用在MNIST手寫體數據集中,利用數據集中的圖片訓練,最終使生成器G的輸出圖片接近真實手寫體圖片。可視化效果如下:
可以看到,在第100000次迭代以后,輸出的大部分數字在人眼精度下已經幾乎分辨不出真假,取得了非常好的效果(代碼參見:https://github.com/greedisgood1000/GAN-.git)。
3.3圖片生成實驗
除了簡單的手寫體圖片,GAN還有在ImageNet數據集輸入的基礎上生成近乎真實圖片的能力[7],在本次實驗中,我們選取了其已訓練好的模型數據,輸入圖片類型后,模型生成如下圖片:
4.結論
本文介紹了基于演化博弈的對抗生成網絡模型。扮演博弈兩方的生成器與預測期之間相互對抗,以此不斷更新雙方性能,而其損失函數的推導則用到了多輪二人零和博弈中的MaxMin原則。GAN網絡在訓練時即無需馬爾科夫鏈作為輸入,也無需其他輔助推理手段。它在初始時刻不做任何約束,只要求GAN網絡按照演化博弈的損失函數迭代,在圖片可視化等領域取得了極好的效果。
對抗生成網絡強大的生成能力可以廣泛的應用于各研究領域,如股票期貨市場的時間序列,量化交易模型的開發等。此外盡管瑕不掩瑜,但GAN網絡仍有些許不足,如無法輸出準確的分布,這使GAN一些問題的處理上略顯棘手。以及可以看到,在生成人像圖片中的效果仍舊不盡理想,因此GAN網絡模型在未來仍有改進的空間。
5.參考文獻
[1]Rasekhschaffe K C, Jones R C. Machine learning for stock selection[J]. Financial Analysts Journal, 2019, 75(3): 70-88.
[2]Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[J]. Advances in neural information processing systems, 2014, 27.
[3]Sener O, Koltun V. Multi-task learning as multi-objective optimization[J]. Advances in neural information processing systems, 2018, 31
[4]Wike V S. Kant’s Antinomies of Reason: Their Origin and Their Resolution[J]. 1982.
[5]王海濱編.經濟學經典教材輔導書 西方經濟學 高鴻業版[M].中國人民大學出版社,2015
[6]Kullback S, Leibler R A. On information and sufficiency[J]. The annals of mathematical statistics, 1951, 22(1): 79-86.
[7]Brock A, Donahue J, Simonyan K. Large scale GAN training for high fidelity natural image synthesis[J]. arXiv preprint arXiv:1809.11096, 2018.
總結
以上是生活随笔為你收集整理的演化博弈与GAN网络的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信公众号weui的使用
- 下一篇: React开发(237):dva概念2s