【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么
最近一部分的內容將會比較容易,將和大家一起討論GAN的評價指標,也沒有太難以理解的東西,希望大家踴躍討論,歡迎留言。
作者&編輯 | 小米粥
編輯 | 言有三
在判別模型中,訓練完成的模型要在測試集上進行測試,然后使用一個可以量化的指標來表明模型訓練的好壞,例如最簡單的,使用分類準確率評價分類模型的性能,使用均方誤差評價回歸模型的性能。同樣在生成模型上也需要一個評價指標來量化GAN的生成效果。
1.質量與多樣性
以生成圖像的GAN為例,評價指標首先要評價GAN生成圖像的質量好壞,但是圖像質量是一個非常主觀的概念,不夠清晰的寵物狗的圖片和線條足夠明晰但“很奇怪”的圖片均應算作低質量的圖片,但計算機不太容易認識到這個問題,最好可以設計一個可計算的量化指標。
IS(Inception Score)采用了這樣的做法,將生成的圖片x送入已經訓練好Inception模型,例如Inception Net-V3,它是一個分類器,會對每個輸入的圖像輸出一個1000維的標簽向量y,向量的每一維表示輸入樣本屬于某類別的概率。假設我們的Inception Net-V3訓練得足夠好,那么對質量高的生成圖像x,Inception Net-V3可將其以很高的概率分類成某個類,p(y|x)的數值比較集中,形如[0.9,...,0.02,0]。我們可以使用熵來量化該指標,分布p(y|x)相對于類別的熵定義為
其中,p(yi|x)表示x屬于第i類的概率,即yi值,為了避免歧義,計算方式展示如下圖所示:
熵是一種混亂程度的度量,對于質量較低的輸入圖像,分類器無法給出明確的類別,其熵應比較大,而對于質量越高的圖像,其熵應當比較小,當p(y|x)為one-hot分布時,熵達到最小值0。
GAN另一個需要度量的指標即樣本的多樣性問題,這與模式崩潰問題有關聯但不完全一樣,會在本文的最后討論。若GAN產生的一批樣本{x1,x2,...,xn}多樣性比較好,則標簽向量{y1,y2,...,yn}的類別分布也應該是比較均勻的,也就是說不同類別的概率基本上是相等的(當然這里要假設訓練樣本的類別是均衡的),則其均值應趨向均勻分布,如下圖所示。
又因為
故可使用標簽向量y關于類別的熵來定量描述,若生成樣本的多樣性好(涵蓋的類別多),則p(y)相對于類別的熵越大;生成樣本的多樣性差,則p(y)相對于類別的熵越小,其中定義p(y)相對于類別的熵為
其中,p(yi)表示第i類的概率,即yi值。
2.Inception Score
將圖像質量和多樣性兩個指標綜合考慮,可以將樣本和標簽的互信息I(x,y)設計為生成模型的評價指標,互信息描述了給定一個隨機變量后,另一個隨機變量的不確定性減少程度。又被稱為信息增益,即?
又根據
KL散度表示兩個分布的差值,當KL散度值越大時,表示兩個分布的差異越大;KL散度值越小,分布的差異越小,計算所有樣本的KL散度求平均,本質上來講,指標還是通過信息增益來評價。為了便于計算,添加指數,最終的IS定義成如下形式:
實際計算IS時,使用的計算式子為:
對于p(y)的經驗分布,使用生成模型產生N個樣本,將N個樣本送入分類器得到N個標簽向量,對其求均值且令
對于KL散度,計算方式如下:?
3.IS的缺陷?
IS作為GAN的評價指標,自2016年提出以來,已經具備了比較廣泛的接受程度,但也有一些不可忽略的問題和缺陷。
首先,使用TensorFlow, PyTorch 和 Keras 等不同框架下預訓練的Inception V3 ,計算同一個數據集的 Inception Score,即使不同框架預訓練的網絡達到同樣的分類精度,但由于其內部權重微小的不同,導致了 Inception Score 很大的變化,在 ImageNet 上,IV3 Torch 和 IV3 Keras 算出的 IS 相差 3.5%,這些差異,足以涵蓋某些所謂 state-of-the-art 的模型所作出的提升。
其次,訓練GAN和訓練分類器必須使用相同的數據集,若Inception V3 是在 ImageNet 上訓練的,則使用Inception V3 時,應該保證生成模型也在 ImageNet 上訓練并生成相似的圖片,不應把任意生成模型生成的圖片(臥室,花,人臉)都使用Inception V3獲得標簽。
另外, IS并無法評價出GAN的過擬合情況,若GAN只“記住”了所有訓練集的圖片,生成器成為了一個“簡單的”隨機輸出訓練集圖片的神經網絡,此時生成器雖然缺乏泛化能力,仍可以獲得很高的分數。
最后,當GAN發生模式崩潰時,IS依舊會給出較高的分數,MS(Mode Score)是IS的改進版本,添加了一項,希望能在評價指標中可以考慮模式崩潰問題,其定義為:
其中,p*(y)表示經過訓練數據集的樣本得到的標簽向量的類別概率,p(y )表示經過GAN生成樣本得到的標簽向量的類別概率。不過,遺憾的是,IS和MS都無法真正解決模式崩潰的評價問題。考慮這樣極端的情況,生成器發生模式崩潰,例如在每個類別中,生成器都只覆蓋一個模式(在每一類下只生成一種照片),這樣的生成器可覆蓋所有類別,這時計算IS或者MS均能得到很高的值,但其實GAN已經發生了嚴重的模式崩潰。
這里的模式崩潰與之前提到的多樣性有所區別,IS中度量的多樣性是指:GAN生成的樣本可以有多少類,而模式崩潰在這里多指生成器在類內塌縮到某一個或幾個樣本上,只考慮類別的信息增益只能有效評價生成圖像的種類,但對每個類內的生成狀況無法做出評價。
[1]Che T , Li Y , Jacob A P , et al. Mode Regularized Generative Adversarial Networks[J]. 2016.
[2]Imporve Techniques for Training GANs. 2016.
總結
今天講解了IS及其計算方式,講解了IS的改進版本MS,并在最后指出了IS的諸多問題。
GAN群
有三AI建立了一個GAN群,便于有志者相互交流。感興趣的同學也可以微信搜索xiaozhouguo94,備注"加入有三-GAN群"。
知識星球推薦
有三AI知識星球由言有三維護,內設AI知識匯總,AI書籍,網絡結構1000變,看圖猜技術,數據集,項目開發,Github推薦,AI1000問八大學習板塊,其中網絡結構1000變包含GAN的實戰內容,案例如下。
轉載文章請后臺聯系
侵權必究
往期精選
【雜談】有三AI知識星球最近都GAN了哪些內容?
【雜談】GAN對人臉圖像算法產生了哪些影響?
【完結】12篇GAN的優化文章大盤點,濃濃的數學味兒
總結
以上是生活随笔為你收集整理的【GAN优化】最早被用于评价GAN模型的定量指标Inception Score是什么的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【杂谈】计算机视觉在人脸图像领域的十几个
- 下一篇: 【总结】循序渐进,有三AI不得不看的技术