Image-to-Image Translation with conditional Adversarial Networks ---- Pix-2-Pix
?任務(wù)場(chǎng)景
- Photos to semantic segmentation
- Cityscapes labels to photos
- Colorization
- Facades labels to photo
- Day to night
- The edges to photo
- And so on.
?
?在生成器模型中,條件變量y實(shí)際上是作為一個(gè)額外的輸入層(additional input layer),它與生成器的噪聲輸入p(z)組合形成了一個(gè)聯(lián)合的隱層表達(dá);
在判別器模型中,y與真實(shí)數(shù)據(jù)x也是作為輸入,并輸入到一個(gè)判別函數(shù)當(dāng)中。實(shí)際上就是將z和x分別于y進(jìn)行concat,分別作為生成器和判別器的輸入,再來(lái)進(jìn)行訓(xùn)練。
?
?
目標(biāo)函數(shù):
gans:
CGAN:
pix-2-pix:
把待轉(zhuǎn)換的圖像x作為額外的輸入,分別加進(jìn)判別器和生成器中。生成器輸入的是隨機(jī)噪聲z以及待轉(zhuǎn)換的圖像x。
在positive情況下,判別器輸入的是待轉(zhuǎn)換圖像x以及與x對(duì)應(yīng)的真實(shí)數(shù)據(jù)y,這時(shí)判別器盡量使得輸出為1;
在negative情況下,判別器輸入的是待轉(zhuǎn)換圖像x以及生成器生成的圖像G(x,z)。也就是說(shuō),生成器不只輸入了隨機(jī)噪聲z,還輸入了待轉(zhuǎn)換圖像x,加入了這個(gè)條件,就可以實(shí)現(xiàn)定向生成;
判別器也不再只是判別某一張圖像是否真實(shí),而是判別待轉(zhuǎn)換圖像x與轉(zhuǎn)換后圖像G(x,z)是否是真實(shí)的圖像對(duì)。
?
創(chuàng)新點(diǎn)
1、加入約束項(xiàng)(L1 distance encourages less blurring) ---- 生成的圖像是不是接近GT。
與L2相比,文章采用了模糊更少的L1 distance(1范數(shù)可以導(dǎo)致稀疏解,2范數(shù)導(dǎo)致稠密解):
2、generator add skip connections(U-Net)
圖像到圖像轉(zhuǎn)換問(wèn)題的一個(gè)特征定義是將高分辨率輸入網(wǎng)格映射到高分辨率輸出網(wǎng)格。輸入和輸出的表面外觀雖不同,但兩者都是相同底層結(jié)構(gòu)的渲染。因此,生成器的設(shè)計(jì)中輸入的結(jié)構(gòu)大致與輸出的結(jié)構(gòu)對(duì)齊。?
? ? ? ?之前的結(jié)構(gòu)都是基于如下圖的編碼-解碼網(wǎng)絡(luò),先經(jīng)過(guò)幾個(gè)降采樣層,到達(dá)一個(gè)瓶頸后經(jīng)過(guò)一個(gè)逆過(guò)程得到最終的輸出。網(wǎng)絡(luò)要求所有的信息流通過(guò)網(wǎng)絡(luò)的所有層。對(duì)于許多圖像翻譯問(wèn)題,輸入和輸出之間共享了大量低級(jí)別的信息,因此最好將這些信息直接穿過(guò)網(wǎng)絡(luò)。為了使得生成器能夠規(guī)避這樣的信息瓶頸,遵循“U-Net”的形狀,添加跳躍連接。假使網(wǎng)絡(luò)有n層,網(wǎng)絡(luò)的第i層都和n-i層有一個(gè)連接:
?
?
3.patchGAN
通常判斷都是對(duì)生成樣本整體進(jìn)行判斷,比如對(duì)一張圖片來(lái)說(shuō),就是直接看整張照片是否真實(shí)。而且Image-to-Image Translation中很多評(píng)價(jià)是像素對(duì)像素的,所以在這里提出了分塊判斷的算法,在圖像的每個(gè)N×N塊上去判斷是否為真,最終平均給出結(jié)果。
判別器在圖像上卷積,最終平均所有的值作為D的最終輸出值;
N可以比圖像的大小小得多,并且效果仍然很好;
小的patchGAN的參數(shù)更少,運(yùn)行更快,并且能夠應(yīng)用到任意大小的圖像中。。
當(dāng)n=1時(shí)就是pix-2-pix
?
?Optimization and inference
?
?
擴(kuò)展
L0范數(shù)是指向量中非0的元素的個(gè)數(shù)
L1范數(shù)是指向量中各個(gè)元素絕對(duì)值之和
L2范數(shù)是指向量各元素的平方和然后求平方根。
在機(jī)器學(xué)習(xí)中,以0范數(shù)和1范數(shù)作為正則項(xiàng),可以求得稀疏解,但是0范數(shù)的求解是NP-hard問(wèn)題; 以2范數(shù)作為正則項(xiàng)可以得到稠密解,并且由于其良好的性質(zhì),其解的定義很好,往往可以得到閉式解,所以用的很多。
一句話總結(jié)就是:L1會(huì)趨向于產(chǎn)生少量的特征,而其他的特征都是0,而L2會(huì)選擇更多的特征,這些特征都會(huì)接近于0。L1在特征選擇時(shí)候非常有用,而L2就只是一種規(guī)則化而已。
- L0 w分量盡量稀疏 如 (0,a,0,0,b,0,0)
- L1 效果同上
- L2 w分量取值盡量均衡、稠密,即小而趨近于0 如(0.3,0.5,-0.3,0.1,-0.2,0.3,-0.3)
?
轉(zhuǎn)載于:https://www.cnblogs.com/J-K-Guo/p/7574216.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的Image-to-Image Translation with conditional Adversarial Networks ---- Pix-2-Pix的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 美团信用卡好申请吗?审核要多久?
- 下一篇: Android6.0------权限申请