2022图像翻译/扩散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models
2022圖像翻譯/擴散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models. UNIT-DDPM:無配對圖像翻譯與去噪擴散概率模型
- 0.摘要
- 1.概述
- 2.相關工作
- 2.1.Image-to-Image翻譯
- 2.1.1成對圖像間翻譯
- 2.1.2未配對的圖像間翻譯
- 2.2. 擴散概率模型去噪
- 3.方法
- 3.1.模型訓練
- 3.2. 圖像翻譯推理
- 4.評估
- 4.1.基線
- 4.2.數據集
- 4.3.通過UNIT-DDPM的圖像到圖像翻譯
- 4.4.結果
- 4.5.消融實驗
- 4.6.局限
- 5.結論
- 參考文獻
0.摘要
我們提出了一種新的無配對圖像間翻譯方法,該方法使用去噪擴散概率模型而不需要對抗訓練。我們的方法,UNpaired Image Translation with Denoising Diffusion Probabilistic Models(UNIT-DDPM),訓練一個生成模型,通過最小化另一個域條件下的去噪分數匹配目標,推斷圖像在兩個域上的聯合分布作為馬爾可夫鏈。特別地,我們同時更新兩個域轉換模型,并基于Langevin dynamics,以輸入源域圖像為條件,通過去噪馬爾可夫鏈蒙特卡羅方法生成目標域圖像。我們的方法為圖像到圖像的轉換提供了穩定的模型訓練,并生成高質量的圖像輸出。這使得在若干公共數據集(包括彩色圖像和多光譜圖像)上的先進技術初始距離(FID)性能顯著優于同時代的對抗性圖像對圖像翻譯方法
1.概述
合成真實的圖像是計算機視覺長期以來的目標,因為它能夠實現有益和廣泛的應用,如機器學習任務中的數據增強,隱私保護和數據采集中的成本降低。雖然有各種各樣的替代方法用于圖像合成,如物理模擬[7],分形景觀[31],和圖像編輯[30],隨機生成建模[46]的使用繼續提供顯著的有效性,在特定領域中制作相似但不同的圖像,而不需要任何特定領域的知識。值得注意的是,最近對生成建模的研究集中在深度神經網絡(DNN)[10],即深度生成模型(DGNN),因為它們具有對真實世界數據模式的潛在建模能力。生成對抗網絡(GAN)[11],自回歸模型[12],基于流的模型如NICE[3],圖1:使用去噪擴散概率模型的小說圖像到圖像翻譯方法的概念說明。RealNVP[4]和Glow[22],變分自編碼器(VAE)[32]和圖像轉換器[29]已經合成了非常合理的圖像。類似地,在迭代生成模型中也有顯著的進步,如去噪擴散概率模型(DDPM)[15]和噪聲條件評分網絡(NCSN)[38],它們已經證明了產生與其他當代方法相媲美的更高質量合成圖像的能力,但不必執行(潛在的問題)對抗訓練。為了實現這一目標,許多去噪自編碼模型被訓練去噪被不同級別的高斯噪聲破壞的樣本。然后通過馬爾可夫鏈蒙特卡羅(MCMC)過程產生樣本,從白噪聲開始,逐步去噪并轉換為有意義的高質量圖像。生成馬爾可夫鏈過程基于Langevin dynamics[36],通過反轉前向擴散過程逐步將圖像轉換為噪聲
DGNN在圖像到圖像(I2I)的翻譯中也引起了極大的關注[8][20][19][44]。圖像到圖像是一項計算機視覺任務,用于建模不同視覺域之間的映射,如風格轉換[8],著色[5],超分辨率[23],照片真實感圖像合成[2],域適應[26]。對于樣式轉移,提出了樣式轉移網絡[8]作為dnn,訓練它將樣式從一個圖像轉移到另一個圖像,同時保留其語義內容。此外,樣式傳輸網絡用于圖像樣式[20]的隨機化。對于一般用途,Pix2Pix[19]使用GAN使用成對訓練數據對映射函數建模。為了降低配對訓練的依賴性,提出了周期一致性GAN (CycleGAN)[44],利用周期一致性對訓練進行正則化。然而,這種基于gan的方法需要在優化和架構上非常具體的選擇來穩定訓練,并且很容易無法覆蓋所有數據分布模式[9]。
圖1:使用去噪擴散概率模型的四種新的圖像轉換方法的概念說明
本文提出了一種新的I2I翻譯方法,使用DDPM作為后端,而不是對抗網絡,以緩解不穩定訓練的限制,提高生成圖像的質量(圖1)。本文的主要貢獻是:
- 基于雙域馬爾可夫鏈的生成視頻模型——引入了一種馬爾可夫鏈I2I翻譯方法,近似源域和目標域的數據分布,使它們相互關聯(第3節)。
- 穩定的基于非gan的圖像對圖像翻譯訓練——該方法不需要對抗訓練,然而,該模型生成了真實的輸出,根據不同級別噪聲的擾動捕獲了高頻變化(第3.1節)。
- 馬爾可夫鏈蒙特卡羅抽樣(Markov Chain Monte Carlo Sampling)的新應用。提出的采樣算法可以以未配對的源域圖像為條件來合成目標域圖像(章節3.2)。
- 的標準數據集(Facade[39],照片-地圖[44],夏季-冬季[44],和rgb - thermal[17])(表1和圖5),詳見第4節。
2.相關工作
我們回顧了兩個相關主題的之前工作:圖像對圖像的翻譯和去噪擴散概率模型
2.1.Image-to-Image翻譯
I2I翻譯的目標是學習來自源域的圖像和來自目標域的圖像之間的映射,I2I翻譯通常分為兩種方法:成對和非成對。
2.1.1成對圖像間翻譯
有監督I2I方法的目的是學習輸入圖像和輸出圖像之間的映射,通過訓練一組對齊的圖像對。早期的工作提出使用預先訓練的CNN和Gram矩陣來獲得圖像[6]的感知分解。這分離了圖像內容和風格,在保留語義內容的同時支持風格變化。最近的許多I2I方法都是使用GAN[11]進行對抗訓練的,這是一個生成模型,設計為具有一個生成器和一個鑒別器組件,它們彼此競爭。該生成器經過訓練,通過鑒別器輸出將隨機值映射到真實數據示例。該鑒別器同時被訓練來鑒別由生成器產生的真實和虛假數據示例。Pix2Pix[19]提供了一個通用的對抗框架,將圖像從一個域轉換到另一個域。使用U-Net[34]代替自動編碼器,在輸入和輸出之間共享底層信息。BicycleGAN[45]結合了條件VAE-GAN(CVAE-GAN)和一種恢復潛伏代碼的方法,這提高了性能,其中CVAE-GAN重構特定類別的圖像[1]。
2.1.2未配對的圖像間翻譯
配對I2I翻譯需要源域和目標域的對齊圖像對,而非配對方法學習的源和目標圖像集是完全獨立的,沒有兩個域之間的成對例子。CycleGAN[44]是一種使用GAN的未配對I2I翻譯方法。CycleGAN修改生成器G和鑒別器D,使其從源圖像xs∈Xsx_s∈X_sxs?∈Xs?傳輸到目標圖像xt∈Xtx_t∈X_txt?∈Xt?。這不僅學習了橫向變換G,還學習了雙向變換路徑Gt(xs)G_t(x_s)Gt?(xs?),Gs(xt)G_s(x_t)Gs?(xt?)。此外,這采用了一個新的損失度量,命名為循環一致性損失Lcyc(Gs,Gt)L_{cyc}(G_s,G_t)Lcyc?(Gs?,Gt?):
它強制每個域的真實圖像和它們生成的對應圖像之間的一致性。
無監督圖像對圖像翻譯網絡(UNIT)[25]在其方法中進一步假設了共享潛在空間。為了解決多模態問題,Multi-modalUNIT(MUNIT)[16]和multi-image-to-image Translation via Disentangled Representations (DIRT++)[24]采用了一種解耦合特征表示,分離了圖像中特定領域的屬性和共享的內容信息,進一步從未配對的圖像樣本中實現多樣化的I2I翻譯。
2.2. 擴散概率模型去噪
去噪擴散概率模型(DDPM)[15]序列敗壞圖像與增加的噪聲,并學習逆轉敗壞作為一個生成模型。特別是,生成過程被定義為馬爾可夫擴散過程的逆過程,從白噪聲化開始,逐步將樣本降噪為圖像
DDPM將數據作為潛變量的形式pθ(x0):=∫pθ(x0:T)dx1:Tp_θ(x_0):=\int{p_θ(x_{0:T})}dx_{1:T}pθ?(x0?):=∫pθ?(x0:T?)dx1:T?,其中x0q(x0)x_0 ~ q(x_0)x0??q(x0?)為圖像,T是馬爾可夫鏈的長度,x1,…,xTx_1,…,x_Tx1?,…,xT?與圖像維度相同,pθ(x0:T)p_θ(x_{0:T})pθ?(x0:T?)是一個具有已知高斯躍遷的馬爾可夫鏈(逆過程)
DDPM還近似于正向過程中的posterior q(x1:T∣x0)q(x_{1:T}|x_0)q(x1:T?∣x0?)。這個馬爾可夫鏈逐漸向圖像中添加漸進的高斯噪聲:
其中αt∈{α1,…,αT}為噪聲的調度權值,因此式(5)根據方差調度αT逐步添加高斯噪聲。式(6)是噪聲和圖像的線性插值函數,它允許以任意時間步長采樣xt:
其中:
為了近似pθ(xt?1∣xt)p_θ(x_{t?1}|x_t)pθ?(xt?1?∣xt?), DDPM優化了模型參數θ通過去噪分數匹配(DSM)[41]。因此,損失函數被重新定義為一種更簡單的形式:
其中?θ\epsilon_θ?θ?是通過t時刻和xt預測所加上的噪聲?\epsilon?的非線性函數。使用近似的?θ\epsilon_θ?θ?,μθ\mu_θμθ?可以被預測為:
(3)中的∑θ\sum_{\theta}∑θ?被設定為∑θ(xt,t)=(1?αt)I\sum_{\theta}(x_t,t)=(1-\alpha_t)I∑θ?(xt?,t)=(1?αt?)I,這允許從xtx_txt?中采樣xt?1x_{t-1}xt?1?:
這允許采樣至x0x_0x0?
我們的方法應用通過DDPM近似的潛在信息來學習圖像的不同領域,并在這些領域的潛在信息之間建立聯系。因此,它允許在目標域內,以與輸入源域圖像相關的方式,從噪聲中逐步采樣,逐步對圖像進行噪聲處理。
3.方法
圖2:我們的方法的處理流程。模型訓練(頂部)和圖像翻譯推理(底部)
我們的目標是在圖像的不同域之間發展I2I平移,其分布分別形成為式(2)的聯合概率。該方法需要通過經驗風險最小化從給定的源域和目標域數據集中學習模型的參數,然后能夠從對應的源域圖像推斷目標域圖像。
3.1.模型訓練
個人理解:正向過程是從噪聲到圖像的建模,反向過程就是圖像到噪聲的建模,θ是兩個域的反向擴散模型的參數\color{red}{個人理解:正向過程是從噪聲到圖像的建模,反向過程就是圖像到噪聲的建模,θ是兩個域的反向擴散模型的參數}個人理解:正向過程是從噪聲到圖像的建模,反向過程就是圖像到噪聲的建模,θ是兩個域的反向擴散模型的參數
?則是圖像翻譯網絡的參數\color{red}{\phi則是圖像翻譯網絡的參數}?則是圖像翻譯網絡的參數
假設一個源域x0A∈XAx^A_0∈X^Ax0A?∈XA和一個目標域x0B∈XBx^B_0∈X^Bx0B?∈XB,我們迭代優化每個域pθAAp^A_{θ^A}pθAA?,pθBBp^B_{θ^B}pθBB?的反向過程和領域翻譯函數x~0B=g?AA(x0A),x~0A=g?BB(x0B)\tilde{x}^B_0=g^A_{\phi^A}(x^A_0),\tilde{x}^A_0=g^B_{\phi^B}(x^B_0)x~0B?=g?AA?(x0A?),x~0A?=g?BB?(x0B?),它們僅用于模型訓練,通過DSM(Domain-Specific Modeling?)分別將域A轉移到B和B轉移到A(圖2(上))。為了使源域和目標域圖像對之間能夠轉換pθAAp^A_{θ^A}pθAA?,pθBBp^B_{θ^B}pθBB?被修改為pθAA(xt?1A∣xtA,x~tB),pθBB(xt?1B∣xtB,x~tA)p^A_{θ^A}(x^A_{t?1}|x^A_t,\tilde{x}^B_t),p^B_{θ^B}(x^B_{t?1}|x^B_t,\tilde{x}^A_t)pθAA?(xt?1A?∣xtA?,x~tB?),pθBB?(xt?1B?∣xtB?,x~tA?)等對生成的圖像具有條件。在反向過程優化步驟中,模型參數θA、θB更新為基于式(8)的最小損失函數,重寫為:
域平移函數的參數?A,?B\phi^A,\phi^B?A,?B更新為最小化DSM目標,固定θA、θB
重點解釋一下(11)(12)損失的含義,關鍵是理清幾個記法\color{red}{重點解釋一下(11)(12)損失的含義,關鍵是理清幾個記法}重點解釋一下(11)(12)損失的含義,關鍵是理清幾個記法
tA,tB分別表示A、B域的擴散時刻\color{red}{t^A,t^B分別表示A、B域的擴散時刻}tA,tB分別表示A、B域的擴散時刻
?θAA代表A領域的建模的擴散模型\color{red}{\epsilon^A_{\theta^A}代表A領域的建模的擴散模型}?θAA?代表A領域的建模的擴散模型
xt(x0A,?)代表A領域t時刻的加噪圖像\color{red}{x_t(x^A_0,\epsilon)代表A領域t時刻的加噪圖像}xt?(x0A?,?)代表A領域t時刻的加噪圖像
x~0B=g?AA(x0A),x~0A=g?BB(x0B)代表無噪聲的原始圖像經過翻譯網絡翻譯的結果\color{red}{\tilde{x}^B_0=g^A_{\phi^A}(x^A_0),\tilde{x}^A_0=g^B_{\phi^B}(x^B_0)代表無噪聲的原始圖像經過翻譯網絡翻譯的結果}x~0B?=g?AA?(x0A?),x~0A?=g?BB?(x0B?)代表無噪聲的原始圖像經過翻譯網絡翻譯的結果
xt(g?BB(x0B),?)代表經過翻譯后的B域圖像在t時刻的加噪圖像\color{red}{x_t(g^B_{\phi^B}(x^B_0),\epsilon)代表經過翻譯后的B域圖像在t時刻的加噪圖像}xt?(g?BB?(x0B?),?)代表經過翻譯后的B域圖像在t時刻的加噪圖像
g?BB(xt(x0B),?)代表B域在t時刻的加噪圖像經過翻譯后的結果\color{red}{g^B_{\phi^B}(x_t(x^B_0),\epsilon)代表B域在t時刻的加噪圖像經過翻譯后的結果}g?BB?(xt?(x0B?),?)代表B域在t時刻的加噪圖像經過翻譯后的結果
xt(g?BB(x0B),?)=x~tBA表示無噪聲的B影像翻譯至域A在tB時刻的加噪圖像,xt(g?AA(x0A),?)=x~tAB\color{red}{x_t(g^B_{\phi^B}(x^B_0),\epsilon)=\tilde{x}^A_{t^B}表示無噪聲的B影像翻譯至域A在t^B時刻的加噪圖像,x_t(g^A_{\phi^A}(x^A_0),\epsilon)=\tilde{x}^B_{t^A}}xt?(g?BB?(x0B?),?)=x~tBA?表示無噪聲的B影像翻譯至域A在tB時刻的加噪圖像,xt?(g?AA?(x0A?),?)=x~tAB?
g?BB(xt(x0B),?)=x~tAB表示無噪聲的A影像翻譯至域B在tA時刻的加噪圖像,g?AA(xt(x0A),?)=x~tBA\color{red}{g^B_{\phi^B}(x_t(x^B_0),\epsilon)=\tilde{x}^B_{t^A}表示無噪聲的A影像翻譯至域B在t^A時刻的加噪圖像,g^A_{\phi^A}(x_t(x^A_0),\epsilon)=\tilde{x}^A_{t^B}}g?BB?(xt?(x0B?),?)=x~tAB?表示無噪聲的A影像翻譯至域B在tA時刻的加噪圖像,g?AA?(xt?(x0A?),?)=x~tBA?
10.11未理清,慎看,等我慢慢來\color{red}{10.11未理清,慎看,等我慢慢來}10.11未理清,慎看,等我慢慢來
此外,通過[44]中提出的周期一致性損失對訓練進行正則化,使兩個域翻譯模型都是雙客觀的。將(1)式的循環一致性損失改寫為:
損失函數描述如下:
其中λcyc為循環一致性損失的權重。算法1給出了整個訓練過程。
3.2. 圖像翻譯推理
使用訓練過的θA、θB,將輸入圖像從源域轉換到目標域。在推理中不再使用域翻譯函數。相反,目標域圖像由高斯噪聲和噪聲源域圖像逐步合成.在采樣過程中,生成過程以輸入源域圖像為條件,這些源域圖像受來自t=T直到任意時間步長tr∈[1,T]正向過程的擾動。然后,這個時間步驟通過反向過程重新生成,我們將其表示為釋放時間(圖2(底部))。從域Ax0Ax^A_0x0A?轉移到域B x^0B\hat{x}^B_0x^0B? 的情況描述如下:
整個翻譯(推理)過程在Algorithm2中介紹
4.評估
我們的方法與之前的未配對圖像到圖像翻譯方法[44][25][16][24]在公共數據集上進行了評估,其中地面真相輸入輸出對是可用的[39][44][17]
4.1.基線
從我們提出的方法中推斷出的輸出圖像與CycleGAN[44]、UNIT[25]、MUNIT[16]和DRIT++[24]的輸出圖像進行了定量和定性比較(圖5)。
4.2.數據集
我們為實驗準備了以下數據集。每個數據集包括圖像的兩個域(此處縮寫為域A和域B),并分為訓練和測試數據集。所有圖像的大小都提前調整為64×64像素。
Facade:CMP Facades dataset中的(A)照片和(B)語義分割標記了建筑物圖像[39]。包括400對用于訓練,106對用于測試
Photos-Maps:(A)照片和(B)地圖圖像是從谷歌地圖中抓取的[44]。訓練1096對,測試1098對。
Summer-Winter:使用Flickr API下載的(A)summer和(B)winterYosemite圖像[44]。數據集包括1231張夏季和962張冬季訓練圖像,309張夏季和238張冬季測試圖像。
RGB-Thermal:KAIST多光譜行人數據集的(A)可見和(B)行人熱紅外圖像[17]。此數據集包含各種常規交通場景中的對齊可見圖像和熱圖像。由于圖像標注了行人邊界框的區域,我們從一個場景(set00)中裁剪723對行人區域(大于64×64像素大小)用于訓練,從另一個場景中裁剪425對行人區域用于測試(圖3)。
圖3:RGB–從KAIST多光譜行人數據集裁剪的熱數據集[17]。
4.3.通過UNIT-DDPM的圖像到圖像翻譯
圖4:我們的U-net架構圖。每個Conv2d或ConvTranspose2d在輸入之前都包括BatchNorm2d和ReLU。
我們方法的去噪模型是使用基于PixelCNN[35]和Wide ResNet[43]的U-Net[34]實現的,變壓器正弦位置嵌入[40]對時間步長T=1000進行編碼,αT從α1=0.9999線性減少到αT=0.98,與原始DDPM[15]相同,但用ReLU[27]替換Swith[33],組歸一化[42]與批歸一化[18],并移除自我注意塊以減少計算(圖4)。域轉換函數具有ResNet[13]體系結構,與U-net具有相同的層深度。在訓練中,一對訓練樣本和另一個偽域樣本連接為輸入。模型參數更新為λcyc=10.0,批次大小B=16,通過Adam(初始學習率η=10?5,β1= 0.5,β2= 0.999)迭代20000epochs
4.4.結果
表1:不同圖像到圖像轉換方法的Fríechet初始距離(FID)[14]分數
圖5:不同圖像到圖像轉換方法生成的輸出圖像示例。
圖6:通過我們的方法生成漸進圖像的示例
由每種方法合成的輸出圖像如圖5所示,從圖中可以明顯看出,我們的方法在質量上比CycleGAN[44]、UNIT[25]、MUNIT[16]和DRIT++[24]生成的圖像更逼真。我們還發現,我們的方法根本沒有受到模式崩潰的影響,由于不需要對抗訓練,因此得到的模型訓練更加穩定。此外,圖6顯示了反向過程中通過我們的方法進行的累進采樣。通過地面實況和輸出圖像之間的Fríechet InceptionDistance(FID)[14]進行比較,如表1所示。在所有基準數據集Facade、Photos–Maps、Summer–Winter、,and RGB–Thermal使~在所有此類數據集中,與之前的方法相比,為20%。
4.5.消融實驗
圖7:FID與釋放時間的比較。
我們通過從tr=1變為900來分析釋放時間對性能的影響。FID的比較(圖7)顯示沒有顯著變化。我們可以觀察到歸因于釋放時間變化的細微差異,但這取決于數據集。這一結果表明,釋放時間超參數的調整依賴于數據集,進一步的分析代表了未來工作的方向
4.6.局限
圖4:我們的U-net架構圖。每個Conv2d或ConvTranspose2d在輸入之前都包括BatchNorm2d和ReLU。
圖8:使用我們的方法訓練的模型生成的256×256像素的輸出圖像示例(Facade數據集大小調整為256×256像素)
我們還觀察了輸入圖像分辨率增加256×256像素時的輸出圖像。高分辨率模型使用相同的網絡架構(圖4)和第節中的學習參數進行訓練。4.3.圖8所示的輸出在整個像素上被錯誤著色。這表明,由于高維圖像空間的復雜性增加,模型無法學習圖像的全局信息。一種可能的解決方案是在去噪模型中的Unet中添加更多層和注意機制,以便捕獲更精確的圖像多分辨率結構,這將在未來的工作中進行研究。
5.結論
本文提出了一種新的非成對I2I翻譯方法,該方法使用DDPM而不需要對抗訓練,稱為帶去噪擴散概率模型的未成對圖像翻譯(UNIT-DDPM)。我們的方法訓練一個生成模型,通過最小化另一個域上的DSM目標,將兩個域上圖像的聯合分布推斷為馬爾可夫鏈。隨后,領域翻譯模型將同時更新,以最小化該DSM目標。在聯合優化這些生成和翻譯模型后,我們通過去噪MCMC方法生成目標域圖像,該方法以基于Langevin動力學的輸入源域圖像為條件。我們的方法為I2I翻譯提供穩定的模型訓練,并生成高質量的圖像輸出。
盡管實驗顯示了令人信服的結果,但我們方法的當前形式遠遠不是一致肯定的,特別是在分辨率更高的情況下。為了解決這個問題,需要修改實現以更準確地建模大型圖像。
此外,DDPM的一個缺點是圖像生成的時間。然而,這可以通過修改馬爾可夫過程來加速,例如去噪擴散隱式模型[37]或使用可學習∑θ[28]減少時間步長。未來的工作將考慮修改以實現更短的采樣時間和更高質量的圖像輸出,以及將合成圖像應用于其他下游計算機視覺系統(如對象分類)時的性能評估。
參考文獻
[1] Jianmin Bao, Dong Chen, Fang Wen, Houqiang Li, andGang Hua. Cvae-gan: fine-grained image generation throughasymmetric training. InProc. of the IEEE Intl. Conf. onComputer Vision, 2017. 2
[2] Qifeng Chen and Vladlen Koltun.Photographic imagesynthesis with cascaded refinement networks. InProc. ofthe IEEE Intl. Conf. on Computer Vision, 2017. 2
[3] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice:Non-linear independent components estimation.Proc. 3rdIntl Conf. on Learning Representations, 2015.
[4] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio.Density estimation using real nvp. InProc. 5th Intl Conf.on Learning Representations, 2017. 1
[5] Z. Dong, S. Kamata, and T.P. Breckon.Infrared imagecolorization using s-shape network. InProc. Int. Conf. onImage Processing, 2018. 2
[6] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.A neural algorithm of artistic style.CoRR abs/1508.06576,2015. 2
[7] G Gerhart, G Martin, and T Gonda.Thermal imagemodeling.InInfrared Sensors and Sensor Fusion.International Society for Optics and Photonics, 1987. 1
[8] Golnaz Ghiasi, Honglak Lee, Manjunath Kudlur, VincentDumoulin, and Jonathon Shlens. Exploring the structure ofa real-time, arbitrary neural artistic stylization network. InProc. British Machine Vision Conf., 2017. 1, 2
[9] Ian Goodfellow. Nips 2016 tutorial: Generative adversarialnetworks.CoRR abs/1701.00160, 2017. 2
[10] Ian Goodfellow, Yoshua Bengio, and Aaron C. Courville.Deep learning.Nature, 521:436–444, 2015. 1
[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. InAdvances inNeural Information Processing Systems 27. 2014. 1, 2
[12] Karol Gregor, Ivo Danihelka, Andriy Mnih, CharlesBlundell, and Daan Wierstra. Deep autoregressive networks.InProc. Intl. Conf. on Machine Learning, 2014. 1
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. InProc. ofthe IEEE Conf. on Computer Vision and Pattern Recognition,2016. 5
[14] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter. Gans trained bya two time-scale update rule converge to a local nashequilibrium.InProc. Advances in Neural InformationProcessing Systems 30. 2017. 2, 7
[15] Jonathan Ho, Ajay Jain, and Pieter Abbeel.Denoisingdiffusionprobabilisticmodels.arXivpreprintarXiv:2006.11239, 2020. 1, 3, 5
[16] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz.Multimodal unsupervised image-to-image translation.InProc. of the European Conf. on Computer Vision, 2018. 2, 3,5, 6, 7
[17] Soonmin Hwang, Jaesik Park, Namil Kim, Yukyung Choi,and In So Kweon.Multispectral pedestrian detection:Benchmark dataset and baselines. InProc. of IEEE Conf.on Computer Vision and Pattern Recognition, 2015. 2, 5
[18] Sergey Ioffe and Christian Szegedy. Batch normalization:Accelerating deep network training by reducing internalcovariate shift. InProc. Intl. Conf. on Machine Learning,2015. 5
[19] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros.Image-to-image translation with conditionaladversarial networks.InProc. of the IEEE Conf. onComputer Vision and Pattern Recognition, 2017. 1, 2
[20] Philip T. G. Jackson, Amir Atapour Abarghouei, StephenBonner, Toby P. Breckon, and Boguslaw Obara.Styleaugmentation: Data augmentation via style randomization.InProc. IEEE Conf. on Computer Vision and PatternRecognition Workshops, 2019
[21] Diederik P. Kingma and Jimmy Ba. Adam: A method forstochastic optimization. InProc. 3rd Intl. Conf. on LearningRepresentations, 2015. 7
[22] Durk P Kingma and Prafulla Dhariwal. Glow: Generativeflow with invertible 1x1 convolutions. InProc. Advances inNeural Information Processing Systems 31, 2018. 1
[23] Christian Ledig, Lucas Theis, Ferenc Husz ?ar, JoseCaballero, Andrew Cunningham, Alejandro Acosta, AndrewAitken, Alykhan Tejani, Johannes Totz, Zehan Wang,et al. Photo-realistic single image super-resolution using agenerative adversarial network. InProc. of the IEEE Conf.on Computer Vision and Pattern Recognition, 2017. 2
[24] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, ManeeshSingh, and Ming-Hsuan Yang.Diverse image-to-imagetranslation via disentangled representations. InProc. of theEuropean Conf. on Computer Vision, 2018. 2, 3, 5, 6, 7
[25] Ming-Yu Liu, Thomas Breuel, and Jan Kautz. Unsupervisedimage-to-image translation networks. InAdvances in NeuralInformation Processing Systems 30. 2017. 2, 3, 5, 6, 7
[26] Zak Murez, Soheil Kolouri, David Kriegman, RaviRamamoorthi, and Kyungnam Kim.Image to imagetranslation for domain adaptation. InProc. of the IEEE Conf.on Computer Vision and Pattern Recognition, 2018. 2
[27] Vinod Nair and Geoffrey E Hinton. Rectified linear unitsimprove restricted boltzmann machines. InProc. of the 27thIntl. Conf. on Machine Learning, 2010. 5
[28] AlexNicholandPrafullaDhariwal.Improveddenoising diffusion probabilistic models.arXiv preprintarXiv:2102.09672, 2021. 8
[29] Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, ?ukaszKaiser, Noam Shazeer, Alexander Ku, and Dustin Tran.Image transformer.InProc. 6th Intl Conf. on LearningRepresentations, 2018. 1
[30] Patrick P ?erez, Michel Gangnet, and Andrew Blake. Poissonimage editing. InACM SIGGRAPH 2003 Papers, 2003. 1
[31] Przemyslaw Prusinkiewicz and Mark Hammel. A fractalmodel of mountains and rivers. InGraphics Interface, 1993.1
[32] Yunchen Pu, Zhe Gan, Ricardo Henao, Xin Yuan, ChunyuanLi, Andrew Stevens, and Lawrence Carin.Variationalautoencoder for deep learning of images, labels and captions.InAdvances in Neural Information Processing Systems 29.2016. 1
[33] Prajit Ramachandran, Barret Zoph, and Quoc V. Le.Searching for activation functions.CoRR abs/1710.05941,2017. 5
[34] Olaf Ronneberger, Philipp Fischer, and Thomas Brox.U-net:Convolutional networks for biomedical imagesegmentation. InIntl. Conf. on Medical Image Computingand Computer-Assisted Intervention, 2015. 2, 5
[35] Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P.Kingma.Pixelcnn++:A pixelcnn implementationwith discretized logistic mixture likelihood and othermodifications.InProc. 5th Intl Conf. on LearningRepresentations, 2017
[36] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan,and Surya Ganguli.Deep unsupervised learning usingnonequilibrium thermodynamics.InProc. of MachineLearning Research 37, 2015. 1
[37] Jiaming Song,Chenlin Meng,and Stefano Ermon.Denoising diffusion implicit models.arXiv preprintarXiv:2010.02502, 2020. 8
[38] Yang Song and Stefano Ermon. Generative modeling byestimating gradients of the data distribution.InProc.Advances in Neural Information Processing Systems 32.2019. 1
[39] Radim Tyleˇcek and RadimˇS ?ara. Spatial pattern templatesfor recognition of objects with regular structure. InGermanConference on Pattern Recognition, 2013. 2, 5
[40] Ashish Vaswani, Noam Shazeer, Niki Parmar, JakobUszkoreit, Llion Jones, Aidan N Gomez, ? ukasz Kaiser, andIllia Polosukhin. Attention is all you need. InProc. Advancesin Neural Information Processing Systems 30, 2017. 5
[41] Pascal Vincent.A connection between score matchingand denoising autoencoders.Neural computation,23(7):1661–1674, 2011. 3
[42] Yuxin Wu and Kaiming He. Group normalization. InProc.of the European Conf. on Computer Vision, 2018. 5
[43] Sergey Zagoruyko and Nikos Komodakis. Wide residualnetworks. InProc. of the British Machine Vision Conference,2016. 5
[44] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A.Efros.Unpaired image-to-image translation usingcycle-consistent adversarial networks.InProc. IEEEIntl. Conf. on Computer Vision, 2017. 1, 2, 3, 4, 5, 6, 7
[45] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, TrevorDarrell, Alexei A Efros, Oliver Wang, and Eli Shechtman.Toward multimodal image-to-image translation. InProc.Advances in Neural Information Processing Systems 30.2017. 2
[46] Song-Chun Zhu. Statistical modeling and conceptualizationof visual patterns.IEEE Transactions on Pattern Analysisand Machine Intelligence, 25(6):691–712, 2003. 110
總結
以上是生活随笔為你收集整理的2022图像翻译/扩散模型:UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 解决object references
- 下一篇: 《乔布斯的魔力演讲》读书笔记