CVPR2020/UDA/图像翻译-Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域对应
Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域對應學習的圖像翻譯
- 0.摘要
- 1.概述
- 2.相關工作
- 2.1.圖像到圖像的翻譯
- 2.2.基于范例的圖像合成
- 2.3.語義關聯性
- 3.方法
- 3.1. 跨域通信網絡
- 3.1.1.領域對齊
- 3.1.2.共享域內的對應
- 3.2.翻譯網絡
- 3.3.基于范例的翻譯的損失
- 3.3.1.偽范例對的損失
- 3.3.2.領域對齊損失
- 3.3.3.翻譯范例損失
- 3.3.4.對應正則化
- 3.3.5.對抗損失
- 3.3.6.總損失
- 4.實驗
- 6.結論
- 參考文獻
論文地址
代碼地址
0.摘要
我們提出了一個基于范例的圖像翻譯的通用框架,該框架從給定范例圖像的不同域(例如,語義分割掩碼、邊緣映射或姿勢關鍵點)中的輸入合成照片真實感圖像。輸出的樣式(例如顏色、紋理)與示例中語義上對應的對象一致。我們建議共同學習跨域對應和圖像翻譯,這兩項任務相互促進,因此可以在較弱的監督下學習。來自不同區域的圖像首先與中間區域對齊,在中間區域建立密集的對應關系。然后,網絡根據樣本中語義對應的補丁的出現來合成圖像。我們在幾個圖像翻譯任務中展示了我們的方法的有效性。我們的方法在圖像質量方面明顯優于最先進的方法,圖像風格忠實于樣本,語義一致。此外,我們還展示了我們的方法在幾個應用中的實用性
1.概述
條件圖像合成的目的是根據一定的輸入數據生成逼真的圖像[18,45,52,6]。我們感興趣的是一種特定形式的條件圖像合成,它將語義分割蒙版、邊緣映射和關鍵點轉換為真實感圖像,給出一個示例圖像,如圖1所示。我們將這種形式稱為基于范例的圖像平移。它允許根據用戶給出的范例對多模態生成進行更靈活的控制。
圖1:基于范例的圖像合成。給定樣本圖像(第一行),我們的網絡以分割蒙版、邊緣和姿態的形式將輸入轉換為逼真的圖像(第二行)。更多結果請參考補充材料。
最近的方法使用神經網絡直接學習從語義分割蒙版到范例圖像的映射[17,38,34,44]。這些方法中的大多數都將范例的樣式編碼成一個潛在的樣式向量,網絡從中合成具有與范例相似的所需樣式的圖像。然而,樣式代碼只描述了范例的全局樣式,而忽略了空間性相關的信息。因此,它導致了一些局部風格在最終的圖像中被“洗去”。
為了解決這個問題,必須在圖像轉換之前建立輸入和范例之間的跨域對應關系。作為圖像類比[14]的擴展,深度類比[27]試圖在圖像對之間找到密集的語義對應關系。它利用在真實圖像分類任務中預先訓練的VGG的深層特征進行匹配。我們認為,這種表示可能無法處理從掩模(或邊緣、關鍵點)到照片的更具挑戰性的映射,因為預先訓練的網絡無法識別這些圖像。為了在訓練中考慮蒙版(或邊緣),一些方法[10,46,5]明確地將范例圖像分割為語義區域,并學習分別合成不同的部分。通過這種方式,它成功地產生了高質量的結果。然而,這些方法都是任務特定的,不適合一般翻譯。
如何為基于范例的圖像平移找到一個更普遍的解決方案是不平凡的。我們的目標是學習跨域圖像(如mask-to-image、edge-to-image、key - point -to-image等)的密集語義對應,然后利用它來指導圖像的翻譯。這是一種弱監督學習,因為我們既沒有對應的注解,也沒有隨機范例給出的綜合基礎真理。
在本文中,我們提出了一個跨域通信網絡(CoCosNet),它可以同時學習跨域通信和圖像翻譯。該網絡結構包括兩個子網絡:1)跨域對應網絡將不同域的輸入轉換為中間特征域,從而建立可靠的密集對應;2)翻譯網絡,使用一組空間變異的去規范化塊[38]逐步合成輸出,使用來自一個扭曲的范例的樣式細節,根據估計的對應關系語義上對齊到蒙版(或邊緣,關鍵點地圖)。兩個子網絡相互促進,用新穎的損耗函數端到端學習。我們的方法在圖像質量方面比以前的方法有很大的優勢,實例級外觀忠實于范例。此外,隱式學習的跨域通信可以實現一些有趣的應用,如圖像編輯和化妝轉移。我們的貢獻可以總結如下:
- 我們解決了圖像平移弱監督聯合學習的密集跨域對應問題。
- 通過跨域對應,我們提出了一個基于范例的圖像平移的通用解決方案,該方案首次在實例級輸出與范例的精細結構相似的圖像。
- 我們的方法在圖像質量方面優于最先進的方法,在各種應用任務中有很大的優勢。
2.相關工作
2.1.圖像到圖像的翻譯
圖像平移的目標是學習不同圖像域之間的映射關系。當代最著名的方法是通過條件生成對抗網絡[36]來解決這個問題,該網絡利用成對數據[18,45,38]或非成對數據[52,47,22,29,42]。由于從一個圖像域到另一個圖像域的映射本質上是多模態的,接下來的工作通過從潛在空間進行隨機采樣來提高合成的多樣性[53,17,24]。然而,這些方法都不允許對輸出進行精細的控制,因為潛在的表示相當復雜,并且與圖像風格沒有明確的對應關系。相比之下,我們的方法支持根據用戶給出的范例定制結果,這允許更靈活地控制多模態生成。
2.2.基于范例的圖像合成
近年來,一些作品[39,44,34,40,2]提出了在范例的指導下,從語義布局合成真實感圖像。非參數或半參數方法[39,2]通過合成從大型數據庫中檢索到的圖像片段來合成圖像。然而,主流作品將這個問題表述為圖像到圖像的翻譯。Huang et al. [17] and Ma et al.[34]提出采用自適應實例歸一化(AdaIN)[16]將樣式代碼從范例轉移到源圖像中。Park等人的[38]學習了一種編碼器,將范例圖像映射為一個向量,圖像將由此進一步合成。在[44]中提出了風格一致性鑒別器來檢測圖像對是否表現出相似的風格。但該方法需要從視頻片段中構建風格一致的圖像對,不適合一般的圖像平移。與上面所有只傳遞全局樣式的方法不同,我們的方法從語義上對應的范例區域傳遞精細樣式。我們的工作受到了最近基于范例的圖像著色的啟發[48,13],但我們解決了一個更普遍的問題:在不同的域之間轉換圖像。
2.3.語義關聯性
早期關于語義對應的研究[33,8,43]主要關注手工特征的匹配。隨著卷積神經網絡的出現,深度特征被證明是表達高級語義的有力工具。Long et al.[32]首先提出通過匹配從預先訓練的分類模型中提取的深度特征來建立語義對應。接下來的研究通過加入額外的標注[51,7,11,12,21,25],采用由粗到細的策略[27]或保留可靠的稀疏匹配[1],進一步提高了對應質量。然而,這些方法都只能處理自然圖像之間的對應關系,而不能處理跨域圖像,如邊緣圖像和真實感圖像。我們探索這個新的場景,并在弱監督的情況下隱式學習任務。
3.方法
我們的目標是學習翻譯從源域A到目標域B給定一個輸入圖像xA∈A范例圖像和yB∈B .生成的輸出需要符合xA的語義內容,而類似的風格內容與yB相似。為此,首先建立xA和yB之間的對應關系,它們位于不同的領域,并相應地對示例圖像進行扭曲,使其語義與xA一致(章節3.1)。然后,根據扭曲的范例(第3.2節)合成一幅圖像。整個網絡結構如圖2所示,以掩碼進行圖像合成為例。
圖2:CoCosNet架構的圖示。給定輸入xA∈ A和范例yB∈ B、 對應子模塊將它們調整到同一個域中,在該域中可以建立密集的對應關系。然后,翻譯網絡根據扭曲的樣本生成最終輸出→x,產生基于范例的翻譯輸出
3.1. 跨域通信網絡
通常,語義對應是通過將特征域中的補丁[27,25]與預先訓練的分類模型進行匹配來發現的。然而,預先訓練的模型通常針對特定類型的圖像(例如自然圖像)進行訓練,因此提取的特征不能概括為描述另一個領域的語義。因此,以前的工作無法建立異質圖像之間的對應關系,例如邊緣圖像和照片真實感圖像。為了解決這個問題,我們提出了一種新的跨域通信網絡,將輸入域映射到共享域,在共享域中,表示能夠表示兩個輸入域的語義。因此,可以在域S中找到可靠的語義對應。
3.1.1.領域對齊
如圖2所示,我們首先將輸入圖像和示例適配到共享域S。具體而言,xA和yB被送入特征金字塔網絡,該網絡通過利用局部和全局圖像上下文來提取多尺度深度特征[41,28]。提取的特征映射進一步轉換為S中的表示,用xS表示∈ RHW×C和yS∈ RHW×C(H,W為特征空間尺寸;C為通道方向尺寸)。FA→S和FB→S分別是兩個輸入域的域變換,因此自適應表示可以表示為,:
其中θ表示可學習參數。xS和yS包含區分性特征,這些特征描述了輸入的語義。在實踐中,域對齊對于對應來說至關重要,因為只有當xS和yS位于同一個域中時,它們才能進一步匹配某種相似性度量。
3.1.2.共享域內的對應
我們建議將xS和yS的特征與[48]中提出的對應層相匹配。具體來說,我們計算一個相關矩陣M∈ RHW×HW,其中每個元素都是成對的特征相關性,
這里是x∧S(u)和y∧S(v)∈ RC表示在位置u和v處的xS和yS的信道集中特性,即x∧S(u)=xS(u)? 平均值(xS(u))和y∧S(v)=yS(v)? 平均值(yS(v))。M(u,v)表示xS(u)和yS(v)之間有更高的語義相似性 .
現在的挑戰是如何在沒有直接監督的情況下學習對應。我們的想法是與圖像翻譯共同訓練。翻譯網絡可能會發現,僅通過引用樣本中正確的對應區域,更容易生成高質量的輸出,這隱含地推動網絡學習準確的對應。有鑒于此,我們根據M對yB進行了扭曲,得到了扭曲的例子ry→x∈ RHW。具體來說,我們通過選擇yB中最相關的像素并計算其加權平均值獲得了ry→x
這里,α是控制softmax清晰度的系數,我們將其默認值設置為100。在接下來的過程中,圖像將以ry→x為條件進行合成,對應網絡在間接監督下學習其任務。
3.2.翻譯網絡
在ry→x的指導下,翻譯網絡G將常量代碼z轉換為所需的輸出x∧B∈ B。為了保持ry→x變化的結構信息,我們使用空間自適應非規范化(SPADE)塊[38]將空間變化的樣本樣式投射到不同的激活位置。如圖2所示,翻譯網絡有L層,范例樣式逐步注入。相對于[38]為批量歸一化(BN)計算分層統計量,我們經驗地發現,計算每個空間位置統計信息的標準化,即位置標準化(PN)[26],能更好地保留先前各層中合成的結構信息。因此,我們建議結合位置規范化和空間變異非規范化,從樣本中進行高保真紋理傳輸 。
形式上,給定激活Fi∈RCi×Hi×Wi在第i個規范化層之前,我們通過下式注入范例風格:
其中統計值μih,w和σih,w只在通道方向上計算,與BN相比。反正態化參數αi和βi表征了由θT參數化的投影T從ry→x映射到樣本的樣式。
我們使用兩個普通卷積層來實現T,因此α和β具有與ry→x相同的空間大小。通過每個歸一化層的樣式調制,整體圖像轉換可以表示為:
其中θG為可學參數。
3.3.基于范例的翻譯的損失
我們用以下的損失函數聯合訓練跨域對應和圖像合成,希望這兩個任務能互相受益。
3.3.1.偽范例對的損失
我們利用成對的數據{xA, xB}構建范例訓練對,這些數據在語義上是一致的,但在域上是不同的。具體來說,我們對xB應用隨機幾何畸變,得到畸變圖像xˋB = h(xB),其中h表示圖像扭曲或隨機翻轉等增廣操作。當xˋB被視為范例時,xA的翻譯應該是對應的xB。通過這種方法,我們得到了偽范例對。我們建議通過最小化特征匹配損失來懲罰翻譯輸出和地面真值xB之間的差異[19,18,6]
式中,φl代表預訓練VGG-19模型中l層的激活,λl平衡各項。
3.3.2.領域對齊損失
我們需要確保轉換后的嵌入xS和yS位于同一個域中。為了實現這一點,我們再次利用圖像對{xA,xB},其特征嵌入應在域轉換后精確對齊:
請注意,我們將通道規格化作為FA→S的最后一層和FB→S因此,最小化這個域差異不會導致一個微不足道的解決方案(即,小幅度的激活)。
3.3.3.翻譯范例損失
當樣本的語義布局與源圖像有顯著差異時,使用成對或偽樣本對進行學習很難推廣到一般情況下。為了解決這個問題,我們提出以下損失。
首先,最終輸出應該與輸入xA或對應的xB的語義一致。因此,我們懲罰知覺損失,以最小化語義差異:.
這里我們選擇φl作為VGG-19網絡中relu4 2層后的激活,因為這一層主要包含高級語義。
另一方面,我們需要一個損失函數來鼓勵x∧B采用來自yB的語義對應補丁的外觀。為此,我們使用[35]中提出的上下文損失來匹配x∧B和yB之間的統計數據,即
其中,i和j索引的是包含nl特征的第φl層的特征圖,ωl控制不同層的相對重要性。盡管如此,我們還是依賴于經過預訓練的VGG特性。與主要利用高級特征的Lperc相反,上下文丟失使用relu2.2到relu5.2層,因為低級特征捕獲更豐富的樣式信息(例如顏色或紋理),這些信息對于傳遞示例外觀非常有用。
3.3.4.對應正則化
此外,學習到的對應應該是循環一致的,即圖像在前后扭曲后應該匹配自身:
其中ry→x→y(v) = ∑u softmaxu(αM(u, v))·ry→x(u)是前后扭曲的圖像。事實上,這個目標函數是至關重要的,因為施加在網絡末端的剩余損失函數是弱監督,不能保證網絡學習有意義的對應。從圖9可以看出,如果沒有Lreg,網絡雖然可以生成似是而非的翻譯結果,但卻不能正確學習跨域對應關系。正則化Lreg通過約束反向扭曲的圖像ry→x,使其保持在域B中,這隱含地鼓勵對應如所期望的那樣有意義。
3.3.5.對抗損失
我們訓練一個鑒別器[9]來鑒別域b的平移輸出和真實樣本。同時交替訓練鑒別器D和平移網絡G,直到合成的圖像看起來與真實圖像不可區分。D和G的對抗目標分別定義為:
其中h(t) = min(0 ,?1 + t)是用于正則化鑒別器的鉸鏈函數[49,3]
3.3.6.總損失
總之,我們優化了以下目標:
這里用ψ來平衡目標。
4.實驗
6.結論
在本文中,我們提出了CocosNet,它依靠跨域對應來翻譯圖像。我們的方法在定量和定性上都比領先的方法取得了更好的性能。此外,我們的方法學習了跨域圖像的密集對應,為一些有趣的應用鋪平了道路。我們的方法是計算密集型的,我們把高分辨率的合成留給未來的工作。
參考文獻
[1] K. Aberman, J. Liao, M. Shi, D. Lischinski, B. Chen, and D. Cohen-Or, “Neural best-buddies: Sparse cross-domain correspondence,” ACM Transactions on Graphics (TOG), vol. 37, no. 4, p. 69, 2018. 2
[2] A. Bansal, Y . Sheikh, and D. Ramanan, “Shapes and context: In-the-wild image synthesis & manipulation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2317–2326. 2
[3] A. Brock, J. Donahue, and K. Simonyan, “Large scale GAN training for high fidelity natural image synthesis,” arXiv preprint arXiv:1809.11096, 2018. 5, 7
[4] Z. Cao, G. Hidalgo, T. Simon, S.-E. Wei, and Y . Sheikh, “Openpose: realtime multi-person 2d pose estimation using part affinity fields,” arXiv preprint arXiv:1812.08008, 2018. 5
[5] H. Chang, J. Lu, F. Y u, and A. Finkelstein, “Pairedcyclegan: Asymmetric style transfer for applying and removing makeup,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 40–48. 2
[6] Q. Chen and V . Koltun, “Photographic image synthesis with cascaded refinement networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1511–1520. 1, 4
[7] C. B. Choy, J. Gwak, S. Savarese, and M. Chandraker, “Universal correspondence network,” in Advances in Neural Information Processing Systems, 2016, pp. 2414–2422. 2
[8] N. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” 2005. 2
[9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672–2680. 5
[10] S. Gu, J. Bao, H. Y ang, D. Chen, F. Wen, and L. Y uan, “Mask-guided portrait editing with conditional gans,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3436–3445. 2
[11] B. Ham, M. Cho, C. Schmid, and J. Ponce, “Proposal flow: Semantic correspondences from object proposals,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 7, pp. 1711–1725, 2017. 2
[12] K. Han, R. S. Rezende, B. Ham, K.-Y . K. Wong, M. Cho, C. Schmid, and J. Ponce, “Scnet: Learning semantic correspondence,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1831–1840. 2
[13] M. He, D. Chen, J. Liao, P . V . Sander, and L. Y uan, “Deep exemplar-based colorization,” ACM Transactions on Graphics (TOG), vol. 37, no. 4, p. 47, 2018. 2
[14] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin, “Image analogies,” in Proceedings of the 28th annual conference on Computer graphics and interactive techniques. ACM, 2001, pp. 327–340. 1
[15] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “Gans trained by a two time-scale update rule converge to a local nash equilibrium,” in Advances in Neural Information Processing Systems, 2017, pp. 6626–6637. 5, 6
[16] X. Huang and S. Belongie, “Arbitrary style transfer in realtime with adaptive instance normalization,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1501–1510. 2
[17] X. Huang, M.-Y . Liu, S. Belongie, and J. Kautz, “Multimodal unsupervised image-to-image translation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 172–189. 1, 2, 6
[18] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros, “Image-toimage translation with conditional adversarial networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1125–1134. 1, 2, 4
[19] J. Johnson, A. Alahi, and L. Fei-Fei, “Perceptual losses for real-time style transfer and super-resolution,” in European conference on computer vision. Springer, 2016, pp. 694– 711. 4
[20] T. Karras, T. Aila, S. Laine, and J. Lehtinen, “Progressive growing of GANs for improved quality, stability, and variation,” arXiv preprint arXiv:1710.10196, 2017. 6
[21] S. Kim, D. Min, B. Ham, S. Jeon, S. Lin, and K. Sohn, “Fcss: Fully convolutional self-similarity for dense semantic correspondence,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6560–6569. 2
[22] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim, “Learning to discover cross-domain relations with generative adversarial networks,” in Proceedings of the 34th International Conference on Machine Learning-V olume 70. JMLR. org, 2017, pp. 1857–1865. 2
[23] D. P . Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014. 5
[24] H.-Y . Lee, H.-Y . Tseng, J.-B. Huang, M. Singh, and M.-H. Y ang, “Diverse image-to-image translation via disentangled representations,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 35–51. 2
[25] J. Lee, D. Kim, J. Ponce, and B. Ham, “Sfnet: Learning object-aware semantic correspondence,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2278–2287. 2, 3
[26] B. Li, F. Wu, K. Q. Weinberger, and S. Belongie, “Positional Normalization,” arXiv e-prints, p. arXiv:1907.04312, Jul. 2019. 4
[27] J. Liao, Y . Y ao, L. Y uan, G. Hua, and S. B. Kang, “Visual attribute transfer through deep image analogy,” arXiv preprint arXiv:1705.01088, 2017. 1, 2, 3
[28] T.-Y . Lin, P . Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125. 3
[29] M.-Y . Liu, T. Breuel, and J. Kautz, “Unsupervised image-toimage translation networks,” in Advances in neural information processing systems, 2017, pp. 700–708. 2
[30] Z. Liu, P . Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proceedings of International Conference on Computer Vision (ICCV), Dec. 2015. 5
[31] Z. Liu, P . Luo, S. Qiu, X. Wang, and X. Tang, “Deepfashion: Powering robust clothes recognition and retrieval with rich annotations,” in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2016. 5
[32] J. L. Long, N. Zhang, and T. Darrell, “Do convnets learn correspondence?” in Advances in Neural Information Processing Systems, 2014, pp. 1601–1609. 2
[33] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer vision, vol. 60, no. 2, pp. 91–110, 2004. 2
[34] L. Ma, X. Jia, S. Georgoulis, T. Tuytelaars, and L. V an Gool, “Exemplar guided unsupervised image-to-image translation with semantic consistency,” ICLR, 2019. 1, 2, 6
[35] R. Mechrez, I. Talmi, and L. Zelnik-Manor, “The contextual loss for image transformation with non-aligned data,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 768–783. 4
[36] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014. 2
[37] T. Miyato, T. Kataoka, M. Koyama, and Y . Y oshida, “Spectral normalization for generative adversarial networks,” arXiv preprint arXiv:1802.05957, 2018. 5
[38] T. Park, M.-Y . Liu, T.-C. Wang, and J.-Y . Zhu, “Semantic image synthesis with spatially-adaptive normalization,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2337–2346. 1, 2, 4, 6
[39] X. Qi, Q. Chen, J. Jia, and V . Koltun, “Semi-parametric image synthesis,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8808– 8816. 2, 5, 6
[40] M. Riviere, O. Teytaud, J. Rapin, Y . LeCun, and C. Couprie, “Inspirational adversarial image generation,” arXiv preprint arXiv:1906.11661, 2019. 2
[41] O. Ronneberger, P . Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234– 241. 3
[42] A. Royer, K. Bousmalis, S. Gouws, F. Bertsch, I. Mosseri, F. Cole, and K. Murphy, “Xgan: Unsupervised imageto-image translation for many-to-many mappings,” arXiv preprint arXiv:1711.05139, 2017. 2
[43] E. Tola, V . Lepetit, and P . Fua, “Daisy: An efficient dense descriptor applied to wide-baseline stereo,” IEEE transactions on pattern analysis and machine intelligence, vol. 32, no. 5, pp. 815–830, 2009. 2
[44] M. Wang, G.-Y . Y ang, R. Li, R.-Z. Liang, S.-H. Zhang, P . Hall, S.-M. Hu et al., “Example-guided style consistent image synthesis from semantic labeling,” arXiv preprint arXiv:1906.01314, 2019. 1, 2
[45] T.-C. Wang, M.-Y . Liu, J.-Y . Zhu, A. Tao, J. Kautz, and B. Catanzaro, “High-resolution image synthesis and semantic manipulation with conditional GANs,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 8798–8807. 1, 2, 6
[46] R. Yi, Y .-J. Liu, Y .-K. Lai, and P . L. Rosin, “Apdrawinggan: Generating artistic portrait drawings from face photos with hierarchical gans,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 10 743–10 752. 2
[47] Z. Yi, H. Zhang, P . Tan, and M. Gong, “Dualgan: Unsupervised dual learning for image-to-image translation,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2849–2857. 2
[48] B. Zhang, M. He, J. Liao, P . V . Sander, L. Y uan, A. Bermak, and D. Chen, “Deep exemplar-based video colorization,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8052–8061. 2, 3
[49] H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Selfattention generative adversarial networks,” arXiv preprint arXiv:1805.08318, 2018. 5
[50] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, “Scene parsing through ade20k dataset,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 633–641. 5
[51] T. Zhou, P . Krahenbuhl, M. Aubry, Q. Huang, and A. A. Efros, “Learning dense correspondence via 3d-guided cycle consistency,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 117– 126. 2
[52] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros, “Unpaired image-to-image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2223–2232. 1, 2
[53] J.-Y . Zhu, R. Zhang, D. Pathak, T. Darrell, A. A. Efros, O. Wang, and E. Shechtman, “Toward multimodal image-to image translation,” in Advances in Neural Information Processing Systems, 2017, pp. 465–476. 2
總結
以上是生活随笔為你收集整理的CVPR2020/UDA/图像翻译-Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域对应的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图片asp木马的制作方法[转]
- 下一篇: STM32F05x加入RDP(LV1)后