當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读

發(fā)布時間：2025/3/21 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

題目：Cascade EF-GAN：局部聚焦?jié)u進式面部表情編輯
時間：2020.3
作者：Rongliang Wu, Gongjie Zhang, Shijian Lu, and Tao Chen
CVPR 2020

Abstract

目前面部表情編輯存在的問題：生成性對抗網(wǎng)絡(luò)（GAN）的最新進展表明，面部表情編輯有了顯著的改進。然而，當(dāng)前的方法仍然容易在表達密集型區(qū)域周圍產(chǎn)生偽影和模糊，并且在處理大間隙表達轉(zhuǎn)換（例如從憤怒到大笑的轉(zhuǎn)換）時，經(jīng)常引入不希望的重疊偽影。

本文提出的方案：
（1）為了解決這些局限性，我們提出了Cascade Expression Focal GAN（Cascade EF-GAN），這是一種新的網(wǎng)絡(luò)，可以使用局部表情焦點進行漸進式面部表情編輯。局部聚焦的引入使Cascade EF-GAN能夠更好地保留眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征和細節(jié)，這進一步有助于減少生成的面部圖像中的偽影和模糊。
（2）此外，設(shè)計了一種創(chuàng)新的級聯(lián)變換策略，將大型面部表情變換分解為級聯(lián)中的多個小型表情變換，這有助于抑制重疊偽影，并在處理大間隙表情變換時產(chǎn)生更逼真的編輯效果。
（3）在兩個公開的面部表情數(shù)據(jù)集上進行的大量實驗表明，我們提出的級聯(lián)EF-GAN在面部表情編輯方面取得了優(yōu)異的性能。

1.Introduction

面部表情編輯發(fā)展現(xiàn)狀：面部表情打開了一扇了解人們內(nèi)部情緒的窗口，傳達了微妙的意圖，關(guān)于面部表情的自動識別有很多研究工作。在數(shù)字媒體的今天和時代，面部表情編輯即將給定面部圖像的表情轉(zhuǎn)換為目標(biāo)表情，而不丟失身份屬性，有可能應(yīng)用于不同的領(lǐng)域，比如說攝影技術(shù)、電影產(chǎn)業(yè)、娛樂業(yè)等。它越來越受到學(xué)術(shù)界和工業(yè)界的關(guān)注。

現(xiàn)有的面部表情編輯方法存在的不足：受生成性對抗網(wǎng)絡(luò)（GANs）最近的成功啟發(fā)，報告的幾項研究工作已經(jīng)取得了非常令人印象深刻的面部表情編輯結(jié)果。另一方面，現(xiàn)有的方法仍然面臨一些約束。首先，現(xiàn)有的方法往往會產(chǎn)生不連貫的偽影和/或模糊，尤其是在那些表情豐富的區(qū)域，如眼睛、鼻子和嘴巴周圍。第二，當(dāng)源面部表情與目標(biāo)面部表情存在較大差距時，現(xiàn)有方法往往會產(chǎn)生重疊偽影，例如從憤怒到大笑的轉(zhuǎn)換。

現(xiàn)有的面部表情編輯方法只將圖像作為整體處理，沒有特別關(guān)注與局部身份相關(guān)的特征（眼/鼻子/嘴巴）：面部表情編輯的任務(wù)需要維護個人身份。作為人類，識別面部圖像的自然方法是特別注意眼睛、鼻子和嘴巴，這主要是因為這些區(qū)域包含豐富的身份相關(guān)信息。另一方面，幾乎所有基于GAN的面部表情編輯方法都只是將輸入的面部圖像作為一個整體進行處理，而沒有特別注意與局部身份相關(guān)的特征，這可能是大多數(shù)現(xiàn)有方法在眼睛、鼻子和嘴巴周圍產(chǎn)生不連貫偽影和模糊的一個主要原因。

此外，據(jù)我們所知，所有現(xiàn)有的基于GANs的面部表情編輯方法都對目標(biāo)表情執(zhí)行一步轉(zhuǎn)換。另一方面，由于網(wǎng)絡(luò)容量的限制，在處理大間隙變換時，單步變換通常會產(chǎn)生重疊偽影（在面部表情變化較大的區(qū)域周圍）。由于面部表情的變化本質(zhì)上是連續(xù)的，如果網(wǎng)絡(luò)將其分解為許多小的變換，那么大的間隙變換應(yīng)該更好地完成。

在這篇論文中，我們提出了一種新的級聯(lián)表達局部GAN（級聯(lián)EF-GAN），用于局部聚焦的漸進式面部表情編輯。級聯(lián)EF-GAN由級聯(lián)中幾個相同的EF-GAN模塊組成，這些模塊以漸進的方式執(zhí)行面部表情編輯。具體而言，設(shè)計了一種創(chuàng)新的級聯(lián)變換策略，將大型面部表情變換分解為多個小型面部表情變換，并循序漸進的執(zhí)行面部表情變換。這種漸進式面部表情轉(zhuǎn)換有助于抑制重疊偽影，并在處理大間隙面部表情轉(zhuǎn)換時實現(xiàn)更健壯、更逼真的表情編輯。此外，每個EF-GAN模塊都包含許多預(yù)定義的局部焦點，分別捕捉眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征。EF-GAN具有與身份相關(guān)的詳細特征，能夠生成具有更少偽影的連貫面部表情圖像。我們提出的級聯(lián)EF-GAN的結(jié)果如圖1所示。

本文的貢獻
（1）首先，我們確定了局部焦點在面部表情編輯中的重要性，并提出了一種新的EF-GAN，它可以捕獲具有多個局部焦點的身份相關(guān)特征，并有效地減少編輯偽影和模糊。
（2）其次，我們提出了一個創(chuàng)新的漸進式面部表情編輯級聯(lián)設(shè)計。級聯(lián)設(shè)計在處理較大間隙的表情轉(zhuǎn)化時，在抑制重疊偽影方面是穩(wěn)健而有效的。（重疊偽影指的是原始表達式和目標(biāo)表達式在輸出中混合的偽影）。
（3）第三，大量實驗表明，Cascade EF-GAN在定量和定性上都實現(xiàn)了出色的面部表情編輯。

2.Related Work

生成性對抗網(wǎng)絡(luò)：生成性對抗網(wǎng)是一種強大的生成模型，可以同時訓(xùn)練生成器生成逼真的假圖像，并訓(xùn)練鑒別器區(qū)分真假圖像。一個活躍的研究主題是條件GANs，它包含條件信息去控制生成圖像。此外，CycleGAN采用cycle-consistency（循環(huán)一致性）損失，并在保留關(guān)鍵屬性的情況下實現(xiàn)圖像到圖像的轉(zhuǎn)換。GANs在不同的計算機視覺任務(wù)中表現(xiàn)出了強大的能力，如自然圖像合成、圖像風(fēng)格轉(zhuǎn)換、超分辨率、圖像修復(fù)、面部屬性編輯、面部圖像合成等，GAN生成的圖像也被應(yīng)用于不同的計算機視覺任務(wù)。我們的Cascade EF-GAN設(shè)計用于執(zhí)行面部表情編輯，使用條件變量控制目標(biāo)表情，并使用循環(huán)一致性以保留身份信息。

面部表情編輯：面部表情編輯很有挑戰(zhàn)性，因為它需要對輸入的面部圖像進行高水平的理解，并事先了解人類表情。與只考慮特定面部區(qū)域外觀修改的一般面部屬性編輯相比，面部表情編輯是一項更具挑戰(zhàn)性的任務(wù)，因為它通常涉及較大的幾何變化，需要同時修改多個面部組件。近年來，隨著GANs的流行，已經(jīng)取得了非常令人印象深刻的進展。例如，G2-GAN和GCGAN采用面部地標(biāo)作為幾何先驗，以控制生成的面部表情的強度，其中g(shù)round-truth圖像對于提取幾何信息至關(guān)重要。ExprGAN引入了一個表達式控制器來控制生成表情的強度，但它需要一個預(yù)訓(xùn)練的人臉識別器來保存身份信息。StarGAN可以使用單一模型跨域翻譯圖像，并通過最小化循環(huán)損失來保留身份特征，但它只能生成離散表達式。GANimation采用動作單元作為表情標(biāo)簽，可以在連續(xù)域中生成表情。它還包括注意機制來更好地保存身份信息。然而，它往往會產(chǎn)生偽影和模糊，無法很好地處理大間隙表情轉(zhuǎn)換。

我們提出的級聯(lián)EF-GAN方法沒有像現(xiàn)有的基于GAN的方法那樣在整個人臉圖像上生成表情，而是將局部焦點放在眼睛、鼻子和嘴的區(qū)域上，有助于抑制偽影和清晰的保留細節(jié)。此外，級聯(lián)策略以漸進的方式編輯表情，在處理非常不同的表情轉(zhuǎn)換時能夠有效地抑制重疊的偽影。

3.Proposed Methods

圖2顯示了我們提出的級聯(lián)EF-GAN的總體框架。如圖2所示，級聯(lián)EF-GAN由級聯(lián)中的多個EF-GAN組成，它們以漸進的方式執(zhí)行表情編輯。每個EF-GAN共享相同的體系結(jié)構(gòu)，其中包括一個表情轉(zhuǎn)換器和一個細化器。具體來說，每個EF-GAN模塊中都包含了幾個預(yù)定義的局部焦點分支，以便更好地保存眼睛、鼻子和嘴巴周圍與身份相關(guān)的特征和細節(jié)。更多細節(jié)將在接下來的小節(jié)中討論。

3.1EF-GAN with Attention-Driven Local Focuses

EF-GAN中的生成模型由一個表情轉(zhuǎn)換器和一個細化器組成，前者執(zhí)行帶有局部焦點的表情編輯，后者融合表情轉(zhuǎn)換器的輸出并細化最終編輯。

表情轉(zhuǎn)換器。圖2顯示了我們的表情轉(zhuǎn)換器的架構(gòu)。我們的級聯(lián)EF-GAN說明：工作流顯示在左側(cè)，每個EF-GAN的詳細信息顯示在放大區(qū)域。表情編輯分為3個步驟，由每個EF-GAN逐步處理。EF-GAN由一個表情轉(zhuǎn)換器和一個細化器組成：前者生成整個人臉圖像和三個局部人臉區(qū)域的初始編輯，后者融合初始編輯并細化，生成表情圖像作為最終輸出。

現(xiàn)有的方法的不足：現(xiàn)有的方法使用單個全局分支處理面部圖像，雖然卷積核在所有空間位置共享，但每個面部區(qū)域都有不同的身份相關(guān)特征。因此，僅僅用一組卷積核將人臉圖像作為一個整體進行處理，不足以捕獲每個人臉區(qū)域周圍與身份相關(guān)的細節(jié)。

我們的表情轉(zhuǎn)換器的改進：包含三個額外的局部分支，分別對眼睛、鼻子和嘴巴周圍的局部區(qū)域進行預(yù)定義聚焦。通過在全局和局部分支中處理面部圖像來應(yīng)對現(xiàn)有方法的不足，其中全局分支捕獲全局面部結(jié)構(gòu)，局部分支關(guān)注更詳細的面部特征。

具體而言，表情轉(zhuǎn)換器將面部圖像和目標(biāo)表情標(biāo)簽作為輸入。與GANimation類似，我們采用了面部動作編碼系統(tǒng)（FACS），該系統(tǒng)將表情編碼為動作單元（AUs），可以使用開源OpenFace提取動作單元。我們采用連續(xù)的AUs強度作為AUs標(biāo)簽來監(jiān)督編輯過程。給定源面部表情圖像，通過裁剪相應(yīng)的局部圖像塊，首先將局部焦點應(yīng)用于眼睛、鼻子和嘴巴區(qū)域。OpenFace還獲取了每個局部焦點的地標(biāo)。然后，將全局人臉圖像及其局部貼片反饋給相應(yīng)的表情轉(zhuǎn)換器的分支，用于表情編輯。注意：所有分支共享相似的網(wǎng)絡(luò)架構(gòu)，但不共享權(quán)重。

我們還將注意力引入到全局和局部分支，以更好地捕捉細節(jié)和抑制偽影。視覺注意的使用已經(jīng)在GANimation中進行了研究，在GANimation中，注意力被設(shè)計用來引導(dǎo)網(wǎng)絡(luò)專注于轉(zhuǎn)換表情相關(guān)區(qū)域。另一方面，在單個全局圖像中應(yīng)用注意通常會引入模糊的注意反應(yīng)，如圖3的第4列所示。這是因為全局注意力往往集中在最顯著的變化上，例如圖3中的口腔區(qū)域，而眼睛和鼻子周圍的細微變化沒有得到很好的關(guān)注。如第3欄所示，對上述局部分支的獨有關(guān)注有助于在局部區(qū)域獲得更清晰的回應(yīng)。

具體來說，每個分支輸出顏色特征圖M_C和注意圖M_A。對于原始輸入圖像I_in，每個分支的初始輸出通過以下方式生成：

? 表示按元素的乘法。這種策略大大簡化了學(xué)習(xí)過程，因為網(wǎng)絡(luò)不需要在人臉圖像統(tǒng)計的約束下直接輸出初始結(jié)果。
表情轉(zhuǎn)換器只生成初始表情編輯，如圖2所示。具體來說，全局分支捕獲全局面部結(jié)構(gòu)和特征，但由于缺少局部細節(jié)，會在局部區(qū)域周圍生成模糊和偽影。局部分支更好地保留了局部細節(jié)，但它們忽略了整個面部表情的大局。因此，這兩種分支的輸出被發(fā)送到細化器進行融合和進一步改進。

細化器：細化器負責(zé)融合表情轉(zhuǎn)換器不同分支的輸出，生成最終的表情編輯。如圖2所示，三個局部分支的輸出首先根據(jù)它們在面部圖像中的各自位置縫合成單個圖像。縫合的圖像然后與全局分支的輸出連接，并饋送到細化器以生成最終的表情編輯。

3.2Cascade Facial Expression Transformation

級聯(lián)框架。給定輸入的面部圖像，上述EF-GAN在大多數(shù)情況下都能夠生成高保真的表情編輯。另一方面，我們的研究表明，EF-GAN在處理大間隙表情轉(zhuǎn)換時，往往會在表情變化較大的區(qū)域周圍產(chǎn)生重疊偽影。我們將大間隙表情轉(zhuǎn)換稱為那些涉及大量外觀和幾何修改以編輯表情的轉(zhuǎn)換，例如從憤怒到大笑的轉(zhuǎn)換。為了解決這個限制，我們提出了級聯(lián)EF-GAN，它以漸進的方式執(zhí)行表情編輯。具體而言，級聯(lián)EF-GAN將大間隙表情轉(zhuǎn)換分解為多個小間隙表情轉(zhuǎn)換，并在級聯(lián)中執(zhí)行大間隙表情轉(zhuǎn)換。它可以更好地保存面部結(jié)構(gòu)和與身份相關(guān)的特征，以及強大地處理大間隙面部變換。

如圖2所示，通過將多個EF-GAN級聯(lián)在一起來實現(xiàn)級聯(lián)表情編輯，其中來自前一個EF-GAN的表情圖像被饋送到下一個EF-GAN作為進一步編輯的輸入。根據(jù)經(jīng)驗，我們使用了3個EF-GAN，圖4顯示了所提出的級聯(lián)EF-GAN的中間和最終表情編輯。如圖4所示，具有挑戰(zhàn)性的大間隙表情編輯是通過多個步驟逐步完成的，從而平滑地生成目標(biāo)表情的真實面部圖像。

中間監(jiān)督：實施漸進式編輯的另一個問題是如何在每個中間步驟中包含監(jiān)督信息。利用輸入表情和目標(biāo)表情的AU標(biāo)簽，直接的方法是通過線性插值生成中間AU。然而，這種插值的AU可能不存在于自然AU的流形上，并導(dǎo)致奇怪的合成。我們通過訓(xùn)練插值器來生成中間AU來解決這個問題。具體來說，我們首先通過線性插值生成偽中間目標(biāo)，并提取偽目標(biāo)和輸入表情的原始AUs標(biāo)簽之間的殘差。原始的AUs標(biāo)簽和殘差隨后被饋送到插值器，以產(chǎn)生中間AUs，從而為中間表情提供監(jiān)督。此外，還訓(xùn)練了一個鑒別器來最大化真實值和插值后的AUs之間的Wasserstein距離，而訓(xùn)練插值器來最小化它們之間的距離，從而使插值后的AU無法與真實樣本區(qū)分開來。注：所有EF-GAN使用相同的AUs插值器。

3.3Learning the Model

損失函數(shù)訓(xùn)練EF-GAN的損失函數(shù)包含五項：
（1）提高合成面部表情圖像的照片真實性的對抗損失，使其與真實樣本無法區(qū)分；
（2）條件表情損失，以確保生成的面部表情圖像符合提供的目標(biāo)AUs標(biāo)簽；
（3）內(nèi)容損失，是為了保存圖像內(nèi)容的身份信息和一致性。
（4）注意損失，鼓勵注意模塊生成稀疏注意圖，并注意真正需要修改的區(qū)域.
（5）用于約束插值A(chǔ)Us標(biāo)簽的插值損失具有期望的語義意義，并且駐留在自然AUs的流形上。總體目標(biāo)函數(shù)表示為：

其中λ1、λ2、λ3和λ4是超參數(shù)。在級聯(lián)EF-GAN中，總損失是每個EF-GAN的等權(quán)損失之和。

訓(xùn)練方案：
（1）如果我們直接級聯(lián)多個EF-GAN模塊并從頭開始訓(xùn)練，很難獲得良好的表情編輯。我們推測，這在很大程度上是由于早期EF-GAN模塊產(chǎn)生的噪聲面部圖像。以這種有噪聲的人臉圖像作為輸入，級聯(lián)EF-GAN的后期很容易受到影響，并產(chǎn)生退化的編輯。此外，不希望的編輯會累積，這使得網(wǎng)絡(luò)參數(shù)難以優(yōu)化。
（2）我們設(shè)計了一個簡單而有效的方案來解決這個問題。具體來說，我們首先訓(xùn)練一個EF-GAN執(zhí)行一步面部表情轉(zhuǎn)換。然后，我們使用訓(xùn)練好的EF-GAN的權(quán)重初始化級聯(lián)中的所有后續(xù)EF-GAN，并端到端微調(diào)所有網(wǎng)絡(luò)參數(shù)。通過這種訓(xùn)練方案，級聯(lián)中的每個EF-GAN模塊都將具有良好的初始化，因此中間的面部表情圖像將有助于后期學(xué)習(xí)有意義的表情轉(zhuǎn)換信息。

4.Experiments

4.1Datasets

通過Radboud Faces數(shù)據(jù)集（RaFD）和情緒混合面部表情數(shù)據(jù)集（CFEED）對級聯(lián)EF-GAN進行評估。RaFD由8040張從不同角度收集的表情圖像組成。我們使用的面部圖像由90度相機捕獲，生成1608張面部表情圖像。CFEED包含從230名參與者收集的5060張混合表情圖像。我們隨機抽樣90%用于訓(xùn)練，其余用于測試。

在我們的實驗中，我們將圖像裁剪成128×128個補丁，補丁的中心是人臉。三個局部補丁（即眼睛、鼻子和嘴巴的補丁）的大小分別固定為40×92、40×48和40×60。每個補丁的中心是所有訓(xùn)練樣本中相應(yīng)關(guān)鍵點的平均位置。

4.2Qualitative Experimental Results

級聯(lián)EF-GAN是在前一節(jié)中描述的兩個公開可用的面部表情數(shù)據(jù)集上進行評估的。圖5顯示了定性實驗結(jié)果，其中第1-5列中的圖像來自RaFD數(shù)據(jù)集，第6-10列中的圖像來自CFEED數(shù)據(jù)集。每個列都包括一項表情編輯任務(wù)，以及通過最先進的方法——StarGAN和GANimation進行的面部表情編輯，以及我們提出的Cascade EF-GAN。

如圖5所示，最先進的方法容易在眼睛、鼻子和嘴巴周圍產(chǎn)生模糊和偽影，甚至?xí)茐拿娌勘砬椤Ｎ覀兊腃ascade EF-GAN生成的面部表情更逼真，模糊和偽影更少，生成的圖像也更清晰。更好的合成在很大程度上歸功于包含了注意力驅(qū)動的局部聚焦，這有助于更好地保留相應(yīng)面部區(qū)域中與身份相關(guān)的特征和細節(jié)。此外，最先進的方法在處理大間隙表情轉(zhuǎn)換時往往會產(chǎn)生重疊的偽影。我們的級聯(lián)EF-GAN反而有效地抑制了這種重疊的偽影，這主要是因為我們的級聯(lián)設(shè)計執(zhí)行了類似人類的漸進式表情轉(zhuǎn)換，而不是一步執(zhí)行。補充材料中提供了更多結(jié)果。

4.3Quantitative Experimental Results

表情分類準確性：我們遵循StarGAN和ExprGAN的評估方法進行定量評估。具體來說，我們首先在訓(xùn)練集上訓(xùn)練不同的表情編輯模型，然后在同一個看不見的測試集上執(zhí)行表情編輯。然后在不同的表情識別任務(wù)中對生成的圖像進行評估。分類精度越高，表示表情編輯越準確、越真實。

設(shè)計了兩個分類任務(wù)來評估生成圖像的質(zhì)量：1）使用原始訓(xùn)練圖像訓(xùn)練表情分類器，并應(yīng)用分類器對不同編輯方法生成的表情圖像進行分類；2）通過結(jié)合自然和生成的表情圖像來訓(xùn)練分類器，從而對原始測試集圖像進行分類。第一個任務(wù)評估生成的圖像是否位于自然表情的流形中，第二個任務(wù)評估生成的圖像是否有助于訓(xùn)練更好的分類器。

表1顯示了RaFD和CFEED上的表情分類精度（僅針對CFEED評估了七個主要表情）。具體來說，R意味著用原始訓(xùn)練集圖像訓(xùn)練分類器，然后將其應(yīng)用于識別測試集圖像的表情。G表示使用與R相同的分類器來識別生成圖像的表情。R+G是將真實圖像和不同方法生成的圖像相結(jié)合來訓(xùn)練分類器，然后應(yīng)用它們來識別測試集圖像的表情。如表所示，我們的cascade EF-GAN在第一個任務(wù)中達到了最高的準確率，RaFD和CFEED的準確率分別為89.38%和85.81%，顯示了它在生成更逼真的表情圖像方面的優(yōu)勢。此外，它還可以幫助訓(xùn)練更精確的表情分類器，當(dāng)我們生成的圖像與分類器訓(xùn)練中的真實圖像相結(jié)合時，RaFD和CFEED的準確度分別提高了1.46%和1.02%。作為比較，StarGAN和GANimation 生成的圖像往往會降低分類，可能是因為生成的圖像中存在偽影和模糊。

PSNR和FID：我們還使用峰值信噪比（PSNR）和弗里切特起始距離（FID）指標(biāo)評估生成圖像的質(zhì)量。PSNR是通過合成表情和相同身份的對應(yīng)表情計算的，而FID分數(shù)是在真實人臉的預(yù)訓(xùn)練初始模型和合成人臉的最終平均池特征之間計算的。如表2所示，我們提出的級聯(lián)EF-GAN在RaFD數(shù)據(jù)集上的PSNR和FID測量高出了1.01/3.19，在CFEED上高出了0.91/1.92。

4.4Ablation Study

我們在RaFD數(shù)據(jù)集上進行消融實驗，以研究我們提出的局部聚焦和級聯(lián)設(shè)計的貢獻。訓(xùn)練了幾個模型，包括：
（1）基線，其中僅采用全局注意的 GANimation ；
（2）基線+局部聚焦（即EF-GAN），將局部焦點分支納入基線；
（3）基線+級聯(lián)，將漸進編輯（帶有3個EF-GAN模塊）引入到基線；
（4）級聯(lián)EF-GAN，包括漸進編輯和局部聚焦，如圖2所示。

圖6顯示了定性結(jié)果。每列代表一個表情編輯任務(wù)，以及上述模型進行的相應(yīng)編輯。很明顯，基線往往會丟失眼睛和嘴巴周圍的細節(jié)，導(dǎo)致模糊、偽影，甚至腐蝕。對于許多示例圖像，生成的表情與目標(biāo)表情也沒有很好地對齊。基線+局部聚焦可以大大減少偽影和腐蝕，并生成更清晰、更鮮明的表情圖像。基線+級聯(lián)中包含級聯(lián)策略有助于更好地維護身份特征和面部結(jié)構(gòu)，生成的表情也能更好地與目標(biāo)表情對齊。這在很大程度上是因為級聯(lián)設(shè)計通過將大間隙變化分解為更小的步驟來減輕大間隙變化的復(fù)雜性。最后，包括級聯(lián)設(shè)計和局部聚焦的級聯(lián)EF-GAN能夠生成干凈、清晰的面部表情，這些表情與目標(biāo)表情和輸入身份一致，明顯優(yōu)于所有其他模型。這表明，提出的局部聚焦和級聯(lián)編輯策略是相輔相成的。

我們還進行了定量實驗，以評估級聯(lián)EF-GAN中的每個提出的組件。表3顯示了實驗結(jié)果。定量實驗結(jié)果進一步驗證了所提出的局部聚焦和漸進轉(zhuǎn)換策略的有效性。

4.5Discussion

連續(xù)表情編輯：我們的級聯(lián)EF-GAN可以很容易地適應(yīng)生成連續(xù)表情。給定源和目標(biāo)AUs，可以使用插值器導(dǎo)出不同階段的中間AUs。因此，可以使用中間AUs和源圖像導(dǎo)出中間階段的連續(xù)表情。圖7顯示了級聯(lián)EF-GAN的連續(xù)編輯。

野生圖像上的面部表情編輯：野生圖像上的表情編輯更具挑戰(zhàn)性，因為圖像是在復(fù)雜的背景和不受控制的燈光下拍攝的。我們的級聯(lián)EF-GAN可以適應(yīng)處理野生圖像，如圖8所示，其中級聯(lián)EF-GAN首先在RaFD和CFEED圖像上進行預(yù)訓(xùn)練，然后使用來自AffectNet的野生表情圖像進行微調(diào)。如圖8所示，級聯(lián)EF-GAN可以成功地變換表情，同時保持和表情無關(guān)的信息不變。

5.Conclusion

（1）本文提出了一種新的用于真實人臉表情編輯的級聯(lián)表情局部GAN（Cascade EF-GAN）。EF-GAN的設(shè)計結(jié)合了眼睛、鼻子和嘴巴三個局部重點，以更好地保存與身份相關(guān)的特征和細節(jié)。這種與身份相關(guān)的特征減少了模型的身份不確定性，從而得到更清晰的面部表情圖像。
（2）此外，所提出的級聯(lián)EF-GAN以漸進的方式執(zhí)行表情編輯，將大間隙表情變換更改分解為多個小間隙表情變換。因此，它在大間隙面部表情的真實變換中更具魯棒性。
（3）在兩個公開的有效的面部表情數(shù)據(jù)集上進行的大量實驗表明，與最先進的技術(shù)相比，所提出的級聯(lián)EF-GAN實現(xiàn)了更好的表情編輯。我們預(yù)計Cascade EF-GAN將激發(fā)新的見解，并在不久的將來吸引更多人對更好的面部表情編輯感興趣。

總結(jié)

以上是生活随笔為你收集整理的Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses 论文解读的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SegAttnGAN: Text to
下一篇： AttnGAN: Fine-Graine