CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化
CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation無監(jiān)督域適配的特定域批處理規(guī)范化
- 0.摘要
- 1.概述
- 2.預(yù)備知識
- 2.1.移動語義傳輸網(wǎng)絡(luò)(Moving Semantic Transfer Network)
- 2.2.類預(yù)測不確定性對齊(Class Prediction Uncertainty Alignment)
- 3.領(lǐng)域特定批規(guī)范化(Domain-Specific Batch Normalization)
- 3.1.批量規(guī)范化
- 3.2.領(lǐng)域特定批規(guī)范化(Domain-Specific Batch Normalization)
- 3.3.擴展到多源域適應(yīng)
- 4.基于DSBN的領(lǐng)域自適應(yīng)
- 4.1.階段1:訓(xùn)練初始偽標(biāo)簽
- 4.2.階段2:使用偽標(biāo)簽進行自訓(xùn)練
- 5.實驗
- 5.1.實驗設(shè)置
- 5.1.1.數(shù)據(jù)集
- 5.1.2.應(yīng)用細(xì)節(jié)
- 5.2.結(jié)果
- 5.2.1.VisDA-C
- 5.2.2.Office-31
- 5.2.3.多個源域
- 5.3.分析
- 5.3.1.消融實驗
- 5.3.2.特征可視化
- 5.3.3.迭代學(xué)習(xí)
- 6.結(jié)論
- 參考文獻
論文下載
開源代碼
0.摘要
我們在深度神經(jīng)網(wǎng)絡(luò)中提出了一種新的基于領(lǐng)域特定批歸一化的無監(jiān)督領(lǐng)域自適應(yīng)框架。我們的目標(biāo)是通過在卷積-卷積神經(jīng)網(wǎng)絡(luò)中專門化批歸一化層,同時允許它們共享所有其他模型參數(shù),從而適應(yīng)這兩種領(lǐng)域,這是通過兩階段算法實現(xiàn)的。在第一階段,我們使用外部無監(jiān)督域自適應(yīng)算法(例如ample, MSTN[27]或CPUA[14])來估計目標(biāo)域中示例的偽標(biāo)簽,該算法集成了提出的特定于域的批處理歸一化。第二階段使用源和目標(biāo)域的多任務(wù)分類損失學(xué)習(xí)最終模型。注意,兩個域在兩個階段都有單獨的批處理規(guī)范化層。我們的框架可以很容易地整合到基于深度神經(jīng)網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)技術(shù)中,該技術(shù)具有批處理歸一化層。我們還提出,我們的方法可以擴展到多源域的問題。該算法在多個基準(zhǔn)數(shù)據(jù)集上進行了評估,在標(biāo)準(zhǔn)設(shè)置和多源域適應(yīng)場景中達到了最先進的精度。
1.概述
無監(jiān)督域適應(yīng)是一種學(xué)習(xí)框架,它將從具有大量帶注釋的訓(xùn)練示例的源域?qū)W到的知識轉(zhuǎn)移到只有無標(biāo)記數(shù)據(jù)的目標(biāo)域。由于域遷移問題,即源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集具有不同的特征,這一任務(wù)具有挑戰(zhàn)性。領(lǐng)域的轉(zhuǎn)移在現(xiàn)實問題中是常見的,在訓(xùn)練過的模型的廣泛應(yīng)用中應(yīng)該小心處理。無監(jiān)督域自適應(yīng)的目的是學(xué)習(xí)處理該問題的魯棒模型,目前正變得流行,因為它可以拯救依賴于多樣性和多樣性有限的數(shù)據(jù)集的視覺識別任務(wù)
近年來無監(jiān)督域適應(yīng)研究的進展得益于深度神經(jīng)網(wǎng)絡(luò)的成功。采用具有適當(dāng)損失函數(shù)的深度神經(jīng)網(wǎng)絡(luò)對基于淺學(xué)習(xí)的傳統(tǒng)域適應(yīng)技術(shù)進行了改進。深度網(wǎng)絡(luò)強大的表示能力重新證明了以往方法的有效性,促進了全新算法的發(fā)展。基于深度神經(jīng)網(wǎng)絡(luò)的無監(jiān)督域自適應(yīng)有大量研究[3,4,10,14,23,27,30],近年來我們見證了顯著的性能改進。
許多現(xiàn)有的無監(jiān)督領(lǐng)域適應(yīng)技術(shù)[3,4,14,23,27]的缺點之一是源域和目標(biāo)域共享整個網(wǎng)絡(luò)進行訓(xùn)練和預(yù)測。兩個領(lǐng)域之間的共享組件是不可避免的,因為這兩個領(lǐng)域有一些共同的東西;我們常常需要依靠源域的信息來學(xué)習(xí)適應(yīng)于未標(biāo)記的目標(biāo)域數(shù)據(jù)的網(wǎng)絡(luò)。然而,我們相信通過將領(lǐng)域特定信息與領(lǐng)域不變信息分離可以獲得更好的泛化性能,因為這兩個領(lǐng)域明顯具有不同的特征,并且在單一模型中不兼容。
為了分離領(lǐng)域特定信息進行非監(jiān)督領(lǐng)域適應(yīng),我們提出了一種新的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建塊,稱為領(lǐng)域特定批處理歸一化(DSBN)。DSBN層由批處理歸一化(BN)的兩個分支組成,每個分支專門負(fù)責(zé)一個域。DSBN使用BN參數(shù)捕獲特定于領(lǐng)域的信息,并使用參數(shù)將特定于領(lǐng)域的數(shù)據(jù)轉(zhuǎn)換為領(lǐng)域不變表示。由于這種思想是通用的,DSBN普遍適用于各種具有BN層的無監(jiān)督域適應(yīng)的深度神經(jīng)網(wǎng)絡(luò)。此外,它可以很容易地擴展到多源域適應(yīng)場景
在此基礎(chǔ)上,我們提出了一種基于DSBN的兩階段無監(jiān)督域自適應(yīng)框架,即我們的網(wǎng)絡(luò)首先生成目標(biāo)域中無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽,然后使用偽標(biāo)簽學(xué)習(xí)一個完全監(jiān)督模型。具體地說,第一個階段通過現(xiàn)有的包含DSBN的無監(jiān)督域適應(yīng)網(wǎng)絡(luò)估計目標(biāo)域數(shù)據(jù)的初始偽標(biāo)簽。在第二階段,利用源域和目標(biāo)域的數(shù)據(jù)在完全監(jiān)督下訓(xùn)練具有DSBN層的多任務(wù)分類網(wǎng)絡(luò),其中第一階段生成的偽標(biāo)簽分配到目標(biāo)域數(shù)據(jù)。為了進一步提高準(zhǔn)確率,我們迭代第二階段的訓(xùn)練,并對目標(biāo)域中的示例的標(biāo)簽進行再細(xì)化。我們的主要貢獻總結(jié)如下:
- 我們提出了一種新的基于DSBN的無監(jiān)督域適應(yīng)框架,它是一種適用于各種深度神經(jīng)網(wǎng)絡(luò)模型的域適應(yīng)通用方法。
- 我們引入了一種兩階段學(xué)習(xí)方法DSBN,包括偽標(biāo)簽估計和多任務(wù)分類,它自然集成到現(xiàn)有的無監(jiān)督領(lǐng)域適應(yīng)方法中。
- 我們的框架通過其直接的擴展為多源非監(jiān)督域適應(yīng)提供了原則性算法。
- 通過將我們的框架與兩種最新的領(lǐng)域適應(yīng)技術(shù)集成,我們在包括Office-31和VisDA-C數(shù)據(jù)集在內(nèi)的標(biāo)準(zhǔn)基準(zhǔn)上實現(xiàn)了最先進的性能。
2.預(yù)備知識
在無監(jiān)督域自適應(yīng)中,我們給出兩個數(shù)據(jù)集:XS用于標(biāo)記源域,XT用于標(biāo)記目標(biāo)域,其中nS和nT分別表示XS和XT的基數(shù)。我們的目標(biāo)是在完全監(jiān)督的基礎(chǔ)上,通過轉(zhuǎn)移從源領(lǐng)域?qū)W到的分類知識來對目標(biāo)領(lǐng)域中的示例進行分類。本節(jié)將詳細(xì)討論兩種用于集成特定領(lǐng)域批處理規(guī)范化技術(shù)的最新方法。
2.1.移動語義傳輸網(wǎng)絡(luò)(Moving Semantic Transfer Network)
基于未標(biāo)記目標(biāo)域樣本的偽標(biāo)簽,MSTN[27]提出了一種語義匹配損失函數(shù)來跨域?qū)R相同類的質(zhì)心。整體損函數(shù)的形式定義由下式給出
分類損失Lcls(XS)是源數(shù)據(jù)集的交叉熵?fù)p失,域?qū)箵p失Lda使得網(wǎng)絡(luò)混淆了域成員,如[3]中討論的一個例子。語義匹配損失對齊了跨域的同一類的質(zhì)心。注意,應(yīng)該估計偽標(biāo)簽來計算語義匹配損失。直觀上,Eq(1)損失函數(shù)鼓勵兩個域具有相同的分布,特別是通過添加對抗性和語義匹配損失項。因此,基于損失函數(shù)的學(xué)習(xí)網(wǎng)絡(luò)可以應(yīng)用于目標(biāo)域的實例。
2.2.類預(yù)測不確定性對齊(Class Prediction Uncertainty Alignment)
CPUA[14]是一種非常簡單的方法,它只在域之間排列類概率。CPUA 在這兩個領(lǐng)域解決了類不平衡問題,并引入了類加權(quán)損失函數(shù)來利用類先驗。
記pS? =ncS/ nS為源樣本中具有類標(biāo)簽c的比例,且P~T? =ncT/ nT為目標(biāo)樣本中具有偽標(biāo)簽c的比例。ncT代表{x∈XT|y~(x) =c}的基數(shù),其中,y~(x) = argmaxi∈CF(x)[i]。每個域的類權(quán)值分別為
它們的總損失函數(shù)可以寫成
注意f(·)是一個分類網(wǎng)絡(luò),?(·,·)表示交叉熵?fù)p失,d(·)是一個域鑒別器
3.領(lǐng)域特定批規(guī)范化(Domain-Specific Batch Normalization)
本節(jié)簡要回顧批處理規(guī)范化(BN)與DSBN的比較,然后介紹DSBN及其用于多源域適應(yīng)的擴展
圖1。說明BN和DSBN的區(qū)別。DSBN層由批處理歸一化層中的兩個分支組成——一個分支用于源域(S),另一個分支用于目標(biāo)域(T)。每個輸入示例根據(jù)其域選擇一個分支。在具有DSBN層的域適應(yīng)網(wǎng)絡(luò)中,除了DSBN層的參數(shù)外,所有的參數(shù)在兩個域之間共享,并有效地學(xué)習(xí)兩個域的共同信息,而通過DSBN層的域特定bnn參數(shù)有效地捕獲域特定屬性。注意,DSBN層可以插入任何帶有BN層的無監(jiān)督域適應(yīng)網(wǎng)絡(luò)。
3.1.批量規(guī)范化
BN[5]是一種廣泛應(yīng)用于深度網(wǎng)絡(luò)的訓(xùn)練技術(shù)。BN層在每個通道維度的小批量示例中“漂白”激活,并使用仿射參數(shù)γ和β轉(zhuǎn)換激活。x∈RH×W×N表示每個通道的激活,BN表示為
小批內(nèi)激活的平均值和方差μ和σ由下式計算
ε是一個小常數(shù),以避免被零除
在訓(xùn)練過程中,BN通過帶有更新因子α的指數(shù)移動平均來估計整個激活的平均值和方差,用指數(shù)移動平均來表示,并用指數(shù)移動平均來表示。形式上,對于第一個小批,均值和方差由
在測試階段,BN使用估計的平均值和方差進行“漂白”輸入激活。注意,如果疇移顯著,則共享源域和目標(biāo)域的均值和方差是不合適的。
3.2.領(lǐng)域特定批規(guī)范化(Domain-Specific Batch Normalization)
DSBN是通過為每個域保留多組BN[5]來實現(xiàn)的。圖1說明了BN和DSBN之間的區(qū)別。形式上,DSBN為每個域標(biāo)簽d∈{S, T}分配域特定的仿射參數(shù)γd和βd。xd∈RH×W×N表示屬于域標(biāo)簽d的每個通道的激活,那么DSBN層可以寫成
在訓(xùn)練過程中,DSBN分別通過帶有更新因子α的指數(shù)移動平均估計每個域激活的平均值和方差,該指數(shù)移動平均由下式給出
在DSBN的測試階段,每個域的估計均值和方差用于相應(yīng)域的樣本
我們期望DSBN通過估計批統(tǒng)計和分別學(xué)習(xí)每個域的仿射參數(shù)來捕獲特定于域的信息。我們相信DSBN允許網(wǎng)絡(luò)更好地學(xué)習(xí)域不變特征,因為通過利用捕獲的統(tǒng)計數(shù)據(jù)和從給定域?qū)W習(xí)到的參數(shù),可以有效地刪除網(wǎng)絡(luò)中的域特定信息。
DSBN易于插入現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)進行無監(jiān)督域適應(yīng)。通過將所有BN層替換為DSBN層并使用帶域標(biāo)簽的數(shù)據(jù)訓(xùn)練整個網(wǎng)絡(luò),可以將現(xiàn)有的**分類網(wǎng)絡(luò)F(·)**轉(zhuǎn)換為特定于域的網(wǎng)絡(luò)。域特定網(wǎng)絡(luò)用Fd(·)表示,根據(jù)域變量d∈{S, T}, Fd特化為源或目標(biāo)d域。
圖2。第二階段訓(xùn)練概述。為了對目標(biāo)域樣本使用中間偽標(biāo)簽,我們使用第一階段訓(xùn)練過的網(wǎng)絡(luò)F1T(x)作為第二階段的偽標(biāo)簽器。在這一階段,只在兩個域上使用分類損失來訓(xùn)練網(wǎng)絡(luò)。
3.3.擴展到多源域適應(yīng)
DSBN通過增加更多的域分支,可以很容易地擴展到多源無監(jiān)督域適應(yīng)。此外,用所有源域的損失之和定義一個新的多源域適應(yīng)損失函數(shù)如下所示:
其中DS = {XS1, XS2,…}是源域的集合,Lalign可以是對齊源域和目標(biāo)域的任何類型的損失。其余的訓(xùn)練過程與單源域適應(yīng)情況相同
4.基于DSBN的領(lǐng)域自適應(yīng)
DSBN是一種無監(jiān)督域適應(yīng)的通用技術(shù),可以集成到基于批量歸一化深度神經(jīng)網(wǎng)絡(luò)的各種算法中。我們的框架分兩個階段訓(xùn)練深度網(wǎng)絡(luò)進行無監(jiān)督的域適應(yīng)。在第一階段,我們訓(xùn)練一個現(xiàn)有的無監(jiān)督域適應(yīng)網(wǎng)絡(luò)生成目標(biāo)域數(shù)據(jù)的初始偽標(biāo)簽。第二階段學(xué)習(xí)兩個域的最終模型,使用源域的ground-truth和目標(biāo)域的偽標(biāo)簽作為監(jiān)督,其中偽標(biāo)簽在目標(biāo)域在訓(xùn)練過程中逐步細(xì)化。這兩個階段的網(wǎng)絡(luò)都包含DSBN層,以更有效地學(xué)習(xí)域不變表示,從而更好地適應(yīng)目標(biāo)域。為了進一步提高準(zhǔn)確性,我們可以對第二階段訓(xùn)練進行額外的迭代,其中使用前一迭代的結(jié)果更新偽標(biāo)簽。本節(jié)的其余部分將詳細(xì)介紹我們使用DSBN的兩階段訓(xùn)練方法
4.1.階段1:訓(xùn)練初始偽標(biāo)簽
由于我們的框架具有通用性和靈活性,任何無監(jiān)督域自適應(yīng)網(wǎng)絡(luò)只要有BN層,都可以用來估計目標(biāo)域數(shù)據(jù)的初始偽標(biāo)簽。在本文中,我們選擇了兩個最先進的模型作為初始偽標(biāo)簽發(fā)生器:MSTN[27]和CPUA[14]。如第3.2節(jié)所述,我們用DSBN替換它們的BN層,以便它們更有效地學(xué)習(xí)域不變表示。然后,這些網(wǎng)絡(luò)根據(jù)它們原有的損失和學(xué)習(xí)策略進行訓(xùn)練。經(jīng)過訓(xùn)練的初始偽標(biāo)簽生成器用F1T表示。
4.2.階段2:使用偽標(biāo)簽進行自訓(xùn)練
在第二階段,我們利用兩個域的數(shù)據(jù)及其標(biāo)簽,利用豐富的域不變表示,并在完全監(jiān)督的情況下訓(xùn)練兩個域的最終模型。該網(wǎng)絡(luò)使用兩個分類損耗進行訓(xùn)練——一個是具有地真標(biāo)簽的源域,另一個是具有偽標(biāo)簽的目標(biāo)域——得到的網(wǎng)絡(luò)用F2d(d∈{S, T})表示??倱p失函數(shù)由兩個領(lǐng)域的兩個損失項的簡單相加得到,如下:
其中:
式(21)和式(22)中,?(·,·)為交叉熵?fù)p失,y’表示分配給目標(biāo)域x∈XT的偽標(biāo)簽
偽標(biāo)簽y’由F1T初始化,并由F2T逐步細(xì)化如下:
其中FiT(x)[c]表示FiT和權(quán)重因子λ給出的類預(yù)測得分,在訓(xùn)練過程中從0逐漸變化到1。這種方法可以看作是一種自我訓(xùn)練,因為F2T在訓(xùn)練過程中參與了偽標(biāo)簽的生成。在訓(xùn)練的早期階段,由于F2T的預(yù)測可能不可靠,我們對F1T給出的初始偽標(biāo)簽賦予了更多的權(quán)重。權(quán)重λ逐漸增大,在訓(xùn)練的最后階段,偽標(biāo)記完全依賴于F2T。我們使用[3]來抑制潛在的有噪聲的偽標(biāo)簽;當(dāng)γ= 10時,λ適應(yīng)因子λ=2/(1+exp(?γ·p))?1逐漸增大
由于F2T使用F1T給出的合理的初始偽標(biāo)簽進行訓(xùn)練,而F1T僅利用弱信息進行域?qū)R,因此F2T比F1T更能準(zhǔn)確地識別目標(biāo)域圖像。為了進一步提高精度,使用F2T估計更精確的初始偽標(biāo)簽是很自然的。因此,我們迭代地進行第二階段過程,其中初始偽標(biāo)簽使用前一迭代模型的預(yù)測結(jié)果進行更新。實驗結(jié)果表明,這種迭代方法能有效地提高目標(biāo)區(qū)域的分類精度
5.實驗
我們提出了實證結(jié)果來驗證提出的框架,并將我們的方法與最先進的領(lǐng)域適應(yīng)方法進行比較。
5.1.實驗設(shè)置
我們討論了用于訓(xùn)練和評估的數(shù)據(jù)集,并介紹了包括超參數(shù)設(shè)置在內(nèi)的實現(xiàn)細(xì)節(jié)
5.1.1.數(shù)據(jù)集
圖3。每個數(shù)據(jù)集的示例圖像。(a)兩個域的VisDA-C數(shù)據(jù)集圖像,(b)三個域的Office-31數(shù)據(jù)集圖像,?四個域的Office-Home數(shù)據(jù)集圖像。
我們在實驗中使用了三個數(shù)據(jù)集:VisDA-C [16], Office-31[17]和Office-Home[26]。VisDA-C是一個用于2017視覺領(lǐng)域適應(yīng)挑戰(zhàn)的大型基準(zhǔn)數(shù)據(jù)集。它由兩個域組成——虛擬和現(xiàn)實,并從MS-COCO[8]數(shù)據(jù)集中獲得12個公共對象類的152,409張合成圖像和55400張真實圖像。Office-31是一個領(lǐng)域適應(yīng)的標(biāo)準(zhǔn)基準(zhǔn),它包括31個類別的三個不同的領(lǐng)域:Amazon (a)有2817張圖片,Webcam (W)有795張圖片,DSLR (D)有498張圖片。Office-Home[26]有四個域:藝術(shù)(Ar)有2,427張圖片,剪紙(Cl)有4,365張圖片,產(chǎn)品(Pr)有4,439張圖片,現(xiàn)實世界(Rw)有4,357張圖片。每個域包含65類日常對象。我們采用[3]中引入的完全轉(zhuǎn)換協(xié)議來評估數(shù)據(jù)集上我們的框架。
5.1.2.應(yīng)用細(xì)節(jié)
根據(jù)[3,20],我們的框架的骨干網(wǎng)絡(luò)采用resnet -101用于visa - c數(shù)據(jù)集,ResNet-50用于Office-31和office - home數(shù)據(jù)集。所有的網(wǎng)絡(luò)都有BN層,并在ImageNet上預(yù)先訓(xùn)練。為了比較BN和DSBN層之間的純粹差異,我們?yōu)槊總€域構(gòu)造了小批量,并分別轉(zhuǎn)發(fā)它們。批次大小設(shè)置為40,所有實驗都是相同的。我們使用Adam優(yōu)化器[6],β1= 0.9, β2= 0.999。階段1和階段2的初始學(xué)習(xí)速率分別為η0= 1.0×10?4and5.0×10?5。如[3]中所示,根據(jù)ηp=η0/(1+αp)β的公式調(diào)整學(xué)習(xí)鏈,其中α= 10,β= 0.75, p表示訓(xùn)練進度在0 ~ 1之間呈線性變化。優(yōu)化器的最大迭代次數(shù)設(shè)置為50,000
5.2.結(jié)果
我們給出了基于單源和多源域自適應(yīng)的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果。
5.2.1.VisDA-C
表1。基于ResNet-101骨干網(wǎng)的多種算法在VisDA-C驗證數(shù)據(jù)集上的分類性能(%)結(jié)果清楚地表明,我們的兩階段學(xué)習(xí)框架DSBN有效地提高了準(zhǔn)確性。
表1量化了我們采用MSTN和CPUA作為初始偽標(biāo)簽生成器的方法的性能,并將其與VisDA-C數(shù)據(jù)集上的最新記錄進行了比較。在表中,“DSBN(階段1)”表示我們用DSBN替換BN層并執(zhí)行第一階段訓(xùn)練,“DSBN1(階段1和階段2)”表示我們同時執(zhí)行第一和第二階段訓(xùn)練。我們提出的方法通過將DSBN應(yīng)用于基線模型,顯著且一致地提高了準(zhǔn)確性,并在與MSTN結(jié)合時實現(xiàn)了最先進的性能[27]。還要注意,我們的模型可靠地識別了一些很難的類,如刀、人、滑板和卡車
5.2.2.Office-31
表2。Office-31數(shù)據(jù)集的分類準(zhǔn)確度(%)(ResNet-50)。*原始論文報告使用alexnet的平均準(zhǔn)確率為79.1%。?原文報道ResNet-50的平均準(zhǔn)確率為87.9%。
表2展示了我們在Office-31數(shù)據(jù)集上使用MSTN和CPUA的方法的總體得分。在兩個階段都經(jīng)過DSBN訓(xùn)練的模型可以獲得最先進的性能,并始終優(yōu)于兩個基線模型。表2還表明,我們的框架可以成功地應(yīng)用于現(xiàn)有的域自適應(yīng)算法,并大大提高了性能
5.2.3.多個源域
表3和表4分別展示了office -31和Office-Home數(shù)據(jù)集上的多源域自適應(yīng)結(jié)果。為了比較多源和單源域適應(yīng),將表頂部的單源結(jié)果作為“單一”,并附加兩個不同的多源場景:“合并”和“分離”。合并意味著來自多個源域的數(shù)據(jù)被組合起來并構(gòu)造一個新的更大的源域數(shù)據(jù)集,而單獨參數(shù)表示每個源域被單獨考慮。在這種情況下,我們總共有|DS|+1個域并且網(wǎng)絡(luò)中有同樣數(shù)目的DSBN分支。當(dāng)目標(biāo)任務(wù)很容易時,在BN和DSBN之間存在邊際性能增益,但我們的模型在所有設(shè)置下都始終優(yōu)于BN模型。特別是,對于表3中任務(wù)“A”的較難的域適應(yīng),具有源域分離的DSBN比合并的情況要好得多。這一結(jié)果表明DSBN在多源域適應(yīng)任務(wù)中也具有優(yōu)勢。注意,這些合并情況并不總是比沒有DSBN的合并情況好
5.3.分析
5.3.1.消融實驗
表5所示。在VisDA-C驗證數(shù)據(jù)集上,批量歸一化變化組合的消融結(jié)果。(ResNet-101),其中?表示第二階段訓(xùn)練相對于僅第一階段訓(xùn)練結(jié)果的精度增益
我們在我們的框架上進行消融實驗,分析DSBN與BN相比的效果。表5總結(jié)了使用MSTN和CPUA作為基線架構(gòu)的VisDA CDATA集上的消融結(jié)果,其中表中最后一列顯示了第二階段訓(xùn)練相對于第一階段訓(xùn)練結(jié)果的精確度。我們測試了兩階段培訓(xùn)中不同培訓(xùn)程序的幾種組合。結(jié)果直接表明,DSBN在兩種訓(xùn)練過程中都起著至關(guān)重要的作用。另一個重要的點是,使用DSBN的第二階段訓(xùn)練可以大大提高性能,而第二階段中的普通BN沒有幫助。這意味著在訓(xùn)練階段分離特定于域的信息有助于設(shè)置可靠的偽標(biāo)簽。請注意,特別是對于較難的類,這種趨勢更為明顯
5.3.2.特征可視化
圖4可視化了BN(左)和DSBN(右)的實例嵌入,使用MSTN作為VisDA-C數(shù)據(jù)集的基線。我們觀察到,通過對DSBN進行積分,同一類中的兩個域的例子能更好地對齊,這意味著DSBN能有效地學(xué)習(xí)域不變表示
圖4。使用VisDA-C驗證數(shù)據(jù)集上的MSTNas基線算法訓(xùn)練的ResNet-101模型的樣本表示的t-SNE圖(左)和DSBN(右)。他們證明DSBN提高了跨領(lǐng)域表示的一致性,
5.3.3.迭代學(xué)習(xí)
我們的框架采用第一階段獲得的網(wǎng)絡(luò)作為第二階段的偽標(biāo)記器,第二階段學(xué)習(xí)到的網(wǎng)絡(luò)比偽標(biāo)記器更強。因此,通過迭代地應(yīng)用第二階段學(xué)習(xí)過程,當(dāng)前迭代中的偽標(biāo)簽由前一個迭代的結(jié)果給出,我們可以期待進一步的性能改進。為了驗證這一想法,我們使用MSTNas基線算法在VisDA-C數(shù)據(jù)集上評估每次迭代的分類精度。如表6所示,第二階段的迭代學(xué)習(xí)在迭代中逐漸提高精度。
6.結(jié)論
我們提出了用于無監(jiān)督域適應(yīng)的特定于域的批歸一化。提出的框架具有批處理規(guī)范化層的獨立分支,每個域一個分支,同時跨域共享所有其他參數(shù)。這種思想一般適用于具有批處理歸一化層的深度神經(jīng)網(wǎng)絡(luò)。該框架采用兩階段訓(xùn)練策略,應(yīng)用于兩種最新的無監(jiān)督域自適應(yīng)算法mstn和CPUA,并在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上展示了出色的性能。我們還展示了我們的框架擴展到源域適應(yīng)問題的能力,并報告了與其他方法相比顯著改進的結(jié)果。
參考文獻
[1] Karsten M. Borgwardt, Arthur Gretton, Malte J. Rasch, Hans-Peter Kriegel, Bernhard Sch ?olkopf, and Alex J. Smola. Inte-grating Structured Biological Data by Kernel Maximum MeanDiscrepancy.Bioinformatics, 22(14):e49–e57, July 2006.2
[2] Konstantinos Bousmalis, George Trigeorgis, Nathan Silber-man, Dilip Krishnan, and Dumitru Erhan. Domain SeparationNetworks. InNIPS, 2016.2
[3] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, PascalGermain, Hugo Larochelle, Franc ?ois Laviolette, Mario Marc-hand, and Victor Lempitsky. Domain-Adversarial Training ofNeural Networks.JMLR, 17(1):2096–2030, 2016.1,2,3,5,6,7
[4] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu,Phillip Isola, Kate Saenko, Alexei A. Efros, and Trevor Dar-rell. CyCADA: Cycle Consistent Adversarial Domain Adap-tation. InICML, 2018.1,2
[5] Sergey Ioffe and Christian Szegedy. Batch Normalization:Accelerating Deep Network Training by Reducing InternalCovariate Shift. InICML, 2015.3,4
[6] Diederik P. Kingma and Jimmy Ba. Adam: A Method forStochastic Optimization. InICLR, 2015.6
[7] Yanghao Li, Naiyan Wang, Jianping Shi, Xiaodi Hou, and Ji-aying Liu. Adaptive Batch Normalization for practical domainadaptation.Pattern Recognition, 80:109–117, 2018.2
[8] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll ?ar, and C LawrenceZitnick. Microsoft COCO: Common Objects in Context. InECCV, 2014.6
[9] Mingsheng Long, Yue Cao, Jianmin Wang, and Michael I Jor-dan. Learning Transferable Features with Deep AdaptationNetworks. InICML, 2015.6,7
[10] Mingsheng Long, Zhangjie Cao, Jianmin Wang, andMichael I Jordan. Conditional Adversarial Domain Adapta-tion. InNIPS, 2018.1,2,7
[11] Mingsheng Long, Han Zhu, Jianmin Wang, and Michael IJordan. Unsupervised Domain Adaptation with ResidualTransfer Networks. InNIPS, 2016.7
[12] Mingsheng Long, Han Zhu, Jianmin Wang, and Michael IJordan. Deep Transfer Learning with Joint Adaptation Net-works. InICML, 2017.2,7
[13] Massimiliano Mancini, Lorenzo Porzi, Samuel Rota Bul,Barbara Caputo, and Elisa Ricci. Boosting Domain Adap-tation by Discovering Latent Domains. InCVPR, 2018.2
[14] Jeroen Manders, Elena Marchiori, and Twan van Laarhoven.Simple Domain Adaptation with Class Prediction UncertaintyAlignment.arXiv preprint arXiv:1804.04448, 2018.1,2,3,5,7
[15] Fabio Maria Carlucci, Lorenzo Porzi, Barbara Caputo, ElisaRicci, and Samuel Rota Bulo. AutoDIAL: Automatic DomaInAlignment Layers. InICCV, 2017.2
[16] Xingchao Peng, Ben Usman, Neela Kaushik, Judy Hoffman,Dequan Wang, and Kate Saenko. VisDA: The Visual DomainAdaptation Challenge, 2017.5
[17] Kate Saenko, Brian Kulis, Mario Fritz, and Trevor Darrell.Adapting Visual Category Models to New Domains. InECCV,2010.5
[18] Kuniaki Saito, Yoshitaka Ushiku, and Tatsuya Harada.Asymmetric Tri-training for Unsupervised Domain Adapta-tion. InICML, 2017.2
[19] Kuniaki Saito, Yoshitaka Ushiku, Tatsuya Harada, and KateSaenko. Adversarial Dropout Regularization. InProc. In-ternational Conference on Learning Representations (ICLR),2018.6
[20] Kuniaki Saito, Kohei Watanabe, Yoshitaka Ushiku, and Tat-suya Harada. Maximum Classifier Discrepancy for Unsuper-vised Domain Adaptation. InCVPR, 2018.6
[21] Jian Shen, Yanru Qu, Weinan Zhang, and Yong Yu. Wasser-stein Distance Guided Representation Learning for DomainAdaptation. InAAAI, 2018.2
[22] Baochen Sun, Jiashi Feng, and Kate Saenko. Return of Frus-tratingly Easy Domain Adaptation. InAAAI, 2016.2
[23] Baochen Sun and Kate Saenko. Deep CORAL: CorrelationAlignment for Deep Domain Adaptation. InECCV Work-shops, 2016.1,2
[24] Eric Tzeng, Judy Hoffman, Kate Saenko, and Trevor Darrell.Adversarial Discriminative Domain Adaptation. InCVPR,2017.2
[25] Eric Tzeng, Judy Hoffman, Ning Zhang, Kate Saenko, andTrevor Darrell. Deep Domain Confusion: Maximizing for Do-main Invariance.CoRR, abs/1412.3474, 2014.7
[26] Hemanth Venkateswara, Jose Eusebio, Shayok Chakraborty,and Sethuraman Panchanathan. Deep Hashing Network forUnsupervised Domain Adaptation. InCVPR, 2017.5,6
[27] Shaoan Xie, Zibin Zheng, Liang Chen, and Chuan Chen.Learning Semantic Representations for Unsupervised DomainAdaptation. InICML, 2018.1,2,3,5,7
[28] Hongliang Yan, Yukang Ding, Peihua Li, Qilong Wang,Yong Xu, and Wangmeng Zuo. Mind the Class Weight Bias:Weighted Maximum Mean Discrepancy for Unsupervised Do-main Adaptation. InCVPR, 2017.2
[29] Werner Zellinger, Thomas Grubinger, Edwin Lughofer,Thomas Natschl ?ager, and Susanne Saminger-Platz. CentralMoment Discrepancy (CMD) for Domain-Invariant Represen-tation Learning. InICLR, 2017.2
[30] Weichen Zhang, Wanli Ouyang, Wen Li, and Dong Xu. Col-laborative and Adversarial Network for Unsupervised domainadaptation. InCVPR, 2018.1,2,7
總結(jié)
以上是生活随笔為你收集整理的CVPR2019:Domain-Specific Batch Normalization for Unsupervised Domain Adaptation无监督域适配的特定域批处理规范化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STL(lower_bound)运行时错
- 下一篇: 实战案例 | Scrapy 集成Sele