Contrastive Adaptation Network for Unsupervised Domain Adaptation
無監(jiān)督領(lǐng)域自適應(yīng)的對(duì)比自適應(yīng)網(wǎng)絡(luò)
- 摘要
- 引言
- 本文貢獻(xiàn)
- 相關(guān)工作
- 本文提出的方法
- 最大平均差異敘述
- 對(duì)比領(lǐng)域差異
- 對(duì)比自適應(yīng)網(wǎng)絡(luò)
- 算法流程
摘要
文章和源代碼
無監(jiān)督域自適應(yīng)(UDA)對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行預(yù)測(cè),而手動(dòng)注釋僅在源域可用。以往的方法忽略了類信息,最小化了領(lǐng)域差異,這可能導(dǎo)致未對(duì)齊和泛化性能差。為了解決這一問題,本文提出了對(duì)比自適應(yīng)網(wǎng)絡(luò)優(yōu)化一種新的度量,該度量明確地模擬了類內(nèi)域差異和類間域差異。我們?cè)O(shè)計(jì)了一個(gè)交替更新策略,以端到端的方式訓(xùn)練CAN。在兩個(gè)真實(shí)世界基準(zhǔn)Office-31和VisDA-2017上的實(shí)驗(yàn)表明,CAN相對(duì)于最先進(jìn)的方法表現(xiàn)良好,并產(chǎn)生更多的區(qū)分特征。
引言
盡管以前基于MMD和JMMD的方法取得了成功,但它們中的大多數(shù)都是在域級(jí)別測(cè)量域差異,而忽略了從中抽取樣本的類。因此,這些類別不可知的方法不區(qū)分來自兩個(gè)域的樣本是否應(yīng)該根據(jù)它們的類別標(biāo)簽進(jìn)行比對(duì)(圖1)。這可能會(huì)損害自適應(yīng)性能,原因如下。首先,不同類別的樣本可能對(duì)齊不正確,例如,即使目標(biāo)域樣本與不同類別的源域樣本未對(duì)齊,MMD和JMMD也可以最小化。第二,對(duì)于目標(biāo)領(lǐng)域,學(xué)習(xí)的決策邊界可能很難推廣。決策邊界附近存在許多次優(yōu)解。這些解決方案可能會(huì)很好地覆蓋源數(shù)據(jù),但對(duì)目標(biāo)的區(qū)分度較低。
為了解決上述問題,我們引入了一個(gè)新的對(duì)比域差異(CDD)目標(biāo)來實(shí)現(xiàn)類感知的UDA。我們建議最小化類內(nèi)差異,即同一類內(nèi)的域差異,并最大化類間差異,即不同類之間的域差異??紤]圖1中的玩具示例,CDD將拉近相同基礎(chǔ)類別的源和目標(biāo)樣本(例如藍(lán)色和紅色三角形),同時(shí)推開不同類別的樣本(例如藍(lán)色三角形和紅色星形)。
首先,我們需要來自兩個(gè)域的標(biāo)簽來計(jì)算CDD,然而,目標(biāo)標(biāo)簽在UDA中是未知的。當(dāng)然,一個(gè)簡(jiǎn)單的方法是在訓(xùn)練期間通過網(wǎng)絡(luò)輸出來估計(jì)目標(biāo)標(biāo)簽。然而,由于估計(jì)可能有噪聲,我們發(fā)現(xiàn)它可能會(huì)損害自適應(yīng)性能(見第4.3節(jié))。第二,在小批量訓(xùn)練期間,對(duì)于類c,小批量可能只包含來自一個(gè)域(源或目標(biāo))的樣本,使得估計(jì)類c的類內(nèi)域差異不可行。這可能導(dǎo)致不太有效的自適應(yīng)。上述問題需要對(duì)網(wǎng)絡(luò)和培訓(xùn)模式進(jìn)行特殊設(shè)計(jì)。
Contrastive Domain Discrepancy (CDD)
Contrastive Adaptation Network (CAN)
我們提出了對(duì)比自適應(yīng)網(wǎng)絡(luò)(CAN)來促進(jìn)與CDD的優(yōu)化。在訓(xùn)練過程中,除了最小化標(biāo)記源數(shù)據(jù)上的交叉熵?fù)p失,CAN還通過聚類估計(jì)目標(biāo)樣本的底層標(biāo)簽假設(shè),并根據(jù)CDD度量調(diào)整特征表示。聚類后,在估計(jì)CDD時(shí),模糊目標(biāo)數(shù)據(jù)(即遠(yuǎn)離聚類中心)和模糊類(即在聚類中心周圍包含很少的目標(biāo)樣本)被歸零。根據(jù)經(jīng)驗(yàn),我們發(fā)現(xiàn)在訓(xùn)練過程中,會(huì)考慮越來越多的樣本。這種漸進(jìn)式學(xué)習(xí)可以幫助CAN獲取更準(zhǔn)確的數(shù)據(jù)分布統(tǒng)計(jì)數(shù)據(jù)。此外,為了便于CAN的小批量訓(xùn)練,我們對(duì)源域和目標(biāo)域都采用了類感知采樣,即在每次迭代中,我們對(duì)隨機(jī)采樣的類子集內(nèi)的每個(gè)類從兩個(gè)域中采樣數(shù)據(jù)。類感知采樣可以提高訓(xùn)練效率和自適應(yīng)性能。
本文貢獻(xiàn)
- 我們引入了一個(gè)新的差異度量,對(duì)比域差異(CDD)為無監(jiān)督域自適應(yīng)執(zhí)行類感知對(duì)齊。
- 我們提議建立一個(gè)網(wǎng)絡(luò)對(duì)比適應(yīng)網(wǎng)絡(luò),以促進(jìn)與CDD的端到端培訓(xùn)。
- 我們的方法在Office-31基準(zhǔn)測(cè)試[30]上取得了最佳的公布結(jié)果,并且與具有挑戰(zhàn)性的VisDA-2017基準(zhǔn)測(cè)試[29]的最先進(jìn)性能相比,具有競(jìng)爭(zhēng)力。
相關(guān)工作
- 與類無關(guān)的域?qū)RUDA的一個(gè)常見做法是最小化域之間的差異,以獲得域不變的特征[10,4,25,22,24,36,21]。例如,Tzeng等人[38]提出了一種領(lǐng)域混淆損失,以鼓勵(lì)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)義上有意義的和領(lǐng)域不變的表示。Long等人提出了DAN [22]和JAN [25]來分別最小化跨域的MMD距離和聯(lián)合MMD距離。Ganinet等人[10]通過反向傳播領(lǐng)域分類器的反向梯度,使網(wǎng)絡(luò)能夠以對(duì)抗的方式學(xué)習(xí)領(lǐng)域不變表示。與這些領(lǐng)域無關(guān)性最小化方法不同,我們的方法執(zhí)行類感知的領(lǐng)域?qū)R。
- 判別域不變特征學(xué)習(xí)一些先前的文章在執(zhí)行域?qū)R的同時(shí)努力學(xué)習(xí)更多的區(qū)分特征[35,13,31,32,28,39]。對(duì)抗性缺失正則化(ADR) [31]和最大分類器差異(MCD) [32]被提出來以對(duì)抗性方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),以避免產(chǎn)生位于決策邊界附近區(qū)域的非歧視特征。與我們類似,龍等人[23]和裴等人[28]在測(cè)量域差異時(shí)考慮了類信息。然而,我們的方法主要在兩個(gè)方面不同于他們的方法。首先,我們明確地模擬了兩種類型的領(lǐng)域差異,即類內(nèi)領(lǐng)域差異和類間領(lǐng)域差異。大多數(shù)已有方法都忽略了類間域差異,但事實(shí)證明這種差異有利于提高模型自適應(yīng)性能。其次,在深度神經(jīng)網(wǎng)絡(luò)的背景下,我們將訓(xùn)練過程視為對(duì)目標(biāo)標(biāo)簽假設(shè)和特征的替代優(yōu)化。
- 類內(nèi)緊性和類間可分性建模本文還涉及明確模擬類內(nèi)緊性和類間可分性的工作,例如對(duì)比損失[12]和三元組損失[33]。這些方法已經(jīng)被用于各種應(yīng)用,例如人臉識(shí)別[6]、人的重新識(shí)別[16]等。與這些為單個(gè)領(lǐng)域設(shè)計(jì)的方法不同,我們的工作側(cè)重于跨領(lǐng)域的適應(yīng)。
本文提出的方法
最大平均差異敘述
- Maximum Mean Discrepancy (MMD)
對(duì)比領(lǐng)域差異
- Contrastive Domain Discrepancy
我們提出明確考慮類信息,并測(cè)量跨域的類內(nèi)和類間差異。類內(nèi)域差異被最小化以壓縮類內(nèi)樣本的特征表示,而類間域差異被最大化以推動(dòng)彼此的表示進(jìn)一步遠(yuǎn)離決策邊界。類內(nèi)和類間差異被聯(lián)合優(yōu)化以提高自適應(yīng)性能。
CDD的計(jì)算公式
CDD(建立在MMD)本身在一定程度上對(duì)噪聲是穩(wěn)健的。因?yàn)镸MD是由RKHS分布的平均嵌入決定的,所以充分的統(tǒng)計(jì)不太可能受到標(biāo)簽噪聲的嚴(yán)重影響,尤其是當(dāng)數(shù)據(jù)量很大時(shí)。我們將在第4.3節(jié)對(duì)此進(jìn)行討論和驗(yàn)證。
對(duì)比自適應(yīng)網(wǎng)絡(luò)
CAN的框架如圖2所示。在本節(jié)中,我們主要討論如何最小化CAN中的CDD損耗
CAN的培訓(xùn)過程。為了最小化CDD,我們?cè)谕ㄟ^聚類更新目標(biāo)標(biāo)簽假設(shè)和通過反向傳播調(diào)整特征表示之間執(zhí)行替代優(yōu)化。對(duì)于聚類,我們基于目標(biāo)樣本的當(dāng)前特征表示對(duì)其應(yīng)用球形知識(shí)元聚類。簇的數(shù)量等于底層類的數(shù)量,每個(gè)類簇的初始中心被設(shè)置為同一類中源數(shù)據(jù)的中心。然后,不明確的數(shù)據(jù)(即遠(yuǎn)離附屬聚類中心)和不明確的類(即包含附屬聚類中心周圍的少數(shù)目標(biāo)樣本)被丟棄。對(duì)于特征自適應(yīng),由聚類階段提供的標(biāo)記的目標(biāo)樣本與標(biāo)記的源樣本一起通過網(wǎng)絡(luò)來實(shí)現(xiàn)它們的多層特征表示。采用特定域FC層的特征來估計(jì)CDD(等式。(5)).此外,我們對(duì)獨(dú)立采樣的源數(shù)據(jù)應(yīng)用交叉熵?fù)p失。最小化CDD和交叉熵?fù)p失的反向傳播(等式。(8))調(diào)整特征并提供類感知對(duì)齊。詳細(xì)說明見第3.4節(jié)。
算法流程
總結(jié)
以上是生活随笔為你收集整理的Contrastive Adaptation Network for Unsupervised Domain Adaptation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 包学会之浅入浅出Vue.js:升学篇
- 下一篇: 计算机专业技能考核方案,巩义市计算机专业