【论文导读】Selecting Data Augmentation for Simulating Interventions
這一篇從數據增強的角度切入因果AI,主要處理的也是OOD generalization的問題
目錄
【摘要】
【Introduction】
【Method】
2.2. 基于因果關系的領域泛化和數據擴充
2.3. 模擬的干預措施
2.4.?為域泛化選擇數據擴充
【摘要】
用純粹的觀察數據和經驗風險最小化原則(Vapnik, 1992)訓練的機器學習模型可能無法推廣到看不見的領域。在這篇論文中,我們關注的是由于觀測域和實際任務標簽之間的虛假關聯而產生的問題。我們發現許多域泛化方法并沒有明確地考慮到這種偽相關。相反,特別是在更面向應用的研究領域,如醫學成像或機器人,基于啟發式的數據增強技術被用于學習領域不變特征。為了彌合理論和實踐之間的差距,我們對領域泛化問題發展了一個因果觀點。我們認為因果概念可以通過描述它們如何削弱觀察域和任務標簽之間的虛假相關性來解釋數據增強的成功。我們證明了數據增強可以作為模擬介入數據的工具。我們使用這些理論見解來推導出一個簡單的算法,該算法能夠選擇數據增強技術,從而實現更好的領域泛化。
【Introduction】
盡管在深度學習的推動下,機器學習最近取得了進步,但Azulay和Weiss(2019)等研究表明,深度學習方法可能無法推廣到訓練分布之外的輸入。然而,在醫療成像、機器人和自動駕駛汽車等安全關鍵領域,機器學習模型對環境變化的魯棒性至關重要。如果沒有概括的能力,機器學習模型就不能安全地部署在現實世界中。
在域泛化領域,人們試圖找到一種跨不同環境(稱為域)進行泛化的表示,每個環境的輸入具有不同的移位。當域中的更改與實際任務標簽中的更改偽關聯時,這個問題尤其具有挑戰性。例如,當數據收集過程有偏差時就會發生這種情況。Arjovsky等人舉了一個例子(2019):如果我們考慮奶牛和駱駝在其自然棲息地的圖像數據集,那么動物類型和圖像中的景觀之間存在很強的相關性,例如,一只站在沙漠中的駱駝。如果我們現在訓練一個機器學習模型來預測給定圖像中的動物,該模型很容易利用動物類型和景觀類型之間的虛假相關性。因此,該模型可能無法識別站在綠色牧場上的駱駝或站在沙漠中的奶牛。
近年來,一個大型的方法語料庫被設計用來學習跨領域泛化的表示。雖然所提出的方法能夠在各種領域泛化基準上取得良好的結果,但大多數方法都缺乏理論基礎。在最壞的情況下,這些方法強制執行錯誤類型的不變性,如附錄A.6.1所示。有趣的是,我們發現,特別是在更多的應用領域,如醫學成像和機器人,研究人員已經找到了一種實用的方法來處理領域和實際任務之間的虛假相關性。數據增強結合經驗風險最小化(ERM) (Vapnik, 1992)被用來加強機器學習模型在領域變化方面的不變性。因此,利用先驗知識來指導選擇合適的數據增強方法。在附錄a .7.1中,我們詳細總結了兩個成功的數據應用。
然而,數據增強的成功往往被描述為“人為擴展標記訓練數據集”(Li, 2020)和“減少過擬合”(Krizhevsky等人,2012)等模糊的術語。在本文中,我們提出了領域泛化背景下的數據增強的因果視角,并以以下方式對該領域做出了貢獻:
1.首先,我們引入了干預增強方差(intervention augmentation equivariance?)的概念,它形式化了數據增強和領域特征上的干預之間的關系。我們表明,如果干預-增強等方差成立,我們可以使用數據增強來成功地模擬僅使用觀測數據的干預。
2.其次,我們推導出一個簡單的算法,該算法能夠從給定的轉換列表中選擇數據增強技術。我們將我們的方法與各種領域泛化方法在三個領域泛化基準上進行比較。我們證明了我們能夠始終優于所有其他方法。
【Method】
2.1 Domain generalization
我們首先按照Muandet等人(2013)中使用的符號將域泛化問題形式化。我們假設在訓練過程中,我們從N個不同的域訪問樣本S,其中。每個域的n_i個樣本包含在訓練集中。訓練數據被表示為從p(x, y, d)觀測分布中采樣的元組(x, y, d)。域泛化的目標是開發能夠很好地泛化到不可見域的機器學習方法。為了測試機器學習模型的泛化能力,我們使用樣本,來自一個之前不可見的測試域d=N+1。
在本文中,我們對觀察域d和目標y在訓練數據集中虛假相關的一般情況感興趣,即,我們可能有p(y|d = i) != p(y|d = j), i, j∈{1,…N}。由于d和y之間的相關性被假設為虛假的,它不一定對測試域d = N + 1成立。
2.2. 基于因果關系的領域泛化和數據擴充
對于不熟悉因果關系概念的讀者,可以在附錄a .5中簡單介紹全文中使用的因果概念。如需深入介紹,請參閱Pearl(2009)或Peters等人(2017)。
首先,我們引入了一個結構因果模型(SCM),以描述我們認為在許多情況下反映了域泛化問題的潛在因果結構。SCM如圖1(右)所示,其中c是一個隱藏的混雜因素(和一個外生變量),d是域,(d就是我們想要去除的confounder,)y是目標,hd高級特征,如顏色和方向,由d引起,hy高級特征,如形狀和紋理,由y引起,x是輸入。為了清晰起見,我們省略了噪聲變量。對應的有向無環圖(DAG)如圖1(左)所示,其中灰色節點表示變量被觀察到,白色節點對應潛在(未觀察到)變量。提出的DAG與Subbaswamy & Saria(2019)和Castro等人(2019)構建的DAG類似。在圖1中,節點c是一個隱藏的混雜器。隱藏的混雜因素c打開一條后門路徑(非因果路徑)d←?c?→y (Pearl, 2009)。這條路徑允許d通過后門進入y。
因此,定義域d和目標y一般不再獨立,p(y, d) != p(y)p(d)。由于高級特征hd是d的子特征,它們也與y虛假相關,即hd成為y的預測。我們現在假設我們使用ERM (Vapnik, 1992)和圖1中DAG產生的觀察數據來訓練機器學習模型。我們的任務是從x中預測y,這本身是反因果的。由于d和y是相關的,所以機器學習模型很可能會依賴于所有的高級特征hd和hy來預測y,此外,我們假設d和y的相關是虛假的。因此,在一般情況下不會保持,在干預下會打破。因此,依賴于由d引起的高級特征hd的機器學習模型很可能無法推廣到不可見的領域。回到我們對圖像中的動物進行分類的介紹性例子,隱藏的混雜器可以用來模擬這樣一個事實:動物的類型和圖像中的景觀有一個共同的原因。例如,混淆器可以是某張照片拍攝的國家,例如,在瑞士,我們更有可能看到一頭奶牛站在綠色的牧場上,而不是駱駝或沙漠。
2.3. 模擬的干預措施
處理d和y之間虛假相關的一種可能的方法是對d執行干預。這樣的干預將使d和y獨立,即p(y|do(d)) = p(y)。在圖2(左)中,我們看到與圖1相同的DAG,但在我們干預d之后。我們發現在圖2(左)中,沒有更多的箭頭連接隱藏的混淆器c和域d。后門路徑d←?c?→y已經消失。在動物和景觀的例子中,為了干預景觀,我們必須把一頭牛搬到沙漠中。很明顯,這些干預必須發生在現實世界中,而不是對已經收集到的觀察數據進行操作。在大多數領域泛化問題中,用特定的干預措施來收集新數據是不可行的。
在圖2(中間)中,我們展示了解決變量d和y相關問題的第二種方法。理論上,我們可以對所有高級特征hd進行干預,即do(hd),因為d只通過hd間接影響x,在我們的例子中,hd可以代表景觀的顏色和紋理。同樣,在現實世界的數據收集過程中需要進行這樣的干預,例如,將沙子移到牧場。
然而,我們認為在某些情況下,我們可以利用數據增強結合觀測數據來模擬介入分布p(x, y|do(hd))的數據。例如,我們可以隨機打亂動物圖像中的顏色。這種類型的增強在hd上模擬了一種噪聲干預,即do(h_d = ξ),其中ξ從噪聲分布N_ξ中采樣(Peters等人,2016)。
理論上,我們可以通過將h_d設置為固定值來干預h_d,而不是執行噪聲干預。然而,為了使用數據增強來模擬這種干涉分布的數據,我們需要觀察h_d,而我們認為一般無法觀測h_d。在附錄a .7.1中,我們描述了現有的數據增強方法,在將所有樣本的h_d設置為固定值之前,試圖推斷每個樣本x的h_d,但這些增強似乎比隨機抽樣增強效果更差。
通過只增加由d引起的高級特征h_d,我們保證目標y和特征hy不變。數據增強后,(, y)應該與介入分布p(x, y|do(h_d))中的樣本非常相似。在圖2(右)中,我們看到我們只需要DAG的觀察數據,不需要任何干預。雖然每個增強樣本單獨可以被視為反事實,但我們認為,通過從每個x生成大量的增強樣本xaug,我們有效地邊緣化了反事實分布。我們認為,對于正確選擇的數據增強,我們無法區分圖2中三種模型中任何一種生成的數據。
如果我們選擇數據增強 = aug(x),作為應用于觀察數據x的轉換aug(·),以模擬d對高階特征hd的干預,我們需要對數據的因果生成過程做出假設。正式地說,我們要求將數據x擴展為 = aug(x) 和在生成數據之前使用干預do(hd)的操作是交換的(Formally, we require that augmenting the data x to xaug = aug(x) commutes with an intervention do(hd) prior to the data generation.)。我們稱之為干預增強方差(intervention-augmentation equivariance)。更詳細地說,假設我們從方程式1中得到因果過程:。然后通過aug(·)增加x:
(2)
如果對于X∈X上的每個考慮的隨機數據增強變換aug(·),我們在Hd∈Hd上有相應的噪聲干預do(·),則我們可以說因果過程是干預-增強的等變(ntervention-augmentation equivarian),例如:
。(3)
干涉-增強等方差在圖3中用交換圖表示。我們認為我們首先需要通過 對真正的因果過程做出強有力的假設識別由d引起的高層次特征hd。其次,我們必須選擇數據增強aug(x)使得在因果過程fX(hd, hy)下與相應的干預do(hd)可交換。干涉-增強方差的特殊情況出現在G等變圖fX的經典情況(in the classical case of an G-equivariant map fX)中,其中G可以是任何(半)群。為此,我們需要G作用于Hy, Hd, X空間,我們需要確保G作用于Hy空間。因此,任何元素g∈G都可以將元素X∈X轉換為g·X∈X,我們將其解釋為數據增強,如第4節所示。元素g∈G也將hd∈hd轉化為g·hd∈hd,我們認為這是一種特殊的介入類型。此外,我們假設hy∈Hy對于所有g∈G都保持固定g·hy = hy,因此我們放入:
,(4)
,(5)
其中,我們假設元素g∈G是從G上的某個分布p(g)中隨機抽樣的。在這種情況下,任何G-等變的圖fX都會自動地保持干涉-增強等變,如下所示:
?一個干涉-增強等方差的線性例子可以在附錄中找到。
一般來說,我們發現大多數經常使用的數據增強都可以表示為簡單的群作用(group actions)。例如,對輸入圖像x進行隨機旋轉,可以理解為對二維旋轉組SO(2)中的元素g進行隨機采樣,并將其應用在二維像素網格上。隨機改變圖像x的色調對應于從二維旋轉組SO(2)中隨機采樣并應用元素g,因為色調可以表示為顏色空間中的一個角度。對圖像x的顏色通道應用隨機排列,在三個獨立顏色通道的情況下,相當于對排列組S3中的元素g進行隨機抽樣并應用。
2.4.?為域泛化選擇數據擴充
Selecting data augmentations for domain generalization
在圖2(中間)中,我們可以看到如果我們成功地使用數據增強在hd上模擬干預,那么從d到hd的箭頭就會消失。基于這一理論見解,我們提出了一種算法,該算法能夠選擇能夠改善領域泛化的數據增強技術,而不是手動選擇它們。下面我們將把這種算法稱為選擇數據增強(Select Data Augmentation, SDA)。與Cubuk等人(2019)類似,我們從一系列數據增強技術開始,包括:“亮度”、“對比度”、“飽和度”、“色調”、“旋轉”、“平移”、“縮放”、“剪切”、“垂直翻轉”和“水平翻轉”。由于這些轉換不相互影響,因此可以分別對它們進行測試。每個增強的超參數可以在附錄中找到。本文提出的SDA算法包括三個步驟:
1.我們將訓練域中的所有樣本分成一個訓練和驗證集。
2. 我們訓練分類器來從輸入x預測域d。在訓練過程中,我們對訓練集的樣本應用列表中的第一個數據增強。訓練后將域精度保存在驗證集中。我們對列表中的所有數據擴展重復此步驟。
3.我們選擇了五個種子上平均域精度最低的數據增強。如果多個數據增強在所選數據的標準誤差范圍內,它們也被選中,即增強之間沒有統計學上的顯著差異。
直觀上,SDA會選擇破壞x中d信息的數據增強技術。從因果關系的角度來看,這相當于削弱了從d到h_d的箭頭。在附錄A.1.1中,我們進行了一項消融研究,表明如果列表中包含具有不同超參數的相同增廣,SDA也可以可靠地選擇最合適的數據增廣。
不過也有一個警告。在整個章節中,我們假設我們成功地增強了所有由d引起的高級特征hd。在真實的應用中,我們通常沒有方法來驗證這個假設,也就是說,我們可能只增強了hd的一個子集。此外,我們甚至可能增加由目標節點y引起的高級特征hy。盡管如此,我們認為,在某些情況下,我們仍然獲得更好的泛化性能,而不是沒有數據增強提高訓練的機器學習模型。這種情況可能發生在削弱hd對y的偽混淆影響比對y破壞的特征的數據增強恢復更多y的反因果信號的情況下。我們將在第4節對這一假設進行實證評估
3 Related Work
3.1. 學習數據中的對稱性
Learning symmetries from data
在上一節中,我們認為為數據擴充選擇正確的對稱組依賴于先驗知識,例如,預先選擇要測試的轉換列表。雖然這是我們方法的一個明顯的實際限制,但就我們所知,目前還沒有任何方法能夠從純粹的觀測數據中學習對稱性。當代方法如拉格朗日神經網絡(Cranmer等人,2020年)、圖神經網絡(Kipf & Welling, 2017年)和群等變神經網絡(Cohen & Welling, 2016年)正在強制執行先驗選擇對稱,而不是學習它們。
3.2. 理解數據增強
Understanding data augmentation
最近,Gontijo-Lopes等人(2020)提出了兩種衡量標準:親和性和多樣性(affinity and diversity)。這些措施用于量化現有數據增強方法的有效性。他們發現,親和度和多樣性得分高的增強能帶來更好的泛化性能。雖然親和性和多樣性依賴于iid假設,但我們為非iid數據集提供了另一種選擇。Lyle等人(2020)研究了如何使用數據增強將不變性納入機器學習模型。他們表明,雖然數據增強可以導致更緊的PAC-Bayes界限,數據增強不保證導致不變性。在公式3中,我們形式化了在何種情況下(即干涉-增強等方差)數據增強會導致不變性。
3.3. 先進的數據增強技術
?Advanced data augmentation techniques?
Zhang et al.(2018)引入了一種名為mixup的方法,通過在兩個現有的示例(xi, yi)和(xj, yj)之間線性插值來構建新的訓練示例。在Gowal等人(2019)和Perez & Wang(2017)中,生成對抗網絡(GAN)被用于執行所謂的“對抗混合”。GAN能夠生成新的屬于同一個類y但具有不同風格的訓練示例。此外,Perez和Wang(2017)提出了一種名為“神經增強”的新方法,他們訓練模型的第一部分,從具有相同類y的兩個訓練示例生成增強圖像。
3.4. 因果關系
Peters等人(2016)提出了一種不變因果預測(ICP)的方法。它建立在給定不同的實驗設置、因果特征是穩定的這個假設上。給定完整的因果特征集,目標變量y的條件分布在干預下(例如域的改變)必須保持不變。然而,依靠非因果特征的機器學習模型做出的預測在干預下通常是不穩定的。最近,Arjovsky等人(2019)提出了一個名為“不變風險最小化”(IRM)的框架,該框架與ICP有著相同的目標。在IRM中,一種結合了ERM術語的軟懲罰被用來平衡學習機器學習模型的不變性和預測能力。與ICP相比,IRM可以用于非結構化數據的任務,例如圖像。然而,雖然兩種方法(ICP和IRM)試圖學習y的父特征,我們認為,對于大多數域泛化問題,從x預測y的任務是反因果的。因此,我們感興趣的是只增加由d引起的特征,即d的后代,并假設剩下的特征是由y引起的。在Arjovsky等人(2019)中,他們認為導致x的真實標簽(部分真實因果機制)和人類標簽產生的注釋之間存在差異。學習這種“標簽函數”將導致良好的泛化表現,即使它可能依賴于反因果或非因果的模式。在這種情況下,IRM目標變得無效。
Heinze-Deml & Meinshausen(2019)引入了條件方差正則化(Conditional variance Regularization, CoRe)。CoRe使用分組觀察(例如,具有相同的類y但不同風格的訓練樣本)來學習不變表示。樣本是通過一個額外的ID變量分組的,這個ID變量不同于標簽y。我們發現在大多數情況下很難獲得一個額外的ID變量,例如第4節的數據集中沒有一個數據集具有這樣的變量。如果不存在這樣的ID變量,CoRe可以使用原始圖像和增強圖像對學習不變表示。
當我們關注圖1中的DAG時,Bareinboim & Pearl(2016)和Mooij等人(2019)已經開發了跨領域相關數據生成過程的通用圖形表示。如果觀察到混淆器c,可以使用找到穩定特征集的方法,如RojasCarulla等人(2018)和Magliacane等人(2018)。此外,Subbaswamy等人(2019)表明,可以根據觀測數據擬合干預分布,而不是在某些情況下進行干預。然而,成像數據提出了一個挑戰,現有的基于原因的方法不具備處理,從而激勵使用數據增強。
4. 實驗
我們在四個數據集上評估數據增強與經驗風險最小化(ERM)相結合的性能。第一個是合成數據集,其他三個是域泛化基準圖像數據集(旋轉的MNIST、彩色的MNIST和PACS),其中域d和目標y是混淆的。利用合成數據集研究了域引起的高級特征和標簽引起的高級特征增強時數據增強對模型性能的影響。對于基準圖像數據集,我們首先使用SDA來選擇最佳的數據增強技術。第一步的結果可以在附錄中的表5中找到。然后,我們利用所選的數據增強,利用ERM訓練各自的模型。最后,我們進行了消融研究,將所有數據增強應用于所有三個圖像數據集,而不是選定的圖像數據集。
Code to replicate all experiments can be found under? https://github.com/AMLab-Amsterdam/ DataAugmentationInterventions.
4.1 合成數據集
?對于第一個實驗,我們在圖4(右)中模擬了線性高斯SCM的數據,對應的DAG在圖4(左)中可以看到。
?
?我們選擇c d y hd和hy作為五維向量。此外,我們從N (0, I)開始采樣W_[c→d}, W_{c→y}, W_{d-→hd}和W_{y→hy}的方陣元素,在所有的實驗中σ_c =I和σ = 0.1·I。我們的任務是從x回歸,其中x = [hd, hy]是一個10維特征向量。在訓練過程中,使用圖4(左)中的DAG生成數據,其中由于混淆器c,特征hd和y是虛假相關的。測試時設置d:= N (0, I),保持W_{c→d}, W_{c→y}, W_{d→hd}和W_{y→hy}與訓練時相同。因此,特征hd和y不再相關。一個依賴于hd特征的模型將不能很好地推廣到測試數據。在所有的實驗中,我們使用線性回歸來最小化經驗風險。我們選擇添加從均勻分布U[?10,10]采樣的噪聲作為我們的數據增強技術。我們改變增加的hd和hy的維數。每個實驗重復50次,在圖5中我們繪制了均方誤差(MSE)的均值和標準誤差。
在圖5中,我們看到僅使用hy(粉色線)特性的ERM實現了最低的MSE。接下來,我們對hd的1、2、3、4和5個維度進行數據增強,同時保持hy(橙色線)不變。我們發現,如果將數據增廣應用于hd的所有五個維度,我們可以用特征hy匹配ERM的MSE。在這種情況下,我們滿足方程3中的條件。此外,我們不出所料地發現,使用 應用于特征hy的數據增強 訓練的模型的MSE增加(綠色,紅色,紫色和棕色線)。然而,我們可以看到,只要我們將數據增強應用到至少三個hd維度上,使用hd和hy(藍線)所有特征,得到的MSE低于ERM(as long as we apply data augmentation to at least three dimensions of hd the resulting MSE is lower than ERM using all features hd and hy (blue line).)。也許這個實驗最令人驚訝的結果是,在存在的條件下,對d引起的特征和y引起的特征進行數據增強會比使用所有特征的ERM產生更好的泛化性能。(there exist conditions under which applying data augmentation to features caused by d and features caused by y will result in better generalization performance compared to ERM using all features)
4.2. 旋轉MNIST
我們根據Li等人(2018)構建了旋轉的MNIST數據集。這個數據集由四個不同的域d和十個不同的類別y,每個域對應不同的旋轉角度:d ={0?,30?,60?,90?}。我們首先從MNIST訓練數據集中隨機選擇圖像x的子集,然后對該子集的每個圖像應用旋轉。對于下一個域,我們隨機選擇一個新的子集。為了保證p(y)在各域之間的方差,每個數字類y的訓練示例數從均勻分布U[80,160]中隨機選取。
對于每個實驗,選擇三個領域進行訓練和一個領域進行測試。對于測試域,對MNIST測試集的10000個示例應用相應的旋轉。在表2中,我們將結合ERM的數據增強與ERM、域對抗神經網絡(DANN) (Ganin等人,2016)和條件域對抗神經網絡(CDANN) (Li等人,2018)進行了比較。所有方法都使用LeNet (LeCun et al., 1998)型架構,每個實驗重復10次。首先,我們使用SDA來尋找最佳的數據增強技術,其中我們對域分類器使用相同的LeNet模型和訓練過程,只從訓練域中獲取樣本。在所有四種情況下,領域精度最低的數據增強是“旋轉”,我們在其中留下一個領域進行測試。此外,我們進行了消融研究,結果表明SDA可靠地選擇了最合適的超參數,結果見附錄中的表4。其次,我們應用0?和359?之間的隨機旋轉圖像x在培訓期間,由DA表示。如果我們假設hd等于給定圖像x中MNIST數字的旋轉角度,對x施加隨機旋轉就等于對hd進行噪聲干預,見公式3。如第2節所述,對x進行隨機旋轉可以理解為從二維旋轉組SO(2)中隨機抽樣元素g。注意元素g∈SO(2)對hy的作用很簡單:旋轉不會改變數字的形狀。結果是d和y是獨立的訓練數據集。在表2中,我們看到DA的結果對于所有四個測試域都是相似的。此外,我們發現DA優于ERM、DANN和CDANN,其中CDANN是專門為d和y虛假相關的情況設計的。?
?
?4.3. 彩色MNIST
在Arjovsky等人(2019)之后,我們創建了一個版本的MNIST數據集,其中每個數字的顏色與一個二進制標簽y虛假相關。我們構建了兩個訓練域和一個測試域,其中原始MNIST類' 0 '到' 4 '的數字被標記為y = 0,類' 5 '到' 9 '的數字被標記為y = 1。隨后,對于25%的數字,我們翻轉標簽y。現在我們將標記為y = 0的數字涂上紅色,標記為y = 1的數字涂上綠色。最后,我們在第一個訓練域和第二個訓練域分別以0.2和0.1的概率翻轉一個數字的顏色。在測試域的情況下,數字的顏色翻轉的概率為0.9。根據設計,每個數字(' 0 '到' 9 ')的原始MNIST類是新標簽y的直接原因,而每個數字的顏色是新標簽y的后代。
彩色MNIST的DAG,如圖6所示,與圖1中的DAG稍有偏差,盡管如此,第2節中的推理仍然是有效的。在表1中,我們看到,雖然ERM在訓練領域表現良好,但它未能推廣到測試領域,因為它是使用顏色信息來預測y。相反,IRM (Arjovsky等人,2019)和REx (Krueger等人,2020)推廣到測試領域很好。同樣,我們使用SDA來找到適當的數據增強。對于域分類器,我們使用與Arjovsky等人(2019)相同的MLP和訓練程序。我們想要強調的是,SDA只依賴于來自兩個訓練域的樣本,而IRM和REx的超參數則對來自測試域的樣本進行了調整,如Krueger等人(2020)所述。對于有色MNIST數據集,選擇的數據增強是“hue”和“translate”,用DA表示。如第2節所述,對x的色調值應用隨機排列,相當于從排列群SO(2)中隨機抽樣并應用元素g。我們認為元素g不會改變hy:包含關于每個數字形狀的信息的高級特征。在我們的實驗中,我們使用與Arjovsky等人(2019)描述的相同的網絡架構和訓練程序。每個實驗重復10次。我們發現DA可以成功地削弱d域對y的雜散影響,見表1
4.4。PACS
PACS數據集(Li et al., 2017a)被引入為具有較大域偏移特征的域泛化方法的強基準數據集。f每個域的鏡像數量分別為1670、2048、2344、3929。有七個類:y =[狗,大象,長頸鹿,吉他,馬,房子,人]。我們微調alexnet模型(Krizhevsky等人,2012),該模型在ImageNet上進行了預訓練,使用ERM結合數據增強。在接下來的實驗中,我們使用SDA來選擇數據增強。對于域分類器,我們如上所述對alexnet模型進行微調。此外,我們使用交叉驗證過程,其中我們去掉一個域,使用三個域進行培訓。SDA確定了四種有用的數據增強技術:“亮度”、“對比度”、“飽和度”和“色調”。在組合這四種增強通常被稱為顏色抖動或顏色擾動。通過隨機應用顏色擾動,我們弱化了hd對y的偽混淆影響,如第2節所述。在表3中,我們將DA與各種域泛化方法進行比較:CDANN (Li等人,2018年)、L2G (Li等人,2017b)、GLCM (Wang等人,2018年)、SSN (Mancini等人,2018年)、IRM (Arjovsky等人,2019年)、REx (Krueger等人,2020年)、MetaReg (Balaji等人,2018年)、JigSaw (Carlucci等人,2019年),其中所有方法都使用相同的預訓練alexnet模型。每個實驗重復5次,報告平均準確率。我們發現DA的平均準確率最高。與ERM相比,DA在“藝術繪畫”和“素描”兩個測試領域的成績提高最大。例如,域“草圖”由白色背景上的七個對象類的黑色草圖組成,參見圖7。由于對象的顏色與類不相關,依賴于顏色特征的模型將很難推廣到“草圖”領域。然而,通過隨機改變訓練域中(“藝術繪畫”、“卡通”、“照片”)圖像的顏色,我們發現DA能夠更好地概括。
消融研究:使用所有數據增強技術我們使用附錄中列出的所有數據增強技術,在旋轉MNIST、有色MNIST和PACS上重復之前的實驗。我們比較了使用所有數據增強技術訓練的分類器和使用SDA訓練的分類器的準確性。我們發現,同時使用所有數據增強技術會導致所有三個數據集的性能顯著下降:旋轉MNIST的性能下降25.4%,有色MNIST的性能下降8.7%,PACS的性能下降16.1%。我們觀察到數據集和數據增強技術的組合本身會導致性能的急劇下降,例如PACS數據集和隨機旋轉。我們認為,沒有隨機旋轉訓練的模型利用了一個事實,例如,動物或人的方向通常是直立的。這個例子表明,我們不能簡單地將數據增強描述為“標簽保存轉換”,因為旋轉后的動物或人仍然會有相同的標簽。
5. 結論
這篇論文中,從因果的角度研究了領域泛化中數據增強的有效性。通過使用SCM,我們解決了區域泛化的一個核心問題:區域變量d和目標變量y的虛假相關性。雖然在理論上,我們可以對區域變量d進行干預,但這種解決方案是不切實際的,因為我們假設我們只能獲得觀測數據。然而,我們表明,數據增強可以作為模擬領域變量d及其子變量干預的替代工具。因此,先驗知識可以用來選擇只作用于目標變量y的非后代的數據增強技術。此外,我們表明,隨機應用數據增強可以理解為從常見對稱群中隨機抽樣元素。此外,我們提出了一個簡單的算法來從給定的轉換列表中選擇合適的增廣技術。我們使用一個域分類器來衡量每個增強在多大程度上削弱了領域d和由d引起的hd高級特征之間的因果聯系。我們在四個不同的數據集上評估了這種方法,能夠表明經驗風險最小化結合準確選擇的數據增強產生良好的泛化性能。本文的分析可進一步應用于利用干涉增強等方差設計干涉數據增強來模擬領域泛化方法的干涉數據集
比較吸引我的點在于:
1.用圖1的因果圖+共因來解釋spurious relation的產生
2.用切斷d和hd的方式(do-calculus)分離hd的影響
3.用隨機域分類器實現切斷※※
總結
以上是生活随笔為你收集整理的【论文导读】Selecting Data Augmentation for Simulating Interventions的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 妇产科学习题---有答案
- 下一篇: Word中插入三线格算法公式,放大不变形