多源迁移学习相关研究回顾
?PaperWeekly 原創 ·?作者|張瑋瑋
學校|東北大學碩士
研究方向|情緒識別
遷移學習中大多數工作在研究單個源域到單個目標域的學習,在實際生活中,應用的時候會碰到很多有標注樣本的不是來自單個源域的,有可能來自很多個源域。這些源域數據具有不同的分布,但又具有相關的特征。
下面將通過三篇論文介紹一下多源遷移學習的相關研究。
Boosting for transfer learning with multiple sources
論文標題:Boosting for transfer learning with multiple sources
論文鏈接:https://ieeexplore.ieee.org/document/5539857
這篇論文是特別經典的多源遷移學習論文,也是在 TrAdaBoost(W. Dai, Q. Yang, 2007)框架基礎上提出的算法。相對于 TrAdaBoost 只依賴一個源域,算法很容易受到負遷移的影響。這項工作提出了多源遷移學習的問題,以改進目標分類器的訓練,并且提出了 MultiSource-TrAdaBoost?與?TaskTrAdaBoost?算法。
圖1(b)與圖1(c)表示兩種算法的概念圖。MultiSource-TrAdaBoost 標識出來自不同源域的哪些訓練實例可以與目標訓練實例一起重用,以增強目標分類器。TaskTrAdaBoost 使用參數傳遞方法,提取出構成源任務分類器 模型的參數。
由于源任務是顯式描述的,而不是通過帶標記的源訓練數據隱式描述的。出于這個原因,這個基于參數遷移的方法可以被認為是一個 task-transfer 方法,其中子任務來自各種源任務,可以重復利用,加上目標訓練實例,來提高目標分類器。
1.1 MultiSource-TrAdaBoost
首先介紹一下 TrAdaBoost 算法,其主要思想是:給定了某種訓練方法,最終分類器是各迭代中分類器的加權和。源域數據與目標域數據合成一個訓練集,并將訓練集里面的樣本賦予一個相同的初始權重,并將權重信息與樣本信息組合起來得到一個初始基分類器。
然后計算基分類器 在目標域測試集上誤差,此誤差與目標域相關程度有關。然后計算基分類器的權重?,權重值越高就說明此基分類器的權重越大,相反權重變低。在得到新的權重以后,將新權重的樣本數據中挑選并訓練得到新的分類假設。
源域數據可能不止一個的時候,即存在多個源域數據集,并且每個數據集相對目標域來說可具有不同的遷移性。在這種情況下 Tr AdaBoost 算法比較容易產生負遷移。
MultiSource-TrAdaBoost 算法不是單純地從一個源到另外一個源域的知識遷移,而是從多個源同時進行知識的遷移,從這些源域數據中可以確定一個與目標域最相關的源域。
算法每次迭代以目標域訓練數據集與各個源域訓練數據集的并集訓練基分類器,且以此基分類假設在目標領域上訓練出的誤差最小的時候作為該循環的基分類器,權重更新策略與 Tr AdaBoost 相似。
1.2 TaskTrAdaBoost
在算法 2(phase i)和算法 3(phase ii)中分別給出了該方法的詳細描述。階段 i 只是每個源訓練數據的 AdaBoost 運行,輸出 是所有候選弱分類器的集合。
階段 ii 是在目標訓練數據 上的 AdaBoost 循環。但在每次迭代時,從 中選取對目標訓練數據分類誤差最小的弱分類器,確保傳遞與目標任務關系更密切的知識。此外,目標訓練實例權值的更新驅動搜索下一個最需要的子任務的轉移,以增強目標分類器。
MFSAN
論文標題:Aligning Domain-Specific Distribution and Classifier for Cross-Domain Classification from Multiple Sources
論文來源:AAAI 2019
論文鏈接:https://www.aaai.org/ojs/index.php/AAAI/article/view/4551
代碼鏈接:https://github.com/easezyc/deep-transfer-learning
這是一篇將多源遷移學習和領域自適應結合起來的論文,論文的框架結構非常清晰明了。基于深度學習的多源無監督域自適應(MUDA)算法主要通過在一個公共特征空間中對齊源和目標域對的分布來提取所有域的共同域不變表示,同一空間的域特征損失函數如下所示:
然而,在 MUDA 中為所有域提取相同的域不變表示通常非常困難。此外,這些方法匹配分布時不考慮類之間特定領域的決策邊界。本文提出了一個具有兩個對齊階段的 MUDA 新框架,該框架不僅對每對源域和目標域在多個特定特征空間中的分布進行了分別對齊,而且利用領域特定的決策邊界對分類器的輸出進行了對齊。
2.1 Two-stage alignment Framework
本文提出包括三部分:1)Common feature extractor :作為特征提取器的一個子網絡,用于提取所有領域的共同特征 2)Domain-specific feature extractor:將每對源領域-目標域的提取特征映射到一個特定特征空間 3)Domain-specific classififier :由2)后對每對特定領域進行softmax分類輸出對其使用交叉熵損失函數:
1.2 Domain-specific Distribution Alignment
為了實現第一個對齊階段(對齊每對源域和目標域的分布),論文選擇最大平均差異(MMD)(Gretton et al. 2012)作為對兩個域之間差值的估計。
論文使用上式作為每個源域和目標域之間差異的估計。MMD 損失表述為:
每個特定的特征提取器都可以通過最小化 MMD 方程來學習每個源和目標域對的域不變表示。
1.3 Domain-specific Classifier Alignment
由于分類器是在不同的源域上訓練的,因此它們對目標樣本特別是類邊界附近的目標樣本的預測可能會產生分歧。直觀上,不同分類器預測的相同目標樣本應該得到相同的預測結果。
因此,第二個對齊階段是最小化所有分類器之間的差異。本文利用目標域數據中所有分類器對概率輸出的差值的絕對值作為差異損失。
通過最小化上式,所有分類器的概率輸出是相似的。最后,為了預測目標樣本的標簽,計算所有分類器輸出的平均值。
1.4 Multiple Feature Spaces Adaptation Network
靠近類邊界的目標樣本容易被誤分類,為此,論文提出了一個多特征空間適應網絡(簡稱 MFSAN)。框架由一個共同特征提取器、N 個源域特定的特征提取器和 N 個源域特定的分類器組成。
總的來說,損失由三部分組成,分類損失,MMD 損失,disc 損失。通過最小化分類損失,網絡可以對源域數據進行準確分類;通過最小化 mmd 損失來學習領域不變表示;通過最小化 disc 損失來減少分類器之間的差異。總損失用公式表示:
1.5 Experimental Results
論文將 MFSAN 與三個基準數據集進行比較,結果分別如表 1、表 2 和表 3 所示。論文還比較了 Office-31 數據集上沒有 disc 損失的 MFSAN,并在表 4 中列出了來自不同源域的分類器的結果。
論文標題:Multi-Source Domain Adaptation for Text Classification via DistanceNet-Bandits
論文來源:AAAI 2020
論文鏈接:https://arxiv.org/abs/2001.04362
這是一篇多源遷移學習運用在 NLP 背景下的文本分類的論文,來自于 AAAI 2020。論文設計了一個使用多個距離測度或距離測度的混合的距離網模型,作為附加的損失函數,與任務的損失函數共同最小化,從而實現更好的無監督域自適應。
并且將該方法擴展到一種 DistanceNet-Bandit 模型,該模型使用多臂賭博機控制器在多個源域之間動態切換,并允許模型學習一個最優的軌跡和混合域以便轉移到低資源目標域。
3.1 Domain Distance Measures
首先介紹一下幾種常見的領域距離測量方法。
?Distance: 距離測量源域和目標域樣本之間的歐氏距離?
Cosine Distance:余弦相似度是內積空間的兩個向量之間的相似度的度量。
Maximum Mean Discrepancy(MMD):最大均值差異是遷移學習中使用頻率最高的度量。Maximum mean discrepancy,它度量在再生希爾伯特空間中兩個分布的距離,是一種核學習方法。兩個隨機變量的 MMD 平方距離為:
Fisher Linear Discriminant:通常情況下,使用最優 作為域距離的表示:
其中:
Correlation Alignment(CORAL):Correlation Alignment(CORAL)定義為源樣本與目標樣本的二階統計量之間的距離:
Mixture of Distances:在論文中證明了沒有任何一種距離度量優于其他所有的距離度量。另外,雖然不同的距離度量提供不同的域距離估計,但每種距離度量都有其缺陷。因此,距離度量的混合是非常有用的:
但隨意地將混合所有的距離測量方法會引入不必要的超參數。
3.2 Models
論文設計了三個對比模型:Baseline Model、DistanceNet?和?Dynamic Multi-Source DistanceNet using Multi-Armed Bandit
3.2.1 Baseline Model
給定一個序列 ,首先將這些嵌入到向量表示 。LSTM-RNN 的輸出是 。
標簽的概率分布由 全連接層產生。損失函數采用交叉熵損失:。
3.2.2 DistanceNet
模型框架如左上圖所示,在分類損失的基礎上增加域距離項來形成模型的損失函數,損失函數與單個源域的損失函數類似:
3.2.3 Dynamic Multi-Source DistanceNet using Multi-Armed Bandit
DistanceNet 描述了在單一源/目標域上擬合模型的方法。然而,當訪問多個源域時,就需要更好的方法來利用這些額外的學習信號。一個簡單的方法是將這些多個源域視為單個大源域,并像上述模型一樣應用前面描述的算法。
但是,隨著模型表示在整個訓練過程中發生變化,能夠提供最有信息的訓練信息可能會隨著訓練過程的變化而改變。這也與目標域在一段時間內學習每個源域的權值有關(Ben-David et al. 2010)。因此,動態選擇源域的順序以在目標域任務上實現最佳結果可能更有利。
如右上圖所示,論文引入了一種多臂賭博機控制器,用于在訓練期間動態改變源域。將控制器建模為 M 臂賭博機(其中 M 是候選域的數量),其目標是選擇一系列候選域,以最大化預期的未來回報。在每一輪循環中,賭博機基于噪聲值估計選擇一個候選域并觀察獎勵。
更具體地說,隨著訓練的進行,控制器選擇的一個訓練領域和任務模型在選定的領域使用指定的損失函數,性能驗證數據將被反饋給賭博機作為獎勵。
在候選域選擇時,使用上置信界算法(upper confifidence bound)來選擇候選域:
3.3 Experimental Results
表 4 顯示了當源域和目標域不同時 Baseline Model 和 DistanceNet 的結果,其中最后一列顯示平均結果。與表 3 中的數字進行比較,可以看到,當數據分布發生變化時,性能會下降。
通過添加域距離度量作為額外的損失項,該模型能夠縮小域內和域外之間的差距。特別是,在平均結果方面,所有的模型都比 Baseline Model 表現得更好。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的多源迁移学习相关研究回顾的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 克拉玛依驾车到衡阳南台寺走哪条路
- 下一篇: 创维 EV6“闪亮版”纯电 SUV 上市