论文精读:用于少样本目标检测的元调整损失函数和数据增强(Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection)
論文鏈接:Meta-Tuning Loss Functions and Data Augmentation for Few-Shot Object Detection
Abstract
現(xiàn)階段的少樣本學習技術(shù)可以分為兩類:基于微調(diào)(fine-tuning)方法和基于元學習(meta-learning)方法。
基于元學習的方法旨在學習專用的元模型,使用學到的先驗知識處理新的類,而基于微調(diào)的方法以更簡單的方式處理少樣本檢測,通過基于梯度的優(yōu)化將檢測模型適應(yīng)新領(lǐng)域的目標。基于微調(diào)的方法相對簡單,但通常能夠獲得更好的檢測結(jié)果。
基于此,作者將重點關(guān)注損失函數(shù)和數(shù)據(jù)增強對微調(diào)的影響,并使用元學習的思想去動態(tài)調(diào)整參數(shù)。因此,提出的訓練方案允許學習能促進少樣本檢測的歸納偏置,從而增強少樣本檢測,同時保持微調(diào)方法的優(yōu)點。
歸納偏置:為了實現(xiàn)泛化,一定的偏好(或者稱為歸納偏置)是必要的,也就說在新數(shù)據(jù)集上實現(xiàn)泛化需要對最優(yōu)解做出合理假設(shè)。引入歸納偏置的方式有很多,例如在目標函數(shù)中加入正則項。
1. Introduction
目標檢測是計算機視覺的問題之一,依賴于大規(guī)模注釋數(shù)據(jù)集,但由于數(shù)據(jù)集的收集和標注成本,催生出了一系列對標注數(shù)據(jù)要求較低的目標檢測方法,例如結(jié)合弱監(jiān)督學習、點注釋(point annotations)和混合監(jiān)督學習。類似的還有少樣本目標檢測(Few-Shot Object Detection, FSOD)。
在FSOD問題上,目標是通過遷移學習,用在大規(guī)模圖像上訓練的模型,為具有少量樣本標記的新類構(gòu)建檢測模型。還有就是廣義少樣本目標檢測(Generalized-FSOD, G-FSOD),目標是要構(gòu)建在基礎(chǔ)類和新類都表現(xiàn)良好的少樣本檢測模型。
FSOD分為元學習的方法與微調(diào)的方法。現(xiàn)階段,微調(diào)的方法在這一問題上表現(xiàn)更為出色。微調(diào)的方法是典型的遷移學習,基于梯度優(yōu)化進行對正則化損失最小化,使預(yù)訓練模型適應(yīng)少樣本類別。
雖然能夠?qū)iT的參數(shù)進行訓練的FSOD的元學習方法很有吸引力,但有兩個重要的缺點:1、由于模型復雜性,有著過擬合訓練類的風險;2、難以解釋學到的內(nèi)容。相對的,基于微調(diào)的FSOD方法簡單且通用。
為什么說“難以解釋學到的內(nèi)容”:除了廣為詬病的“神經(jīng)網(wǎng)絡(luò)模型是黑盒子”說法,還可能是因為元學習涉及多個任務(wù)的訓練,任務(wù)之間亦有差異,這使得難以找到的通用的解釋方法。
但是,基于微調(diào)的FSOD方法的最大優(yōu)點也可能是最大缺點:它們普遍保留基類的知識,沒有在很少的樣本上學習到歸納偏置。為了解決這些問題,許多方法在微調(diào)的細節(jié)切入,例如:Frustratingly Simple Few-Shot Object Detection提出凍結(jié)一部分參數(shù)然后微調(diào)檢測模型的最后一層;FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding修改了損失函數(shù)。然而這些這些針對少樣本類的特定優(yōu)化方式,由于都是手工完成,所以并不一定是最優(yōu)的。
還是為了解決這些問題,作者引入元學習的思想,在FSOD的微調(diào)階段調(diào)整損失函數(shù)和數(shù)據(jù)增強,這個過程稱為元微調(diào)(meta-tuning),如圖1所示。
具體來說,就像元學習訓練元模型一樣,以數(shù)據(jù)驅(qū)動的方式逐步發(fā)現(xiàn)適合FSOD的最佳損失函數(shù)和數(shù)據(jù)(細節(jié))增強。使用強化學習(Reinforcement Learning, RL)的技術(shù)調(diào)整損失函數(shù)與數(shù)據(jù)增強,最大化微調(diào)后的FSOD模型質(zhì)量。作者通過對設(shè)置的損失項和增強列表進行調(diào)整,將搜索限制在有效的函數(shù)族內(nèi)。最后將元學習調(diào)整的損失函數(shù)和增強以及FSOD特定的歸納偏置與微調(diào)方法相結(jié)合。
為了探索meta-tuning對于FSOD的潛力,作者將重點關(guān)注分類損失的細節(jié)(FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding展示了,在目標檢測問題中,分類和定位中,分類更容易出錯)。此外,作者首先關(guān)注了softmax的溫度參數(shù),設(shè)定了兩個版本:1、簡單的恒定溫度參數(shù);2、隨微調(diào)迭代變化的動態(tài)溫度,用指數(shù)多項式表示。
在所有情況下,通過meta-tuning學習的參數(shù)都會產(chǎn)生可解釋的損失函數(shù),與復雜的元模型相比,在基類上過擬合的風險可以忽略不計。作者還在meta-tuning過程中對數(shù)據(jù)增強的進行建模,作者還引入了分數(shù)縮放器,用于平衡學習基類和新類的分數(shù)。
2. Related Word(略)
3. Method
每張訓練圖片對應(yīng)元組\((x,y)\),包括圖像\(x\)和標注\(y=\{y_0,\dots,y_M\}\),每個對象的標注\(y_i=\{c_i,b_i\}\)表示類別標簽\(c_i\)和檢測邊界\(b_i=\{x_i,y_i,w_i,h_i\}\)。當FSOD模型訓練完成,評估階段使用k張圖片,圖像的類來自新的類集合\(C_n\)。
對于基礎(chǔ)模型,作者使用MPSR FSOD方法 作為損失函數(shù)和數(shù)據(jù)增強搜索方法的基礎(chǔ)。為了使Faster-RCNN適應(yīng)基于微調(diào)的FSOD,引入了多尺度位置采樣調(diào)整(Multi-Scale Positive Sample Refinement, MPSR)分支來處理尺度稀疏問題
圖像中的對象被裁剪并調(diào)整為多種尺寸以創(chuàng)建對象金字塔。MPSR對區(qū)域提議網(wǎng)絡(luò)(Region Prosed Network, RPN)和檢測頭使用兩組損失函數(shù),并將不同比例的正樣本與主檢測分支檢測結(jié)果一起反饋到損失函數(shù)中。最后,作者認為所提出的方法原則上可以應(yīng)用于幾乎任何基于微調(diào)的 FSOD 模型。
3.1 Meta-Tuning損失函數(shù)
對于元調(diào)整的FSOD,將重點關(guān)注分類損失函數(shù)(正如上文所述,分類比檢測更容易出錯)。對于MPSR的損失函數(shù)表示為:
\[\mathcal{l}_{cls}(x,y)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{e^{f(x_i,y_i)}}{\sum_y=e^{f(x_i,y)}}) \tag{1} \]其中\(N_{ROI}\)是圖像的候選區(qū)域,\(y_i\)是第i個ROI的真實標簽,\(f(x_i,y)\)是對應(yīng)y的預(yù)測分數(shù)。為了使損失函數(shù)更靈活,重新定了損失函數(shù):\(\mathcal{l}_{cls}(x,y;\rho)\),其中\(\rho\)表示損失函數(shù)的參數(shù)。首先引入了溫度標量\(\rho_\tau\),即\(\rho=(\rho_\tau)\)。
\[\mathcal{l}_{cls}(x,y;\rho)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{e^{f(x_i,y_i)/\rho_\tau}}{\sum_{y'}=e^{f(x_i,y')/\rho_\tau}}) \tag{2} \]引入的動機是來自溫度縮放在其他問題的表現(xiàn),例如知識蒸餾。對比手動調(diào)整的方式,這里引入元調(diào)整,通過定義動態(tài)溫度函數(shù)\(f_p\)和新類縮放器\(\alpha\)使損失函數(shù)更復雜:
\[\mathcal{l}_{cls}(x,y;\rho)=-\frac{1}{N_{ROI}}\sum^{N_{ROI}}_i\log(\frac{\alpha(y_i)e^{f(x_i,y_i)/f_p(t)}}{\sum_{y'}=e^{\alpha(y')f(x_i,y')/f_p(t)}}) \tag{3} \]其中\(f_p(t)=\exp(\rho_at^2+\rho_bt+\rho_c)\),這里\(\rho=(\rho_a,\rho_b,\rho_c)\)是多項式系數(shù)三元組,\(t\in[0,1]\)為歸一化后的微調(diào)迭代索引。\(y\in C_b\)時,\(\alpha(y)=1\);否則用縮放系數(shù)\(\rho_\alpha\)平衡基類和新類的學習。
3.2 Meta-tuning增強
對于元調(diào)整的數(shù)據(jù)增強部分,考慮到在基類學習的結(jié)果要遷移到新類,作者專注于光度增強。作者使用共享的增強幅度參數(shù)\(\rho_{aug}\)對亮度、飽和度和色調(diào)進行建模。在Randaugment: Practical Automated Data Augmentation With a Reduced Search Space證明了這是有效的。
3.3 Meta-tuning過程
作者使用基于強化學習的REINFORCE去搜索最佳損失函數(shù)和增強。
為了提高泛化能力,設(shè)置了代理任務(wù):在基類訓練數(shù)據(jù)上,模范新類的FSOD任務(wù)。為此,基類被分為兩個子集,代理基類\(C_{p-base}\)和代理新類\(C_{p-novel}\)。同時,使用基類訓練集分割構(gòu)造3個不重疊的數(shù)據(jù)集:
- \(D_{p-pretrain}\),僅包含\(C_{p-base}\)的樣本,用來訓練臨時的目標檢測模型進行元調(diào)整;
- \(D_{p-support}\),包含\(C_{p-base}\cup C_{p-novel}\),在元調(diào)整期間充當微調(diào)數(shù)據(jù);
- \(D_{p-query}\),包含\(C_{p-base}\cup C_{p-novel}\),在元調(diào)整期間評估廣義FSOD性能。
就像元學習的task,本文設(shè)置了一系列FSOD代理任務(wù):在每個代理任務(wù)T,從\(D_{p-support}\)選擇訓練數(shù)據(jù)。此外,還有對損失函數(shù)/增強幅度的參數(shù)組合\(\rho\),這里每個\(\rho_j\in\rho\)服從高斯分布:\(\rho_j\sim\mathcal{N}(\mu_j,\sigma^2)\)。
使用采樣的\(\rho\)對應(yīng)的損失函數(shù)或數(shù)據(jù)增強,在支持圖像上基于梯度優(yōu)化微調(diào)初始模型,并在\(D_{p-query}\)計算平均精度(mean Average Precision, mAP)。通過在多個代理任務(wù)支持樣本上多次重復該過程獲得多個mAP分數(shù),然后在每一次訓練之后,通過REFORCE規(guī)則更新\(\mu\)進行元調(diào)整,以找到表現(xiàn)良好的\(\rho\)。
\[\mu'_j\leftarrow\mu_j+\eta R(\rho)\nabla_\mu\log(p(\rho_j;\mu_j,\sigma))\tag{4} \]其中\(p(\rho;\mu,\sigma)\)是高斯密度函數(shù),\(\eta\)是RL學習率。
我們以每次訓練得到獎勵最高的\(\rho\)作為REFORCE更新規(guī)則。\(R(\rho)\)是通過白化后的mAP分數(shù)獲得的歸一化獎勵函數(shù).
白化:白化的目的是使得預(yù)處理后的數(shù)據(jù)具有以下特性:1、特征之間的相關(guān)性盡可能小;2、所有特征具有相同的方差;3、所有特征具有相同的均值。
最后,從\(\sigma=0.1\)開始,在RL迭代中減小\(\sigma\),通過更保守的采樣逐步減小探索,從而提高收斂性,最終方案如圖2所示(作者真正的工作是“ROI Cls Loss”和下方根據(jù)AP更新\(\mu\)的部分,Refinement Branch與Object Detection來自MPSR):
4. Experiments
對于指標的設(shè)置,作者選擇mAP分別評估基礎(chǔ)類和新類的檢測結(jié)果。在廣義FSOD評估中,選擇調(diào)和平均值(Harmony Mean, HM)來計算性能,HM定義為\(\mathrm{mAP_{base}}\)和\(\mathrm{mAP_{novel}}\)的均值。
對于數(shù)據(jù)集。在Pascal VOC上存在3個獨立的基類/新類,其中每個由15個基類和5個新類組成。在每次分割,選擇5個基類模仿代理任務(wù)上的新類。在MS-COCO上,選擇15個基類模仿代理任務(wù)上的新類,并評估10-shot和30-shot的情況。
對于Baseline,作者使用了MPSR和DeFRCN,兩種FSOD上的SOTA算法
4.1 主要結(jié)果
作者首先將元調(diào)整結(jié)果與MPSR基線進行比較,如表1所示。
- Meta-Static:使用固定的溫度參數(shù);
- Meta-Dynamic:使用動態(tài)溫度參數(shù)(公式(3)無\(\alpha\));
- Meta-ScaledDynamic:使用新類縮放動態(tài)溫度函數(shù)(公式(3));
- Aug:表示數(shù)據(jù)增強。
可以看到,隨著算法改進和數(shù)據(jù)增強參數(shù)的添加,整體的表現(xiàn)得到了提高。
表2中展示不同算法在Pascal VOC上的對比,可以看到作者的方法在FSOD和G-FSOD上都取得了最高的得分。結(jié)果表明,將元學習的得到的歸納偏置與微調(diào)相結(jié)合是有效的。
4.2 消融研究
消融研究設(shè)計了元微調(diào)的三個細節(jié):
- 代理任務(wù)的模仿:在代理任務(wù)上進行強化學習,用來模仿測試時的FSOD。
- 模型重新初始化:在每個代理任務(wù)上重新初始化模型,以避免累積的模型更新對獎勵的不良影響。
- 獎勵歸一化:通過標準化單個任務(wù)中獲得的獎勵來進一步減少任務(wù)間方差的影響,從而允許對采樣的損失函數(shù)和增強進行更獨立的評估。
在表4中展示使用Pascal VOC Split-1 和 MPSR+Meta-Dynamic和5-shot在G-FSOD上的表現(xiàn)。
圖4中展示了公式(2)和公式(3)使用的損失函數(shù)的相關(guān)參數(shù)訓練變化。
5. Conclusion
基于微調(diào)的少樣本目標檢測模型簡單可靠。但現(xiàn)有的微調(diào)改進都是使用手工的方式,作者提出引入元學習和強化學習,為小樣本學習引入歸納偏置,使損失函數(shù)和數(shù)據(jù)增強幅度的學習變化可解釋。最后,提出的元調(diào)整方式在數(shù)據(jù)集上取得較好的性能提升。
參考文獻
- 【深度學習】歸納偏置(Inductive Biases)
- 知識蒸餾(Knowledge Distillation)簡述(一)
- Model-Agnostic Meta-Learning (MAML)模型介紹及算法詳解
總結(jié)
以上是生活随笔為你收集整理的论文精读:用于少样本目标检测的元调整损失函数和数据增强(Meta-tuning Loss Functions and Data Augmentation for Few-shot Object Detection)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: van-dialog弹窗异步关闭-校验表
- 下一篇: JS判断点是否在线段上