CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架
?作者?|?朱磊
來源?|?機器之心
將弱監督物體定位看作圖像與像素特征域間的域自適應任務,北大、字節跳動提出新框架顯著增強基于圖像級標簽的弱監督圖像定位性能。
物體定位作為計算機視覺的基本問題,可以為場景理解、自動駕駛、智能診療等領域提供重要的目標位置信息。然而,物體定位模型的訓練依賴于物體目標框或物體掩模等密集標注信息。這些密集標簽的獲取依賴于對圖像中各像素的類別判斷,因此極大地增加了標注過程所需的時間及人力。
為減輕標注工作的負擔,弱監督物體定位 (WSOL) 通過利用圖像級標簽(如圖像類別)作為監督信號進行物體定位模型的訓練,以擺脫訓練過程對像素級標注的需求。該類方法大多采用分類激活圖 (CAM) 的流程訓練一個圖像級特征分類器,而后將該分類器作用于像素級特征得到物體定位結果。但是圖像級特征通常保有充足的物體信息,僅識別其中具有鑒別性的物體特征即正確分類圖像。因此,在將該分類器作用于在所含物體信息并不充足的像素級特征進行物體定位時,最終得到的定位圖往往只能感知到部分物體區域而非整個物體。
為解決這一問題,本文將基于 CAM 的弱監督物體定位過程看作是一個特殊的域自適應任務,即在保證在源圖像級特征域上訓練的分類器應用在目標像素域時仍具有良好的分類表現,從而使其更好的在測試過程中進行目標定位。從這一視角來看,我們可以很自然的將域自適應方法遷移到弱監督物體定位任務中,使得僅依據圖像標簽訓練的模型可以更為精準的定位目標物體。
文章地址:
https://arxiv.org/abs/2203.01714
項目地址:
https://github.com/zh460045050/DA-WSOL_CVPR2022
目前,這項研究已被 CVPR 2022 接收,完整訓練代碼及模型均已開源。主要由北大分子影像/醫學智能實驗室朱磊和字節跳動佘琪參與討論和開發,北大分子影像/醫學智能實驗室盧閆曄老師給予指導。
方法
?圖1. 方法整體思想
弱監督物體定位實際上可以看作是在圖像特征域(源域 )中依據圖像級標簽(源域金標 )完全監督地訓練模型 ,并在測試過程中將該模型作用于像素特征域(目標域 )以獲取物體定位熱力圖??偟膩砜?#xff0c;我們的方法希望在此過程中引入域自適應方法進行輔助,以拉近源域 與目標域 的特征分布,從而增強在模型 對于目標域 的分類效果,因此我們的損失函數可以表示為:
其中 為源域分類損失,而 則為域自適應損失。
由于弱監督定位中源域和目標域分別為圖像域和像素域,我們所面臨的域自適應任務具有一些獨有的性質:1)目標域樣本與源域樣本的數量并不平衡(目標域樣本是源域的 N 倍,N 為圖像像素數);2)目標域中存在與源域標簽不同的樣本(背景像素不屬于任何物體類別);3)目標域樣本與源域樣本存在一定聯系(圖像特征由像素特征聚合而得到)。
為了更好地考慮這三個特性,我們進而提出了一種域自適應定位損失(DAL Loss)作為 以拉近圖像域 S 與像素域 T 的特征分布。
?圖2.?弱監督定位中源域目標域的劃分以及其在弱監督定位中的作用
首先,如圖 2-A,我們將目標域樣本 T 進一步分為三個子集:1)“偽源域樣本集 ”表示與源域特征分布相似的目標域樣本;2)“未知類樣本集 ”表示類別在源域中不存在的 l 目標域樣本;3)“真實目標域樣本集 ”表示其余樣本。依據這三個子集,我們提出的域自適應定位損失可以表示為:
從上述公式可以看到,在域自適應定位損失中,偽源域樣本被看作源域樣本的補充而非目標域樣本,以解決樣本不平衡問題。同時,為了減少具有源域未知類別的樣本 對分類準確率的干擾,我們僅使用傳統自適應損失 (如最大均值差異 MMD)拉近擴增后的源域樣本集 與真實目標域樣本集 的特征分布。而這些被排除在域自適應過程之外的樣本 ,可以被用作 Universum 正則 ,以保證分類器所定義的類別邊界也能更好的感應到目標域。
圖 2-B 也形象地展示了源域分類損失及域自適應定位損失的預期效果,其中 保證不同類別源域樣本可以被正確區分, 將源域目標域分布進行拉近,而 將類別邊界拉近到未知標簽目標域樣本處。
?圖3.?整體工作流及目標樣本分配器結構
我們提出,域自適應定位損失可以很便捷地將域自適應方法嵌入到已有弱監督定位方法中大幅提升其性能。如圖 3 所示,在已有弱監督定位模型上嵌入我們的方法僅需要引入一個目標樣本分配器(Target Sample Assigner)進行目標域樣本子集的劃分,該分配器通過記憶矩陣 M 在訓練過程中實時更新未知類目標域樣本集 與真實目標域樣本集 的錨點,并以將二者和源域特征作為聚類中心進行三路 K 均值聚類,得到每個目標域樣本所屬的子集。
最后依此樣本子集,我們可以得到域自適應損失 、以及 Universum 正則 并利用二者與源域分類損失 一起對訓練過程進行監督,使得在保證源域分類準確性的情況下,盡可能的拉近源域與目標域特征,并減少未知類別樣本影響。這樣一來,在將該模型應用于目標域(也就是像素特征)進行物體定位時,最終生成的定位熱力圖的質量將得到顯著提升。
實驗
圖4.?物體定位熱力圖及最終定位 / 分割結果
我們在三個弱監督目標定位數據集上驗證了我們方法的有效性:
從視覺效果來看,由于保證了圖像與像素特征域的分布一致性,我們的方法可以更為全面的抓取物體區域。同時,由于 Universum 正則關注了背景像素對分類器的影響,我們的方法生成的定位熱力圖可以更好的貼近物體邊緣并抑制類別相關背景的響應程度,如水面之于鴨子。
從定量結果中可以也看到,在目標定位性能方面,我們的方法在三個數據上均取得了非常好的效果,尤其是在對于非細粒度目標定位的情況(ImageNet 和 OpenImages 數據集),我們的方法均取得了最優的定位性能。而對于圖像分類性能方面,由于引入域自適應會導致源域準確度的損失,但通過借鑒多階段策略利用一個附加的分類模型(僅使用??訓練)生成分類結果即可解決域自適應帶來的副作用。
此外,我們也具備很好的泛化性,可以兼容多類域自適應及多種弱監督目標定位方法,以提升定位性能。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 交行金卡升级白金卡额度会变吗
- 下一篇: 变分贝叶斯深度学习综述