ECCV 2020 Spotlight | CFBI:前背景整合的协作式视频目标分割
?PaperWeekly?·?作者|楊宗鑫
學校|悉尼科技大學博士生
研究方向|視頻分割、網絡結構設計
?
半監督視頻目標分割
?
視頻目標分割(VOS)是計算機視覺領域的一個基礎任務,具有非常多潛在的應用場景,例如增強現實和自動駕駛。而半監督視頻目標分割的任務,意圖在給出視頻第一幀中的目標分割的前提下,分割出剩余的整個視頻中的該目標。
半監督視頻目標分割的發展有利于促進很多相關任務的提升,比如視頻實例分割和交互式視頻目標分割。本文的方法就是聚焦于半監督視頻目標分割任務上。
論文標題:Collaborative Video Object Segmentation by Foreground-Background Integration
論文鏈接:https://arxiv.org/abs/2003.08333
代碼鏈接:https://github.com/z-x-yang/CFBI?(即將放出,目前處于代碼清理階段)
?
被輕視的背景信息
?
較早的半監督 VOS 工作(例如 OnAVOS 和 PReMVOS)會在測試過程中將模型在視頻第一幀(具有 groundtruth)上進行微調訓練(fine-tuning),這可以顯著地提升性能但會大幅降低模型的推斷速度。最近的工作都旨在直接提升網絡的表征能力,從而避開使用微調訓練,以達到更好的推斷速度。
STMVOS 引入了一個記憶模塊來存儲過往幀的信息,但訓練的過程中需要使用大量的圖片來模擬生成視頻序列。FEELVOS 基于第一幀和前一幀的像素特征來匹配當前幀中目標的像素,網絡結構簡單且快速,但性能上卻遠不能比擬 STMVOS。
我們觀察到之前的工作都把精力放在如何更好的匹配前景目標上,很少有工作關注背景的特征學習。直觀上,如果我們能準確地匹配出背景區域中的物體,那么與背景相對的、剩下的就是前景的物體。
此外,視頻場景中往往會存在多個相似的目標,例如會議中的多個人、賽車比賽中的多輛車還有農場中的一群動物等等。在這些場景下,如果我們關注其中的某一個物體卻忽視其他背景中的相似物體時,我們的預測結果就很容易被這些背景中的物體所影響甚至產生混淆。
這張圖便是一個簡單的例子,如果我們忽略背景中的羊群,我們的預測就可能出現錯誤。但如果我們同時對背景中的羊以及前景中的羊都做匹配,那么原先出錯的羊就有可能被正確的歸類到背景中,從而避免了混淆的發生。
?
CFBI:前背景整合的協作式視頻目標分割
上圖便是我們 CFBI 的整體框架,給定參考幀(第一幀)和前一幀的圖像和目標分割,我們的框架會預測出當前幀的分割。
融合不同尺度的信息在 VOS 中是必要的,因為視頻中往往存在著不同尺度大小的物體。一個好的模型需要在處理不同尺度的物體時都有較好的魯棒性。為此,我們設計的CFBI的模型部分分為兩個大部分,第一部分為像素尺度的匹配(框架圖的中部),第二部分為實例尺度的注意力模塊(框架圖的右側)。
在這兩個大部分上,我們都會同時、同等地處理前景和背景信息。前背景信息的分離是簡單且直接的,我們直接根據給定的目標分割將參考幀和前一幀的像素特征分為了前景像素特征和背景像素特征,這兩種特征被分別用于匹配前景像素區域和背景像素區域。
?
基于參考幀的前景和背景匹配:
基于前一幀的前景和背景匹配:
在與參考幀的像素進行匹配時,我們會在當前幀的全平面上進行匹配搜索。而在與前一幀的像素進行匹配時,我們只會在前一幀像素的領域內進行匹配搜索,這是由于幀間的運動范圍是有限的。
不過,在 VOS 的數據集上,不同的視頻往往有著不同的運動速率,所以我們采用了多窗口(領域)的匹配形式,以使得模型對在處理不同運動速率的物體時更為魯棒。
此外,我們將前景像素特征和背景像素特征在特征通道上進行了全局池化,將像素尺度的特征轉為實例尺度的池化向量。池化向量會基于一個啟發于 SE-Net 的注意力結構,對 CFBI 的輸出模塊(Collaborative Ensembler)中的特征的通道進行調整。由此,我們的模型能更好的獲取實例尺度的信息。
在訓練的過程中,我們發現很多的目標要遠小于視頻圖片的尺寸,在這樣的情況下,隨機裁剪增強時有很大的概率返回一張沒有目標物體的圖片,因此我們設計了一種均衡的隨機裁剪算法,以使得前景目標更容易被裁剪到。
實驗結果
?
與現有的最佳方法進行對比,我們在三個最受歡迎的數據集上(DAVIS-2016,DAVIS-2017,YouTube-VOS)上均取得了最佳結果。特別是在大型數據集 YouTube-VOS 2018 Validation 上我們要大幅領先之前的方法。
而且在? YouTube-VOS 2019 Testing 上,我們的方法的單模型性能要高于 2019 年 YouTube-VOS 競賽中的冠軍方法。
?
與 STMVOS 的可視化結果對比顯示出我們的方法對于模糊和遮擋有著更好的魯棒性。
?
對于復雜的多相似目標的場景,我們的模型也能很好地處理。但當相似的物體直接相鄰接時,還是可能會出現部分混淆。
?
消融實驗充分體現了前背景信息整合對于性能提升的重要性。
?
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ECCV 2020 Spotlight | CFBI:前背景整合的协作式视频目标分割的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北上广深人口为什么会负增长?
- 下一篇: 如何高效准备2021届秋招算法岗面试?