商汤科技 中科院自动化所:视觉跟踪之端到端的光流相关滤波 | CVPR 2018
作者丨朱政
學校丨中科院自動化所博士生
單位丨商湯科技
研究方向丨視覺目標跟蹤及其在機器人中的應用
本文主要介紹我們發(fā)表于 CVPR 2018 上的一篇文章:一種端到端的光流相關(guān)濾波跟蹤算法。據(jù)我們所知,這是第一篇把 Flow 提取和 tracking 任務統(tǒng)一在一個網(wǎng)絡里面的工作。
■?論文 | End-to-end Flow Correlation Tracking with Spatial-temporal Attention
■ 鏈接 | https://www.paperweekly.site/papers/1825
■ 作者 | Zheng Zhu / Wei Wu / Wei Zou / Junjie Yan
論文動機
首先是 motivation,近兩年 DCF+CNN 的 tracker 在 tracking 的社區(qū)里面一直是標配,但我們注意到幾乎所有的 tracker 都只用到了 RGB 信息,很少有用到視頻幀和幀之間豐富的運動信息,這就導致了 tracker 在目標遇到運動模糊或者部分遮擋的時候,performance 只能依靠離線 train 的 feature 的質(zhì)量,魯棒性很難保證。
于是我們就想利用視頻中的運動信息(Flow)來補償這些情況下 RGB 信息的不足,來提升 tracker 的 performance。
具體來說,我們首先利用歷史幀和當前幀得到 Flow,利用 Flow 信息把歷史幀 warp 到當前幀,然后將 warp 過來的幀和本來的當前幀進行融合,這樣就得到了當前幀不同 view 的特征表示,然后在 Siamese 和 DCF 框架下進行 tracking。
▲?FlowTrack整體框架
上面是我們算法的整體框架,采用 Siamese 結(jié)構(gòu),分為 Historical Branch 和Current Branch。
在 Historical Branch 里面,進行 Flow 的 提取 和 warp,在融合階段,我們設計了一種 Spatial-temporal Attention 的機制(在后面敘述)。
在 Current Branch,只提取 feature。Siamese 結(jié)構(gòu)兩支出來的 feature 送進 DCF layer,得到 response map。
總結(jié)來說,我們把 Flow 提取、warp 操作、特征提取和融合和 CF tracking 都做成了網(wǎng)絡的 layer,端到端地訓練它們。
技術(shù)細節(jié)
下面是一些技術(shù)細節(jié),采用問答方式書寫。
問:warp 操作是什么意思,怎么實現(xiàn)的??
答:warp 具體的推導公式可以參見 paper,是一種點到點的映射關(guān)系;實現(xiàn)可以參見 DFF 和 FGFA 的 code,略作修改即可。?
問:Flow 提取和訓練是怎么實現(xiàn)的?
答:我們采用的是 FlowNet1.0 初始化,然后在 VID 上面訓練,訓練出來的 Flow 質(zhì)量更高,對齊地更好;未來我們會換用 FlowNet2.0 或者速度更快的 Flow 網(wǎng)絡,爭取在速度和精度上有所提升。
問:融合是怎么實現(xiàn)的??
答:在融合階段,我們我們設計了一種 Spatial-temporal Attention 的機制。在 Spatial Attention 中,是對空間位置上每一個待融合的點分配權(quán)重,具體采用余弦距離衡量(公式可以參見 paper),結(jié)果就是和當前幀越相似分配的權(quán)重越大,反之越小。
這么做的問題是當前幀的權(quán)重永遠最大,所以我們借鑒 SENet 的思想進而設計了 temporal attention,即把每一幀看做一個 channel,設計一個質(zhì)量判斷網(wǎng)絡:
▲ Temporal Attention的圖示
網(wǎng)絡輸出的結(jié)果是每一幀的質(zhì)量打分,質(zhì)量高的幀分數(shù)高,質(zhì)量低(比如部分遮擋)的幀分數(shù)低:
▲?Temporal Attention的結(jié)果
Temporal Attention 和前面的 Spatial Attention 結(jié)合起來,就可以對 warp 之后的 feature map 和當前幀本身的 feature map 進行融合。
問:DCF 操作怎么做成 layer??
答:這個在 CFNet 和 DCFNet 里面具有闡述,paper 里面也做了簡單的總結(jié)。?
問:paper 里面 warp 的幀數(shù)是怎么選定的??
答:通過實驗確定,實驗結(jié)果如下:
▲?warp幀數(shù)的選擇
問:最后在 OTB 和 VOT 的實驗結(jié)果怎么樣??
答:OTB2015 AUC 分數(shù) 0.655;VOT2016 EAO 分數(shù) 0.334(超過 CCOT),速度 12FPS(是 CCOT 的 40 倍),當然,和 ECO 還是有精度上的差距。結(jié)果圖可以參見下面:
▲?OTB2015的實驗結(jié)果
▲?VOT2016的EAO Ranking
▲?VOT2016上面具體的accuracy和robustness
為了完整起見,補充一下 OTB2013 和 VOT2015 的結(jié)果:
▲?VOTB2013實驗結(jié)果
▲?VOT2015上面具體的accuracy和robustness
▲?VOT2015 EAO Ranking
問:網(wǎng)絡中元素比較多,究竟哪一塊在 work?
答:我們做了 ablation 分析,結(jié)果如下,值得注意的是加入固定的光流信息之后,某些數(shù)據(jù)集上的 performance 反而下降了;我們估計是由于光流信息的(不高的)質(zhì)量和(不太)對齊造成的。
▲?ablation分析,FlowTr是完整的FlowTrack,其余從上到下分別是:不用Flow信息的,用Flow信息但不進行端到端訓練的,用time-decay方式進行融合的,不用temporal attention的
問:為什么選擇 warp 的幀間隔是 1 而不是 2,4,8 這種,這樣的話不是更能包含更多的 temporal information 嗎?比如更長時間的遮擋的時候似乎更 work??
答:我們試了幀間隔為 1,2,4 的方案,當幀間隔為 2 和 4 的時候(即 warp t-2,t-4... 或者 t-4,t-8...),雖然在某些情況(比如遮擋)能取得更好的結(jié)果,但整體性能是下降的。
我們猜測是由于幀間隔大了之后,Flow 信息的質(zhì)量可能會變差(畢竟 FlowNet 是針對小位移的)。?
問:fixed Flow 和訓練之后的 Flow 有什么區(qū)別??
答:訓練之后的 Flow 相比較固定的 FlowNet 提取出來的 Flow,質(zhì)量更高,對齊地更準,一個例子如下圖:
▲?左列:待輸入 Flow 網(wǎng)絡的兩張圖;中列:固定的 FlowNet 和訓練之后的 Flow 網(wǎng)絡提取的 Flow;右列:Flow mask 到原圖(注意:都是 mask 到左下角的圖上)。
問:和 ICPR 那一篇 Deep Motion Feature for Visual Tracking 那一篇結(jié)果對比怎么樣??
答:OP 指標可以超過,速度比他快很多(他的速度不包含提取 Flow 的時間),見下表:
▲?和ICPR文章的對比
問:在 VOT2017 上面的結(jié)果怎么樣?
答:還不錯,EAO 目前可以排名第二,見下圖:
▲?VOT2017結(jié)果
點擊查看更多CVPR 2018論文解讀:?
用于部分遷移學習的加權(quán)對抗網(wǎng)絡
腦洞大開的機器視覺多領(lǐng)域?qū)W習模型結(jié)構(gòu)
基于GAN的字體風格遷移
新型RNN:將層內(nèi)神經(jīng)元相互獨立以提高長程記憶
▲?戳我查看招聘詳情
#崗 位 推 薦#
平安人壽AI研發(fā)團隊2018社會招聘、校園招聘全面啟動!
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 進入作者知乎專欄
總結(jié)
以上是生活随笔為你收集整理的商汤科技 中科院自动化所:视觉跟踪之端到端的光流相关滤波 | CVPR 2018的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 快醒醒,一大波最新 AI 论文加开源代码
- 下一篇: 当前深度神经网络模型压缩和加速都有哪些方