Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
?
Deep Reinforcement Learning for Visual Object Tracking in Videos 論文筆記
arXiv?
?
摘要:本文提出了一種 DRL 算法進行單目標跟蹤,算是單目標跟蹤中比較早的應用強化學習算法的一個工作。
?在基于深度學習的方法中,想學習一個較好的 robust spatial and temporal representation for continuous video data 是非常困難的。
?盡管最近的 CNN based tracker 也取得了不錯的效果,但是,其性能局限于:
1. Learning robust tracking features ;
2. maximizing long-term tracking performance ? ?---->>> without taking coherency and correlation into account.?
本文的創新點在于:
1. 提出一種 convolutional recurrent neural network model, 可以學習到單幀圖像的空間表示 以及 多幀圖像之間的時序上的表示;
得到的特征可以更好的捕獲 temporal information,并且可以直接應用到跟蹤問題上;
2. 我們的框架是端到端的進行訓練的 deep RL algorithm,模型的目標是最大化跟蹤性能;
3. 模型完全是 off-line的;
Tracking Framework :
?
?
本文提出的 Deep RL 算法框架,由三個部分構成:
1 ?CNN 特征提取部分;
2 ?RNN 歷史信息構建部分;
3 ?DEEP RL 模塊
?
前兩個部分沒什么要說的,就是簡單的 CNN, LSTM 結構。
第三個 RL 部分:
說到底,這個文章是在之前 attention model based Tracker ICLR 2016 年的一個文章基礎上做的。
RL 部分就是沒有變換,直接挪過來的。
狀態,是跟蹤視頻的 frame ;
動作,是 多變量高斯分布得到的 predicted location;
獎勵,是 scalar reward signal, 定義為:$r_t = -avg(l_t - g_t) - max(l_t - g_t)$ ,lt 是RL單元的輸出,gt 是時刻 t 的 gt ;
avg() 是給定矩陣的 mean value; max() 是計算給定元素的最大值。
訓練的目標是最大化獎勵信號 R。
學習的目標函數為:
其中,p(z1:T; W) 是可能交互的分布,參數化為 W (the distribution over possible interactions parameterized by W).?
上述函數涉及到 an expectation over high-dimensional interactions,以傳統的監督方法來解決是非常困難的。
利用 RL 領域中的 REINFORCE algorithm 進行近似求解。?
?
轉載于:https://www.cnblogs.com/wangxiaocvpr/p/6391221.html
總結
以上是生活随笔為你收集整理的Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 服务器(Dell T360+2块Tesl
- 下一篇: Xmind ZEN如何导出透明背景思维导