CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
? 理解出錯(cuò)之處望不吝指正。
? 本文模型叫做ADNet。該模型通過強(qiáng)化學(xué)習(xí)產(chǎn)生動(dòng)作序列(對(duì)bbox進(jìn)行移動(dòng)or尺度變換)來進(jìn)行tracking。原理如下圖(第一列代表初始幀,第二列和第三列代表通過RL產(chǎn)生的動(dòng)作序列對(duì)object進(jìn)行tracking):
???
?
-
? 模型的整體結(jié)構(gòu)如下:
?
-
? 強(qiáng)化學(xué)習(xí)部分:
? (1)狀態(tài):
??? 狀態(tài)分為和兩部分。其中代表正在tracking的bbox(當(dāng)前圖片信息,可在上圖中看到),則是一個(gè)維的向量,存儲(chǔ)的是pervious 10個(gè)action,其中11代表的是11種不同的action,使用獨(dú)熱碼表示。
? (2)動(dòng)作:
??? 動(dòng)作分為3類共11種。第一類是move,包括上下左右和快速上下左右;第二類是scale,包括放大和縮小;第三類是stop,即終止操作。
?????
? (3)狀態(tài)轉(zhuǎn)移:
??? 我們定義一個(gè)差值():
?????
??? 對(duì)于上下左右action(以此類推):
?????
??? 對(duì)于快速上下左右action(以此類推):
?????
??? 對(duì)于尺度變換action:
?????
? (4)獎(jiǎng)勵(lì)函數(shù):
??? 假設(shè)action sequence的長(zhǎng)度為T,則reward定義如下(即:中間的那些action都不產(chǎn)生reward,只有動(dòng)作終止了才有reward):
?????
??? 動(dòng)作的終止有兩種觸發(fā)情況:①.選擇了stop action;②.action sequence產(chǎn)生了波動(dòng)(eg: {left, right, left})。
?
-
? 訓(xùn)練部分:
? 訓(xùn)練部分包括三部分:
? (1)訓(xùn)練監(jiān)督學(xué)習(xí)部分
??? 這部分訓(xùn)練,訓(xùn)練部分的action lable通過以下方法獲得:
?????
??? class lable的判斷如下:
?????
??? 損失函數(shù)如下:
?????
? (2)訓(xùn)練強(qiáng)化學(xué)習(xí)部分(這部分有點(diǎn)沒懂)
??? 這部分訓(xùn)練,我們通過上一步驟的訓(xùn)練得到了當(dāng)前訓(xùn)練的初始參數(shù),這部分就是使用SGD最大化:
?????
??? 其中當(dāng)在labeled frame中success時(shí),,否則。
??? 作者提到這部分訓(xùn)練可以采用半監(jiān)督訓(xùn)練,如下圖所示:
?????
? (3)在線自適應(yīng)
??? 在線更新的時(shí)候,只對(duì)進(jìn)行更新。每過幀使用前面幀中置信分?jǐn)?shù)大于0.5的樣本進(jìn)行微調(diào)。
??? 如果當(dāng)前的置信分?jǐn)?shù)小于-0.5,說明“跟丟了”,需要進(jìn)行re-detection。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICCV 2017 PTAV:《Para
- 下一篇: CVPR 2017 CA:《Contex