SiamNet: 全卷积孪生网络用于视频跟踪
參考論文:Fully-Convolutional Siamese Networks for Object Tracking
算法主頁(yè):http://www.robots.ox.ac.uk/~luca/siamese-fc.html?
code:https://github.com/bertinetto/siamese-fc?
1. 網(wǎng)絡(luò)結(jié)構(gòu)及摘要
圖一 SiamNet 網(wǎng)絡(luò)結(jié)構(gòu)。 搜索區(qū)域x, 輸出的是一個(gè)得分圖, 所謂的得分就是相似度度量,得分圖的維度是由搜索圖像塊決定(樣本模板和搜索區(qū)域進(jìn)行密集交叉相關(guān))。?代表的是一種特征映射操作,將原始圖像映射到特定的特征空間
? ? ? 傳統(tǒng)意義上, 任意目標(biāo)跟蹤問(wèn)題采用在線學(xué)習(xí)目標(biāo)的形貌特征完成。 盡管這些在線的方法已經(jīng)取得了非常好的結(jié)果,但是啊僅僅在線的方法本身具限制了模型學(xué)習(xí)的豐富性。最近,一些學(xué)者開(kāi)始利用深度卷積網(wǎng)絡(luò)的強(qiáng)大特征表達(dá)能力。然而,當(dāng)跟蹤的目標(biāo)事前并不知道情況下,我們有必要采用SGD在線調(diào)整網(wǎng)絡(luò)的權(quán)重,這嚴(yán)重的降低了系統(tǒng)的速度。本文中作者將一個(gè)全新的全卷積孿生網(wǎng)絡(luò)fully-convolutional Siamese network融合到一個(gè)最基本的目標(biāo)跟蹤算法中。Siamese network 采用ILSVRC15數(shù)據(jù)集進(jìn)行end-to-end的訓(xùn)練。本文的跟蹤器盡管非常的簡(jiǎn)單,但是跟蹤準(zhǔn)確率很好,可以做到實(shí)時(shí)跟蹤。
2. 網(wǎng)絡(luò)的訓(xùn)練原理
圖2 SiamNet模型訓(xùn)練原理
2.1 模型訓(xùn)練-數(shù)據(jù)準(zhǔn)備
? ? ? ? ?作者采用判別式的方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,更具體是采用正樣本、負(fù)樣本分別構(gòu)成的exemplar-candidate對(duì)來(lái)進(jìn)行訓(xùn)練。 如圖2所示,上一幀的目標(biāo)模板與下一幀的搜索區(qū)域可以構(gòu)成很多pair的exemplar-candidate pair, 但是根據(jù)判別式跟蹤原理,僅僅下一幀的目標(biāo)與上一陣的目標(biāo)區(qū)域(即 exemplarof T frame-exemplarof T+1 frame)屬于模型的正樣本,其余大量的exemplar-candidate pair都是負(fù)樣本。這樣就完成了網(wǎng)絡(luò)結(jié)構(gòu)的端到端的訓(xùn)練。
? ? ? ? ?這里需要額外說(shuō)明一點(diǎn)就是如何確定搜索區(qū)域X. 其實(shí)這就是跟蹤領(lǐng)域比較常用的方法,根據(jù)前一幀目標(biāo)的中心初始化下一幀搜索區(qū)域的中心位置,然后設(shè)計(jì)搜索區(qū)域的尺寸就好了。
????? ??
2.2 模型訓(xùn)練-損失函數(shù)設(shè)計(jì)
? ? ? ? ?設(shè)計(jì)模型損失函數(shù)一直以來(lái)都是模型最重要的一環(huán)。本文作者采用了判別式掩膜的形式, 即目標(biāo)和搜索區(qū)域經(jīng)過(guò)交叉互相關(guān)可以得到相關(guān)程度譜圖,圖像在訓(xùn)練過(guò)程中exemplar-candidate的準(zhǔn)確關(guān)系是已知的。所以設(shè)計(jì)起來(lái)并不困難。但這里尋要有三個(gè)問(wèn)題需要解決:
?
- 模板和搜索區(qū)域經(jīng)過(guò)卷積特征提取之后,圖像尺寸已經(jīng)發(fā)生改變,如何和已知的判別式掩膜進(jìn)行運(yùn)算?
- 作者采用了絕對(duì)形式的判別式掩膜,如果人工標(biāo)記偶爾出現(xiàn)出現(xiàn)偏差,非黑即白的掩膜方略是否合理?
- 可否利用frame-frame之間的信息,例如相鄰兩幀之間目標(biāo)的位置偏移應(yīng)該很小? 采用平均損失作為損失函數(shù)是否合理?
回答1:
在固定特征提取網(wǎng)絡(luò)基礎(chǔ)之上,主要影響尺寸的是Sampling過(guò)程,也就是卷積過(guò)程中的Pooling,所以只需要記住Pooling過(guò)程中的stride就好。作者將金標(biāo)準(zhǔn)掩膜通過(guò)stride參數(shù)變化到Score Map尺寸大小的。如下所示:
k表示的就是圖像尺寸的降采樣過(guò)程。
回答2:
作者采用的是金標(biāo)準(zhǔn)位置一定范圍內(nèi)的區(qū)域都是正樣本,其其余部分為負(fù)樣本,這樣是擴(kuò)大正負(fù)樣本之間的距離,是的分類(lèi)更加的清晰,當(dāng)然也可以使用高斯權(quán)重進(jìn)行賦值構(gòu)造高斯掩膜。
回答3:(在線跟蹤過(guò)程)
作者在得分圖的基礎(chǔ)上賦予了余弦窗權(quán)重,用來(lái)懲罰大的不合理的偏移位置。
此外,作者也研究了尺度的影響,作者將搜索空間拓展到了尺度空間,進(jìn)行更加深層次的搜索。
跟蹤時(shí)直接對(duì)score map進(jìn)行線性插值,將17*17的score map擴(kuò)大為272*272,這樣原來(lái)score map中響應(yīng)值最大的點(diǎn)映射回272*272目標(biāo)位置。
3. 如何將不同目標(biāo)尺寸進(jìn)行規(guī)范化
作者采用了一個(gè)非常簡(jiǎn)單粗暴的方式將所有目標(biāo)規(guī)范到了127*127大小,具體為原標(biāo)注框的尺寸+邊緣填充+尺寸變化。
s(w+2*p) * s(h+2*p) = 127*127 ? s:尺度因子 p:邊緣填充
4. 額外信息
- 作者采用如下論文進(jìn)行尺度變換:He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing humanlevel performance on ImageNet classification,ICCV,2015.
- 在線實(shí)時(shí)更新模板并沒(méi)有得到比較好的收益。(如采用KCF的線性插值模式更新模板)
5. 感悟
這個(gè)“樸素”的網(wǎng)絡(luò)結(jié)構(gòu),深深的影響了這兩年來(lái)tracking的發(fā)展方向。?所謂的Siamese(孿生)網(wǎng)絡(luò),是指網(wǎng)絡(luò)的主體結(jié)構(gòu)分上下兩支,這兩支像雙胞胎一樣,共享卷積層的權(quán)值。上面一支(z)稱(chēng)為模板分支(template),用來(lái)提取模板幀的特征,下面一支(x)稱(chēng)為檢測(cè)分支(search),是根據(jù)上一幀的結(jié)果在當(dāng)前幀上crop出的search region。經(jīng)過(guò)了相同的網(wǎng)絡(luò)之后,模版支的feature map在當(dāng)前幀的檢測(cè)區(qū)域的feature map上做匹配(*)操作,找到響應(yīng)最大的點(diǎn)就是對(duì)應(yīng)這一幀目標(biāo)的位置。
優(yōu)勢(shì):
把tracking任務(wù)做成了一個(gè)檢測(cè)/匹配任務(wù),整個(gè)tracking過(guò)程不需要更新網(wǎng)絡(luò),這使得算法的速度可以很快(FPS:80+)。此外,續(xù)作CFNet將特征提取和特征判別這兩個(gè)任務(wù)做成了一個(gè)端到端的任務(wù),第一次將深度網(wǎng)絡(luò)和相關(guān)濾波結(jié)合在一起學(xué)習(xí)。
弊病:
1. 模板支只在第一幀進(jìn)行,這使得模版特征對(duì)目標(biāo)的變化不是很適應(yīng),當(dāng)目標(biāo)發(fā)生較大變化時(shí),來(lái)自第一幀的特征可能不足以表征目標(biāo)的特征。至于為什么只在第一幀提取模版特征,我認(rèn)為可能因?yàn)?#xff1a; 1)第一幀的特征最可靠也最魯棒,在tracking過(guò)程中無(wú)法確定哪一幀的結(jié)果可靠的情況下,只用第一幀特征足以的到不錯(cuò)的精度。 2)只在第一幀提模板特征的算法更精簡(jiǎn),速度更快。?
2. Siamese的方法只能得到目標(biāo)的中心位置,但是得不到目標(biāo)的尺寸,所以只能采取簡(jiǎn)單的多尺度加回歸,這即增加了計(jì)算量,同時(shí)也不夠精確。
相關(guān)的改進(jìn)方法如: Siamese + RPN :High Performance Visual Tracking with Siamese Region Proposal Network, CVPR 2018.
總結(jié)
以上是生活随笔為你收集整理的SiamNet: 全卷积孪生网络用于视频跟踪的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如果你20秒钟还看不懂这个短信的话,说明
- 下一篇: 程序员的SOHO:接单到完成的全过程