【跟踪算法】MOSSE论文翻译
? ? ? ?MOSSE跟蹤算法來自2010年David S. Bolme等人在CVPR上發(fā)表的論文《Visual Object Tracking using Adaptive Correlation Filters》。
? ? ? ?論文首次將相關(guān)濾波運(yùn)用到跟蹤算法中,算法速度可達(dá)到669FPS.
論文摘要:雖然不常用,但相關(guān)濾波器可以通過旋轉(zhuǎn),遮擋和其他干擾來跟蹤復(fù)雜物體,其速度是當(dāng)前最先進(jìn)技術(shù)的20倍以上。 最舊和最簡單的相關(guān)過濾器使用單一模板,并且在應(yīng)用于跟蹤時通常會失敗。 諸如ASEF和UMACE等更現(xiàn)代的方法表現(xiàn)更好,但他們的培訓(xùn)需求不太適合跟蹤。 視覺跟蹤需要從單幀來訓(xùn)練魯棒的濾波器,并在目標(biāo)對象的外觀發(fā)生變化時動態(tài)調(diào)整。
? ? ? ?本文提出了一種新型的相關(guān)濾波器,即最小平方誤差輸出和(MOSSE)濾波器,它在使用單幀初始化時產(chǎn)生穩(wěn)定的相關(guān)濾波器。 基于MOSSE濾波器的跟蹤器對于光照,尺度,姿勢和非剛性變形的變化具有魯棒性,同時以每秒669幀的速度運(yùn)行。基于峰值旁瓣比PSR(PSR定義為,其中g(shù)max是峰值,μsl和σsl是旁瓣的平均值和標(biāo)準(zhǔn)偏差)檢測遮擋,這使得跟蹤器能夠暫停并在對象重新出現(xiàn)時從其停止的位置恢復(fù)。
一、介紹
? ? ? ?視覺跟蹤在視頻處理中有許多實(shí)際應(yīng)用。 當(dāng)目標(biāo)位于視頻的一幀中時,在后續(xù)幀中跟蹤該對象通常很有用。 成功跟蹤目標(biāo)的每個幀能夠提供有關(guān)目標(biāo)的標(biāo)識和活動的更多信息。 由于跟蹤比檢測更容易,因此跟蹤算法在每個幀上可以比目標(biāo)檢測器使用更少的計算資源。
? ? ? ?視覺跟蹤近年來受到了很多關(guān)注。 已經(jīng)提出了許多強(qiáng)大的跟蹤策略,其通過復(fù)雜的運(yùn)算來確定目標(biāo)外觀的變化和跟蹤目標(biāo)。 最近的例子包括:增量視覺跟蹤(IVT)[17],基于穩(wěn)健碎片的跟蹤(FragTrack)[1],基于圖形的判別學(xué)習(xí)(GBDL)[19]和多實(shí)例學(xué)習(xí)(MILTrack)[2]。 雖然有效,但這些技術(shù)并不簡單; 它們通常包括復(fù)雜的外觀模型和/或優(yōu)化算法,因此很難跟上許多現(xiàn)代相機(jī)產(chǎn)生的每秒25到30幀(見表1)。
? ? ? ?在本文中,我們研究了一種更簡單的跟蹤策略。目標(biāo)外觀由自適應(yīng)相關(guān)濾波器建模,并且通過卷積(f * g)進(jìn)行跟蹤。用于創(chuàng)建過濾器的樸素方法(例如,從圖像中裁剪模板)會為目標(biāo)生成強(qiáng)峰,但也會錯誤地響應(yīng)背景。因此,它們對目標(biāo)外觀的變化不是特別魯棒,并且在挑戰(zhàn)性跟蹤問題上失敗。合成精確濾波器(ASEF)的平均值,無約束最小平均相關(guān)能量(UMACE)和平方誤差的最小輸出和(MOSSE)(本文介紹)產(chǎn)生的濾波器對于外觀變化更加魯棒并且更好地區(qū)分目標(biāo)和背景。如下圖所示,結(jié)果是一個更強(qiáng)的峰值被轉(zhuǎn)換為更少的漂移和更少的下降軌道。傳統(tǒng)上,ASEF和UMACE濾波器已經(jīng)離線培訓(xùn),用于物體檢測或目標(biāo)識別。 在這項研究中,我們修改了這些技術(shù),以便在線進(jìn)行訓(xùn)練,并采用自適應(yīng)進(jìn)行視覺跟蹤。 結(jié)果使跟蹤成為最先進(jìn)的性能,保留了基礎(chǔ)相關(guān)性方法的大部分速度和簡單性。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
該圖顯示了魚測試序列的第25幀的輸入,濾波器和相關(guān)輸出。 三個相關(guān)濾波器產(chǎn)生的峰值比Naive濾波器產(chǎn)生的峰值更緊湊。
? ? ? ?盡管該方法簡單,但基于改進(jìn)的ASEF,UMACE或MOSSE濾波器的跟蹤在旋轉(zhuǎn),縮放,光照和部分遮擋的變化下表現(xiàn)良好(參見圖1)。 測量相關(guān)峰值強(qiáng)度的峰值旁瓣比(PSR)可用于檢測遮擋或跟蹤失敗,停止在線更新,以及如果目標(biāo)以類似外觀重新出現(xiàn)則重新獲取跟蹤。 更一般地說,這些高級相關(guān)濾波器實(shí)現(xiàn)的性能與前面提到的更復(fù)雜的跟蹤器一致; 但是,基于濾波器的方法速度提高了20多倍,每秒可處理669幀(見表1)。
表1:該表比較了MOSSE跟蹤器與其他跟蹤系統(tǒng)的幀速率。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ?本文的其余部分安排如下。 第二節(jié)回顧了相關(guān)的相關(guān)濾波技術(shù)。 第三節(jié)介紹了MOSSE濾波器以及如何使用它來創(chuàng)建基于魯棒濾波器的跟蹤器。 第四節(jié)介紹了來自[17]的七個視頻序列的實(shí)驗結(jié)果。 最后,第五節(jié)將重新審視本文的主要發(fā)現(xiàn)。
二、研究背景
? ? ? ?在20世紀(jì)80年代和90年代,相關(guān)濾波器的許多變體,包括合成判別函數(shù)(SDF)[7,6],最小方差合成判別函數(shù)(MVSDF)[9],最小平均相關(guān)能量(MACE)[11],最優(yōu)權(quán)衡 濾波器(OTF)[16]和最小平方誤差綜合判別函數(shù)(MSESDF)[10]。 這些濾波器在具有不同外觀和強(qiáng)制硬約束的目標(biāo)對象的示例上進(jìn)行訓(xùn)練,使得濾波器總是產(chǎn)生相同高度的峰值。 最相關(guān)的是MACE,它產(chǎn)生尖峰和高PSR。在[12]中,發(fā)現(xiàn)基于SDF的濾波器(如MACE)的硬約束導(dǎo)致了失真容限問題。 解決方案是消除硬約束,而用濾波器產(chǎn)生高平均相關(guān)響應(yīng)來代替。 這種最大平均相關(guān)高度(MACH)的新型“無約束”相關(guān)濾波器被稱為UMACE,是MACE的變體。
? ? ? ?一種稱為ASEF的新型相關(guān)過濾器[3]引入了一種調(diào)整特定任務(wù)過濾器的方法。 在早期方法僅指定單個峰值的情況下,ASEF指定每個訓(xùn)練圖像的整個相關(guān)輸出。 ASEF在眼睛定位[3]和行人檢測[4]方面表現(xiàn)良好。 不幸的是,在這兩項研究中,ASEF都需要大量的訓(xùn)練圖像,這使得視覺跟蹤速度太慢。 本文通過引入適用于視覺跟蹤的ASEF的正則化變體來降低此數(shù)據(jù)要求。
?三、基于相關(guān)濾波器的跟蹤
? ? ? ??基于濾波器的跟蹤器使用在示例圖像上訓(xùn)練的濾波器來建立目標(biāo)的外觀。最初基于以第一幀中的目標(biāo)為中心的小跟蹤窗口來選擇目標(biāo)。從這一點(diǎn)開始,跟蹤和濾波訓(xùn)練一起工作。通過在下一幀中的搜索窗口上的相關(guān)濾波器來跟蹤目標(biāo);?對應(yīng)于相關(guān)響應(yīng)中的最大值的位置表示目標(biāo)的新位置。 然后基于該新位置執(zhí)行在線更新。
? ? ? ?為了建立快速跟蹤器,在傅立葉域快速傅立葉變換(FFT)[15]中計算相關(guān)性。?首先,計算輸入圖像的2D傅立葉變換:F = F(f),并計算濾波器:H = F(h)。卷積定理指出相關(guān)性在傅里葉域中成為元素乘法。 使用⊙符號明確表示逐元素乘法,*表示復(fù)數(shù)共軛,相關(guān)性采用以下形式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?G = F ⊙ H*? ? ? ? ? ? ? ? ? (1)?
? ? ? ?使用逆FFT將相關(guān)輸出變換回空間域。 該過程中的瓶頸是計算正向和反向FFT,使得整個過程具有O(P log P)的復(fù)雜度,其中P是跟蹤窗口中的像素數(shù)。
? ? ? ?在本章中,我們將討論基于濾波器的跟蹤器的組成。 3.1節(jié)討論了在跟蹤窗口上執(zhí)行的預(yù)處理。 3.2節(jié)介紹了MOSSE濾波器,它是從少量圖像構(gòu)建穩(wěn)定相關(guān)濾波器的改進(jìn)方法。 3.3節(jié)說明了如何使用正則化來生成更穩(wěn)定的UMACE和ASEF濾波器。 3.4節(jié)討論了用于在線更新過濾器的簡單策略。
3.1 預(yù)處理
? ? ? ?FFT卷積算法的一個問題是圖像和濾波器被映射到環(huán)面的拓?fù)浣Y(jié)構(gòu)。 換句話說,它將圖像的左邊緣連接到右邊緣,并將頂部連接到底部。 在卷積期間,圖像旋轉(zhuǎn)通過環(huán)形空間而不是像在空間域中那樣進(jìn)行平移。 人為地連接圖像的邊界會影響相關(guān)輸出的正確性。遵循[3]中概述的預(yù)處理步驟可以減少這種影響。 首先,使用對數(shù)函數(shù)變換像素值,這有助于低對比度照明情況。 將像素值歸一化為具有0.0的平均值和1.0的范數(shù)。 最后,圖像乘以余弦窗口,該窗口逐漸將邊緣附近的像素值減小到零。 這也有利于它將更多的重點(diǎn)放在目標(biāo)的中心附近。
3.2 MOSSE濾波器
? ? ? ? MOSSE是一種用于從較少的訓(xùn)練圖像產(chǎn)生類似ASEF的濾波器的算法。 首先,它需要一組訓(xùn)練圖像和訓(xùn)練輸出。通常,可以采用任何形式。?在這種情況下,從真實(shí)標(biāo)記生成,使得它具有以訓(xùn)練圖像中的目標(biāo)為中心的緊湊(σ= 2.0)2D高斯形狀的峰值。?在傅里葉域中進(jìn)行訓(xùn)練,以利用輸入和輸出之間的簡單元素關(guān)系。 與前一節(jié)一樣,我們將大寫變量,和濾波器H定義為它們的小寫對應(yīng)量的傅里葉變換。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ? ? ? ? ? ? (2)除法是按元素進(jìn)行的。
? ? ? ?為了找到將訓(xùn)練輸入映射到所需訓(xùn)練輸出的濾波器,MOSSE找到一個濾波器H,它最小化卷積的實(shí)際輸出和卷積的期望輸出之間的平方誤差之和。 這種最小化問題采取以下形式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ?在輸出上最小化平方誤差和(SSE)的想法并不新鮮。事實(shí)上,公式3中的優(yōu)化問題幾乎與[10]和[12]中提出的優(yōu)化問題相同。不同之處在于,在這些工作中,假設(shè)目標(biāo)始終以為中心并且輸出()對于整個訓(xùn)練集是固定的,而定制每個是ASEF和MOSSE的基本思想。在跟蹤問題中,目標(biāo)并不總是居中,并且中的峰值移動以跟隨中的目標(biāo)。 在更一般的情況下,可以具有任何形狀。 例如,在[4]中,包含多個目標(biāo),具有多個相應(yīng)的峰值。
? ? ? ?解決這個優(yōu)化問題并不是特別困難,但需要注意,因為被優(yōu)化的函數(shù)是復(fù)變量的實(shí)值函數(shù)。首先,H的每個元素(由ω和ν索引)可以獨(dú)立求解,因為傅立葉域中的所有操作都是按元素執(zhí)行的。?這涉及根據(jù)和重寫函數(shù)。然后,部分W.R.T. 設(shè)置為等于零,同時將視為一個獨(dú)立變量[13]。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
?通過求解H*,找到MOSSE過濾器的閉合表達(dá)式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
?完整的推導(dǎo)在附錄A中。等式5中的術(shù)語具有有趣的解釋。 分子是輸入和所需輸出之間的相關(guān)性,分母是輸入的能譜。
? ? ? ?從公式5中,我們可以很容易地證明UMACE是MOSSE的一個特例。 UMACE定義為H * = m *,其中m是包含平均中心裁剪訓(xùn)練圖像的FFT的矢量,D是包含訓(xùn)練圖像的平均能譜的對角矩陣[18]。 因為D是對角矩陣,所以乘以其逆基本上執(zhí)行逐元素劃分。 使用當(dāng)前表示法重寫時,UMACE采用以下形式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? 但是,UMACE要求目標(biāo)以為中心。 可以使用相關(guān)來執(zhí)行接收。 如果我們將定義為Kronecker delta(目標(biāo)中心的峰值為1,其他位置為零),則這將基本上重新定位目標(biāo)并計算UMACE濾波器。 這與傳統(tǒng)實(shí)現(xiàn)之間的區(qū)別在于,我們在這里進(jìn)行裁剪,然后轉(zhuǎn)換,傳統(tǒng)方法先轉(zhuǎn)換然后裁剪。
? ? ? ?為了表明MOSSE產(chǎn)生比ASEF更好的濾波器,進(jìn)行了一項實(shí)驗,該實(shí)驗改變了用于訓(xùn)練濾波器的圖像數(shù)量。 通過將隨機(jī)小仿射擾動應(yīng)用于視頻的第一幀的跟蹤窗口來初始化濾波器。 第二幀上的PSR用作過濾器質(zhì)量的度量。 圖3顯示MOSSE在少量圖像窗口上訓(xùn)練時產(chǎn)生更好的濾波器。 原因?qū)⒃谙乱还?jié)中討論。
?3.3?ASEF的正則化
?3.4 濾波器初始化和在線更新
? ? ? ?對第一個目標(biāo)窗口進(jìn)行八個仿射變換得到一組訓(xùn)練圖像,而則以目標(biāo)中心生成高斯矩陣。
? ? ? ?等式5描述了在初始化期間如何構(gòu)造濾波器。 使用隨機(jī)仿射變換構(gòu)造訓(xùn)練集,以在初始幀中生成跟蹤窗口的八個小擾動()。 還生成訓(xùn)練輸出(),其峰值對應(yīng)于目標(biāo)中心。
? ? ? ?在跟蹤期間,目標(biāo)通常可以通過改變其旋轉(zhuǎn),尺度,姿勢,通過在不同的光照條件下移動,或甚至通過經(jīng)歷非剛性變形來改變外觀。 因此,濾波器需要快速適應(yīng)以跟蹤對象。 運(yùn)行平均值用于此目的。 例如,從第 i 幀學(xué)習(xí)的ASEF過濾器計算如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?和MOSSE過濾器:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ?其中η是學(xué)習(xí)率。 這更加重視最近的幀,并使先前幀的效果隨時間呈指數(shù)衰減。 在實(shí)踐中,我們發(fā)現(xiàn)η= 0.125允許濾波器快速適應(yīng)外觀變化,同時仍保持魯棒。
?3.5?故障檢測和PSR
? ? ? ?如前所述,峰值強(qiáng)度的簡單測量稱為峰值旁瓣比(PSR)。 為了計算PSR,相關(guān)輸出g被分成作為最大值的峰值和旁瓣(其是除了峰值周圍的11×11窗口之外的其余像素)。然后將PSR定義為,其中g(shù)max是峰值,μsl和σsl是旁瓣的平均值和標(biāo)準(zhǔn)偏差。
? ? ? ?根據(jù)我們的經(jīng)驗,在正常跟蹤條件下,UMACE,ASEF和MOSSE的PSR通常介于20.0和60.0之間,這表明峰值非常強(qiáng)。 我們發(fā)現(xiàn)當(dāng)PSR下降到7.0左右時,表明目標(biāo)被遮擋或跟蹤失敗。 對于Naive實(shí)現(xiàn),PSR的范圍在3.0到10.0之間,對于預(yù)測跟蹤質(zhì)量沒有用。
總結(jié)
以上是生活随笔為你收集整理的【跟踪算法】MOSSE论文翻译的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java进阶之路——从初级程序员到架构师
- 下一篇: Leetcode 1559二维网格图中探