快速目标检测
快速目標(biāo)檢測(cè)
Minimum Delay Object Detection From Video
論文鏈接:
http://openaccess.thecvf.com/content_ICCV_2019/papers/Lao_Minimum_Delay_Object_Detection_From_Video_ICCV_2019_paper.pdf
摘要
我們考慮的問題是,當(dāng)物體進(jìn)入視野時(shí),通過在線方式從視頻中檢測(cè)出來。我們提供了第一個(gè)實(shí)時(shí)解決方案,保證在可接受的檢測(cè)精度水平下,將延遲最小化,即從目標(biāo)進(jìn)入視野到宣布的檢測(cè)時(shí)間之間的時(shí)間。該方法利用基于現(xiàn)代CNN的單幀目標(biāo)檢測(cè)器,在保證最小延遲的前提下,以用戶指定的速率聚合多幀檢測(cè)結(jié)果,提供可靠的檢測(cè)。為此,我們將問題描述為一個(gè)最快的檢測(cè)問題,這提供了上述保證。我們的算法就是從這個(gè)理論中推導(dǎo)出來的。我們?cè)趯?shí)驗(yàn)中表明,與運(yùn)行現(xiàn)代單幀檢測(cè)器相比,只要50 fps的開銷,我們就可以增加正確檢測(cè)的次數(shù),并降低總體計(jì)算成本。
- Introduction
單幀目標(biāo)檢測(cè):
我們的工作利用了從單一圖像中檢測(cè)物體的方法。這些方法將單個(gè)圖像作為輸入,并返回用于定位可能感興趣對(duì)象的邊界框;它們還返回與對(duì)象類對(duì)應(yīng)的邊界框的類概率。對(duì)于這個(gè)問題,早期的研究(例如[10,36])使用了滑動(dòng)窗口方法,同時(shí)使用了經(jīng)過傳統(tǒng)機(jī)器學(xué)習(xí)訓(xùn)練的分類。目前,基于CNN的方法是主要的方法。
這種探測(cè)器有兩大類:
1)兩級(jí)探測(cè)器(如[30,9]),為可能的目標(biāo)位置生成區(qū)域建議,然后通過CNN為每個(gè)提議的邊界框解決分類問題,以及
2)一級(jí)檢測(cè)器(如[23,29,21]),一步預(yù)測(cè)邊界框及其類信息。后者的計(jì)算成本通常較低,但可能不如前者精確[16]。正如我們將在本文中所展示的,當(dāng)視頻可用時(shí),所有這些檢測(cè)器都可以在計(jì)算時(shí)間方面得到顯著的改進(jìn),在此之前,可以在任何檢測(cè)精度級(jí)別上檢測(cè)對(duì)象。
基于視頻的數(shù)據(jù)關(guān)聯(lián):
有大量的文獻(xiàn),有時(shí)被稱為數(shù)據(jù)關(guān)聯(lián)(例如,[40,15,25]),它們涉及到我們?cè)诒疚闹锌紤]的問題的一個(gè)子任務(wù)。在數(shù)據(jù)關(guān)聯(lián)問題中,給定視頻中的一批幀,并在每一幀上輸出一個(gè)幀對(duì)象檢測(cè)器,目標(biāo)是關(guān)聯(lián)或鏈接與幀上相同對(duì)象對(duì)應(yīng)的邊界框,以生成軌跡。 然后,這可以用于許多應(yīng)用中,例如對(duì)象跟蹤和動(dòng)作識(shí)別。最近的作品,例如[12,8],利用深入的學(xué)習(xí)來確定鏈接,并以聯(lián)合的方式重新確定它們以及檢測(cè)。與本文獻(xiàn)類似的是,從Imagenet視頻挑戰(zhàn)(VID challenge)[31]激發(fā)的視頻中確定輸卵管,類似于軌跡。這些工作(例如,[17,18])利用CNNs預(yù)測(cè)幀上對(duì)象對(duì)應(yīng)的時(shí)空體積,然后利用LSTM(遞歸神經(jīng)網(wǎng)絡(luò))對(duì)對(duì)象進(jìn)行分類。
這些方法可以用于檢測(cè)視頻中的對(duì)象,以提供更為時(shí)間一致的結(jié)果,盡管遞歸和實(shí)時(shí)地調(diào)整它們并不簡(jiǎn)單。此外,這些方法沒有解決如何選擇小批量以保證可接受的檢測(cè)精度的問題。較大的批處理會(huì)導(dǎo)致更可靠的檢測(cè),但會(huì)帶來較大的延遲和計(jì)算成本。我們的工作明確地解決了延遲(計(jì)算成本)和檢測(cè)精度之間的權(quán)衡問題,并提供了一個(gè)有保證的最小延遲解決方案。
聯(lián)機(jī)對(duì)象跟蹤:
關(guān)于在線目標(biāo)跟蹤的文獻(xiàn)很多,我們不打算對(duì)此進(jìn)行綜述。在這篇文獻(xiàn)中,我們給出了一個(gè)對(duì)象的初始邊界框,其目標(biāo)是以在線方式在后續(xù)幀中確定它。例如,[5,4,24,11]使用相關(guān)濾波器進(jìn)行跟蹤,最近的工作(例如,[37,2])應(yīng)用深度學(xué)習(xí)。這些工作并沒有解決第一幀中明確假設(shè)的檢測(cè)問題;可以使用我們的方法來初始化此類跟蹤器。 視頻中的在線檢測(cè):
我們的工作與[20]有關(guān),它解決了使用運(yùn)動(dòng)提示從視頻中在線檢測(cè)運(yùn)動(dòng)對(duì)象的問題。在此基礎(chǔ)上,給出了具有給定精度約束的最小延遲解。然而,由于昂貴的光流調(diào)用和非遞歸算法,該方法遠(yuǎn)不能實(shí)現(xiàn)實(shí)時(shí)性。
在本文中,我們利用現(xiàn)有的基于CNN的單幀檢測(cè)器而不是運(yùn)動(dòng)檢測(cè)器,推導(dǎo)出一個(gè)遞推的解決方案來提供一個(gè)實(shí)時(shí)的解決方案。另一種檢查速度和準(zhǔn)確性之間權(quán)衡的方法是[6],它是由生物系統(tǒng)驅(qū)動(dòng)的。與我們的工作相關(guān)的在線方法是[32],它是一種確定動(dòng)作開始的方法。然而,這種方法并沒有解決延遲與準(zhǔn)確性之間的問題。
- Review of Quickest Detection Theory
快速檢測(cè)(QD)旨在以最小的延遲,即變化時(shí)間之后的最小時(shí)間,可靠地在線確定分布變化。其主要思想是,通過觀察更多的(噪聲)數(shù)據(jù),但增加延遲,可以獲得可靠性,該理論試圖提供解決這種權(quán)衡的算法。
在許多應(yīng)用中,像我們這樣,分布可能不是完全已知的,并且可能依賴于未知參數(shù)θ。在這種情況下,可以在每次t時(shí)通過ML或MAP估計(jì)來估計(jì)和重新估計(jì)參數(shù)θ,并且 仍然保證(3)中測(cè)試的最佳性。但是,這并不擴(kuò)展到遞歸實(shí)現(xiàn)。[33]和[19]在此場(chǎng)景中提供了不同的方法。
- Minimum Delay Object Detector
在這一部分中,我們利用最快檢測(cè)理論,提出了在視頻上工作的最小延遲目標(biāo)檢測(cè)器。我們首先介紹問題設(shè)置和符號(hào),然后繼續(xù)推導(dǎo)檢測(cè)算法。
3.1. Notation and Assumptions
我們將看到,在我們的算法中,即使在檢測(cè)器不輸出類概率的包圍盒集合中,也必須估計(jì)涉及Dt的概率。因此,我們?yōu)檫@個(gè)集合引入了術(shù)語,稱為未觀察的邊界框。
3.2. Formulating the Object Detector from QD
我們感興趣的是一旦觀察者看到感興趣的物體,即只在場(chǎng)景中檢測(cè)那些屬于預(yù)先指定類別l1,…,ln的物體。為此,我們?yōu)閳?chǎng)景中每個(gè)感興趣的對(duì)象設(shè)置了一個(gè)最快的檢測(cè)問題。每個(gè)物體的特征是從開始時(shí)間1到當(dāng)前時(shí)間t的軌跡b1,t,這表示物體向成像平面的投影。給定這個(gè)軌跡的估計(jì)值,我們依次估計(jì)和更新,我們希望通過將其作為假設(shè)檢驗(yàn)問題來確定感興趣的對(duì)象在時(shí)間t時(shí)是否在觀察者的視野中。
3.3. Estimating the Trajectory
在上一小節(jié)中,假設(shè)目標(biāo)的軌跡btc,t是已知的,但是它是未知的,必須根據(jù)數(shù)據(jù)進(jìn)行估計(jì)。我們現(xiàn)在通過一個(gè)優(yōu)化問題來討論它的估計(jì),并將解決方案透露給后面的部分。如前所述,該軌跡類似于QD問題中變化前后分布的未知參數(shù)θ。我們可以用多種方法估計(jì)該參數(shù),包括最大似然估計(jì)或已知先驗(yàn)概率的映射估計(jì)。這樣的估計(jì)保證了檢測(cè)規(guī)則的最優(yōu)性。由于我們希望包含一個(gè)平滑先驗(yàn),所以我們使用了一個(gè)映射估計(jì)器。
3.4. Computing Pre- and Post-Change Probabilities
Computing the Probability
這也意味著似然比積累得更慢,但對(duì)數(shù)據(jù)中的缺陷(如由于部分遮擋、照明等造成的故障)更為魯棒。因此,C控制對(duì)缺陷的魯棒性。
3.5. Summing Up: Detection Algorithm
我們的最小延遲目標(biāo)檢測(cè)算法分三步進(jìn)行描述,當(dāng)新數(shù)據(jù)Dt+1可用時(shí),迭代如下:1)通過地圖估計(jì)更新現(xiàn)有軌跡(11),2)生成新軌跡,3)評(píng)估似然比∧t+1檢驗(yàn)(9)。算法1描述了這個(gè)過程。我們將在下面的段落中更詳細(xì)地討論前兩個(gè)步驟。
- A Recursive Approximation for Speed
我們現(xiàn)在提出了一個(gè)軌跡計(jì)算的遞歸近似,它允許我們推導(dǎo)一個(gè)完全遞歸的算法,從而避免從單幀檢測(cè)器重新訪問以前的數(shù)據(jù)。
4.1. Recursive Trajectory/Likelihood Computation
為了在MAP估計(jì)問題中遞歸地估計(jì)軌跡btc,t,我們將軌跡(10)的先驗(yàn)分解如下: 軌跡更新和軌跡生成。
4.2. Further Simpli?cations and Final Algorithm
我們的最終簡(jiǎn)化算法是算法2(另請(qǐng)參見圖1),它總結(jié)了前一節(jié)中描述的遞歸近似,并涉及兩個(gè)額外的簡(jiǎn)化,如下所述。
類相關(guān)軌跡的縮減:
當(dāng)更新軌跡(23)時(shí),必須為每個(gè)i找到最佳b*t。但是,我們只更新滿足Wi,t>0的對(duì)象類的軌跡。這是因?yàn)槿绻鸚i,t=0,則似然比小于1,表示變化時(shí)間在未來,消除了在一類假設(shè)下考慮軌跡的需要。移除軌跡:如果Pi Wi,t=0,即Wi,t=0,則我們移除候選軌跡。在這種情況下,軌跡不包含任何關(guān)于對(duì)象的信息。
- Experiments
5.1. Datasets
為了測(cè)試我們的算法,我們需要一個(gè)視頻數(shù)據(jù)集,其中包含多個(gè)對(duì)象類的對(duì)象、在不同未知時(shí)間出現(xiàn)的對(duì)象,并且每個(gè)視頻中的所有幀都被注釋。據(jù)我們所知,符合所有這些標(biāo)準(zhǔn)的最佳數(shù)據(jù)集是KITTI數(shù)據(jù)集[13]。該數(shù)據(jù)集包含21個(gè)道路場(chǎng)景視頻和917個(gè)帶注釋的對(duì)象(軌跡),包括汽車、貨車、自行車和行人。數(shù)據(jù)集包含顯著的遮擋、照明變化和視點(diǎn)變化。這些類的每個(gè)可見對(duì)象都在每個(gè)幀中被注釋。每個(gè)對(duì)象都有一個(gè)ID,并在未知幀處變?yōu)榭梢姟N覀儗⒚總€(gè)物體的地面真值變化時(shí)間設(shè)置為它被注釋的第一幀。
5.2. Performance Metrics
檢測(cè)方法的輸出是帶有類聲明和時(shí)間的邊界框,表示方法首次檢測(cè)對(duì)象的時(shí)間。我們對(duì)經(jīng)驗(yàn)性數(shù)量做出以下定義。正確的檢測(cè)是一種檢測(cè),其邊界框與IoU over IoUlim的同一幀中的地面真值邊界框重疊,并且標(biāo)簽與地面真值匹配。注意一個(gè)對(duì)象可能是多次檢測(cè),但對(duì)于每個(gè)地面真值對(duì)象,只計(jì)算一次。假警報(bào)是一種聲明的檢測(cè),它不是正確的檢測(cè)。
我們使用以下性能指標(biāo)。假警報(bào)率是假警報(bào)數(shù)除以整個(gè)數(shù)據(jù)集的聲明檢測(cè)總數(shù)。檢測(cè)延遲是在檢測(cè)到目標(biāo)時(shí)減去更改時(shí)間之間的幀數(shù),即該目標(biāo)首次出現(xiàn)的地面真實(shí)幀。平均檢測(cè)延遲是數(shù)據(jù)集中注釋的所有對(duì)象的平均延遲。如果沒有檢測(cè)到地面真值對(duì)象,則該對(duì)象具有最大延遲,即它被注釋的最后一幀減去地面真值更改時(shí)間。
5.3. Methods Evaluated
單幀探測(cè)器:
我們用一級(jí)和兩級(jí)檢測(cè)器測(cè)試了我們的算法。我們選擇SSD[23]和Retinanet[21]作為單幀檢測(cè)器,選擇速度較快的RCNN[30]作為單幀檢測(cè)器。為了加快RCNN的速度,我們使用了作者在Pascal-VOC07/12上訓(xùn)練的原始實(shí)現(xiàn)作為基線方法。骨干網(wǎng)是ZF[39]和VGG-16[34]以及最近的Resnet50[14]。對(duì)于Resnet50更快的RCNN和SSD網(wǎng)絡(luò),我們使用mmdetection[7]工具箱中的實(shí)現(xiàn)。
比較:
我們使用單幀檢測(cè)器的直接檢測(cè)結(jié)果與我們的方法進(jìn)行比較。通過對(duì)檢測(cè)響應(yīng)進(jìn)行閾值化,實(shí)現(xiàn)了不同的虛警率水平。由于單幀檢測(cè)器不處理幀之間的時(shí)間連接,因此如果重疊超過IoUlim,相鄰幀中的邊界框?qū)⒈环纸M到相同的軌跡中。對(duì)于每個(gè)目標(biāo),檢測(cè)延遲是基于第一次正確檢測(cè)計(jì)算的。
對(duì)于我們提出的方法,對(duì)于不從RPN輸出aμ(b)的單級(jí)檢測(cè)器,我們手動(dòng)為所有觀察到的邊界框設(shè)置μ(b)=1。在所有的實(shí)驗(yàn)中,我們發(fā)現(xiàn)IoUlim=0.5。我們將對(duì)象類的先驗(yàn)概率p(l=li)設(shè)為一致的。對(duì)于每個(gè)單幀檢測(cè)器,常數(shù)C是根據(jù)經(jīng)驗(yàn)設(shè)置的。
5.4. Results
誤報(bào)警率與延遲:
圖2通過改變檢測(cè)閾值繪制假報(bào)警率與延遲曲線。在所有虛警率和每個(gè)單幀檢測(cè)器下,該算法具有較小的延時(shí)。有趣的是,單幀SSD300和SSD512具有幾乎相同的性能,然而,SSD512的最小延遲版本優(yōu)于最小延遲SSD300。這表明,與SSD300相比,SSD512在幀上具有更一致的檢測(cè)結(jié)果,從而允許更快地累積可能性。
檢測(cè)精度與計(jì)算成本:
圖3顯示了以秒為單位檢測(cè)對(duì)象的平均計(jì)算成本。在實(shí)時(shí)在線應(yīng)用中,系統(tǒng)的計(jì)算資源總是有限的。結(jié)果表明,在任何精度約束條件下,使用多幀檢測(cè)器都可以獲得較低的總體計(jì)算成本,且可以使用速度更快、噪聲更大的單幀檢測(cè)器。 性能增益分析:
圖4顯示了對(duì)性能提升的更詳細(xì)的分析。在所有虛警水平下,最小延時(shí)檢測(cè)器比基線檢測(cè)器輸出的正確檢測(cè)結(jié)果更多,且這些正確檢測(cè)的發(fā)生具有更低的延時(shí)。 遞歸與非遞歸檢測(cè):
我們比較遞歸近似和非遞歸算法。我們使用SSD300和SSD512進(jìn)行說明。圖5顯示了錯(cuò)誤報(bào)警率與延遲和計(jì)算成本曲線。我們發(fā)現(xiàn)遞歸型檢測(cè)器的結(jié)果與非遞歸型檢測(cè)器的結(jié)果相當(dāng),同時(shí)節(jié)省了相當(dāng)大的計(jì)算成本。在SSD512中,遞歸版本的性能比非遞歸版本稍好,但并不顯著(即一幀)。
計(jì)算成本:
在KITTI上,我們的遞歸算法通常以40-100 fps的速度運(yùn)行,并根據(jù)場(chǎng)景中可見對(duì)象的數(shù)量使用Matlab實(shí)現(xiàn)(不包括單個(gè)圖像檢測(cè)過程的成本)。像SSD-300這樣的單幀檢測(cè)器以59 fps的速度運(yùn)行,因此我們的整體算法以24-38 fps的速度運(yùn)行。
Conclusion
根據(jù)QD的理論結(jié)果,我們的基于視頻的在線目標(biāo)檢測(cè)器在虛警約束下達(dá)到了保證的最小延遲。此外,我們的新遞推公式比量子點(diǎn)最佳檢測(cè)器節(jié)省了大量的計(jì)算成本,而且?guī)缀鯖]有性能損失。實(shí)驗(yàn)結(jié)果表明,對(duì)于任意級(jí)別的虛警率,我們的遞推公式比單幀檢測(cè)器具有更小的延遲和計(jì)算開銷。我們的方法使用單幀檢測(cè)器,并使用簡(jiǎn)單的附加邏輯(運(yùn)行速度約為50 fps),當(dāng)與同時(shí)也是實(shí)時(shí)的單幀檢測(cè)器相結(jié)合時(shí),會(huì)產(chǎn)生實(shí)時(shí)算法。因此,這有可能用于實(shí)時(shí)閉環(huán)應(yīng)用。此外,我們的算法允許單圖像深度學(xué)習(xí)檢測(cè)器應(yīng)用于視頻,而無需任何額外的訓(xùn)練,并且保證在任何精度級(jí)別上的最小延遲。
總結(jié)
- 上一篇: 自动驾驶抱团组合
- 下一篇: 全景分割:CVPR2019论文解析