當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

快速目标检测

發(fā)布時(shí)間：2023/11/28 生活经验 31 豆豆

生活随笔收集整理的這篇文章主要介紹了快速目标检测小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

快速目標(biāo)檢測(cè)

Minimum Delay Object Detection From Video

論文鏈接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Lao_Minimum_Delay_Object_Detection_From_Video_ICCV_2019_paper.pdf

摘要

我們考慮的問題是，當(dāng)物體進(jìn)入視野時(shí)，通過在線方式從視頻中檢測(cè)出來。我們提供了第一個(gè)實(shí)時(shí)解決方案，保證在可接受的檢測(cè)精度水平下，將延遲最小化，即從目標(biāo)進(jìn)入視野到宣布的檢測(cè)時(shí)間之間的時(shí)間。該方法利用基于現(xiàn)代CNN的單幀目標(biāo)檢測(cè)器，在保證最小延遲的前提下，以用戶指定的速率聚合多幀檢測(cè)結(jié)果，提供可靠的檢測(cè)。為此，我們將問題描述為一個(gè)最快的檢測(cè)問題，這提供了上述保證。我們的算法就是從這個(gè)理論中推導(dǎo)出來的。我們?cè)趯?shí)驗(yàn)中表明，與運(yùn)行現(xiàn)代單幀檢測(cè)器相比，只要50 fps的開銷，我們就可以增加正確檢測(cè)的次數(shù)，并降低總體計(jì)算成本。

Introduction

單幀目標(biāo)檢測(cè)：

我們的工作利用了從單一圖像中檢測(cè)物體的方法。這些方法將單個(gè)圖像作為輸入，并返回用于定位可能感興趣對(duì)象的邊界框；它們還返回與對(duì)象類對(duì)應(yīng)的邊界框的類概率。對(duì)于這個(gè)問題，早期的研究（例如[10，36]）使用了滑動(dòng)窗口方法，同時(shí)使用了經(jīng)過傳統(tǒng)機(jī)器學(xué)習(xí)訓(xùn)練的分類。目前，基于CNN的方法是主要的方法。

這種探測(cè)器有兩大類：

1）兩級(jí)探測(cè)器（如[30,9]），為可能的目標(biāo)位置生成區(qū)域建議，然后通過CNN為每個(gè)提議的邊界框解決分類問題，以及

2）一級(jí)檢測(cè)器（如[23,29,21]），一步預(yù)測(cè)邊界框及其類信息。后者的計(jì)算成本通常較低，但可能不如前者精確[16]。正如我們將在本文中所展示的，當(dāng)視頻可用時(shí)，所有這些檢測(cè)器都可以在計(jì)算時(shí)間方面得到顯著的改進(jìn)，在此之前，可以在任何檢測(cè)精度級(jí)別上檢測(cè)對(duì)象。

基于視頻的數(shù)據(jù)關(guān)聯(lián)：

有大量的文獻(xiàn)，有時(shí)被稱為數(shù)據(jù)關(guān)聯(lián)（例如，[40，15，25]），它們涉及到我們?cè)诒疚闹锌紤]的問題的一個(gè)子任務(wù)。在數(shù)據(jù)關(guān)聯(lián)問題中，給定視頻中的一批幀，并在每一幀上輸出一個(gè)幀對(duì)象檢測(cè)器，目標(biāo)是關(guān)聯(lián)或鏈接與幀上相同對(duì)象對(duì)應(yīng)的邊界框，以生成軌跡。然后，這可以用于許多應(yīng)用中，例如對(duì)象跟蹤和動(dòng)作識(shí)別。最近的作品，例如[12，8]，利用深入的學(xué)習(xí)來確定鏈接，并以聯(lián)合的方式重新確定它們以及檢測(cè)。與本文獻(xiàn)類似的是，從Imagenet視頻挑戰(zhàn)（VID challenge）[31]激發(fā)的視頻中確定輸卵管，類似于軌跡。這些工作（例如，[17，18]）利用CNNs預(yù)測(cè)幀上對(duì)象對(duì)應(yīng)的時(shí)空體積，然后利用LSTM（遞歸神經(jīng)網(wǎng)絡(luò)）對(duì)對(duì)象進(jìn)行分類。

這些方法可以用于檢測(cè)視頻中的對(duì)象，以提供更為時(shí)間一致的結(jié)果，盡管遞歸和實(shí)時(shí)地調(diào)整它們并不簡(jiǎn)單。此外，這些方法沒有解決如何選擇小批量以保證可接受的檢測(cè)精度的問題。較大的批處理會(huì)導(dǎo)致更可靠的檢測(cè)，但會(huì)帶來較大的延遲和計(jì)算成本。我們的工作明確地解決了延遲（計(jì)算成本）和檢測(cè)精度之間的權(quán)衡問題，并提供了一個(gè)有保證的最小延遲解決方案。

聯(lián)機(jī)對(duì)象跟蹤：

關(guān)于在線目標(biāo)跟蹤的文獻(xiàn)很多，我們不打算對(duì)此進(jìn)行綜述。在這篇文獻(xiàn)中，我們給出了一個(gè)對(duì)象的初始邊界框，其目標(biāo)是以在線方式在后續(xù)幀中確定它。例如，[5，4，24，11]使用相關(guān)濾波器進(jìn)行跟蹤，最近的工作（例如，[37，2]）應(yīng)用深度學(xué)習(xí)。這些工作并沒有解決第一幀中明確假設(shè)的檢測(cè)問題；可以使用我們的方法來初始化此類跟蹤器。視頻中的在線檢測(cè)：

我們的工作與[20]有關(guān)，它解決了使用運(yùn)動(dòng)提示從視頻中在線檢測(cè)運(yùn)動(dòng)對(duì)象的問題。在此基礎(chǔ)上，給出了具有給定精度約束的最小延遲解。然而，由于昂貴的光流調(diào)用和非遞歸算法，該方法遠(yuǎn)不能實(shí)現(xiàn)實(shí)時(shí)性。

在本文中，我們利用現(xiàn)有的基于CNN的單幀檢測(cè)器而不是運(yùn)動(dòng)檢測(cè)器，推導(dǎo)出一個(gè)遞推的解決方案來提供一個(gè)實(shí)時(shí)的解決方案。另一種檢查速度和準(zhǔn)確性之間權(quán)衡的方法是[6]，它是由生物系統(tǒng)驅(qū)動(dòng)的。與我們的工作相關(guān)的在線方法是[32]，它是一種確定動(dòng)作開始的方法。然而，這種方法并沒有解決延遲與準(zhǔn)確性之間的問題。

Review of Quickest Detection Theory

快速檢測(cè)（QD）旨在以最小的延遲，即變化時(shí)間之后的最小時(shí)間，可靠地在線確定分布變化。其主要思想是，通過觀察更多的（噪聲）數(shù)據(jù)，但增加延遲，可以獲得可靠性，該理論試圖提供解決這種權(quán)衡的算法。

在許多應(yīng)用中，像我們這樣，分布可能不是完全已知的，并且可能依賴于未知參數(shù)θ。在這種情況下，可以在每次t時(shí)通過ML或MAP估計(jì)來估計(jì)和重新估計(jì)參數(shù)θ，并且仍然保證（3）中測(cè)試的最佳性。但是，這并不擴(kuò)展到遞歸實(shí)現(xiàn)。[33]和[19]在此場(chǎng)景中提供了不同的方法。

Minimum Delay Object Detector

在這一部分中，我們利用最快檢測(cè)理論，提出了在視頻上工作的最小延遲目標(biāo)檢測(cè)器。我們首先介紹問題設(shè)置和符號(hào)，然后繼續(xù)推導(dǎo)檢測(cè)算法。

3.1. Notation and Assumptions

我們將看到，在我們的算法中，即使在檢測(cè)器不輸出類概率的包圍盒集合中，也必須估計(jì)涉及Dt的概率。因此，我們?yōu)檫@個(gè)集合引入了術(shù)語，稱為未觀察的邊界框。

3.2. Formulating the Object Detector from QD

我們感興趣的是一旦觀察者看到感興趣的物體，即只在場(chǎng)景中檢測(cè)那些屬于預(yù)先指定類別l1，…，ln的物體。為此，我們?yōu)閳?chǎng)景中每個(gè)感興趣的對(duì)象設(shè)置了一個(gè)最快的檢測(cè)問題。每個(gè)物體的特征是從開始時(shí)間1到當(dāng)前時(shí)間t的軌跡b1，t，這表示物體向成像平面的投影。給定這個(gè)軌跡的估計(jì)值，我們依次估計(jì)和更新，我們希望通過將其作為假設(shè)檢驗(yàn)問題來確定感興趣的對(duì)象在時(shí)間t時(shí)是否在觀察者的視野中。

3.3. Estimating the Trajectory

在上一小節(jié)中，假設(shè)目標(biāo)的軌跡btc，t是已知的，但是它是未知的，必須根據(jù)數(shù)據(jù)進(jìn)行估計(jì)。我們現(xiàn)在通過一個(gè)優(yōu)化問題來討論它的估計(jì)，并將解決方案透露給后面的部分。如前所述，該軌跡類似于QD問題中變化前后分布的未知參數(shù)θ。我們可以用多種方法估計(jì)該參數(shù)，包括最大似然估計(jì)或已知先驗(yàn)概率的映射估計(jì)。這樣的估計(jì)保證了檢測(cè)規(guī)則的最優(yōu)性。由于我們希望包含一個(gè)平滑先驗(yàn)，所以我們使用了一個(gè)映射估計(jì)器。

3.4. Computing Pre- and Post-Change Probabilities

Computing the Probability

這也意味著似然比積累得更慢，但對(duì)數(shù)據(jù)中的缺陷（如由于部分遮擋、照明等造成的故障）更為魯棒。因此，C控制對(duì)缺陷的魯棒性。

3.5. Summing Up: Detection Algorithm

我們的最小延遲目標(biāo)檢測(cè)算法分三步進(jìn)行描述，當(dāng)新數(shù)據(jù)Dt+1可用時(shí)，迭代如下：1）通過地圖估計(jì)更新現(xiàn)有軌跡（11），2）生成新軌跡，3）評(píng)估似然比∧t+1檢驗(yàn)（9）。算法1描述了這個(gè)過程。我們將在下面的段落中更詳細(xì)地討論前兩個(gè)步驟。

A Recursive Approximation for Speed

我們現(xiàn)在提出了一個(gè)軌跡計(jì)算的遞歸近似，它允許我們推導(dǎo)一個(gè)完全遞歸的算法，從而避免從單幀檢測(cè)器重新訪問以前的數(shù)據(jù)。

4.1. Recursive Trajectory/Likelihood Computation

為了在MAP估計(jì)問題中遞歸地估計(jì)軌跡btc，t，我們將軌跡（10）的先驗(yàn)分解如下：軌跡更新和軌跡生成。

4.2. Further Simpli?cations and Final Algorithm

我們的最終簡(jiǎn)化算法是算法2（另請(qǐng)參見圖1），它總結(jié)了前一節(jié)中描述的遞歸近似，并涉及兩個(gè)額外的簡(jiǎn)化，如下所述。

類相關(guān)軌跡的縮減：

當(dāng)更新軌跡（23）時(shí)，必須為每個(gè)i找到最佳b*t。但是，我們只更新滿足Wi，t>0的對(duì)象類的軌跡。這是因?yàn)槿绻鸚i，t=0，則似然比小于1，表示變化時(shí)間在未來，消除了在一類假設(shè)下考慮軌跡的需要。移除軌跡：如果Pi Wi，t=0，即Wi，t=0，則我們移除候選軌跡。在這種情況下，軌跡不包含任何關(guān)于對(duì)象的信息。

Experiments

5.1. Datasets

為了測(cè)試我們的算法，我們需要一個(gè)視頻數(shù)據(jù)集，其中包含多個(gè)對(duì)象類的對(duì)象、在不同未知時(shí)間出現(xiàn)的對(duì)象，并且每個(gè)視頻中的所有幀都被注釋。據(jù)我們所知，符合所有這些標(biāo)準(zhǔn)的最佳數(shù)據(jù)集是KITTI數(shù)據(jù)集[13]。該數(shù)據(jù)集包含21個(gè)道路場(chǎng)景視頻和917個(gè)帶注釋的對(duì)象（軌跡），包括汽車、貨車、自行車和行人。數(shù)據(jù)集包含顯著的遮擋、照明變化和視點(diǎn)變化。這些類的每個(gè)可見對(duì)象都在每個(gè)幀中被注釋。每個(gè)對(duì)象都有一個(gè)ID，并在未知幀處變?yōu)榭梢姟Ｎ覀儗⒚總€(gè)物體的地面真值變化時(shí)間設(shè)置為它被注釋的第一幀。

5.2. Performance Metrics

檢測(cè)方法的輸出是帶有類聲明和時(shí)間的邊界框，表示方法首次檢測(cè)對(duì)象的時(shí)間。我們對(duì)經(jīng)驗(yàn)性數(shù)量做出以下定義。正確的檢測(cè)是一種檢測(cè)，其邊界框與IoU over IoUlim的同一幀中的地面真值邊界框重疊，并且標(biāo)簽與地面真值匹配。注意一個(gè)對(duì)象可能是多次檢測(cè)，但對(duì)于每個(gè)地面真值對(duì)象，只計(jì)算一次。假警報(bào)是一種聲明的檢測(cè)，它不是正確的檢測(cè)。

我們使用以下性能指標(biāo)。假警報(bào)率是假警報(bào)數(shù)除以整個(gè)數(shù)據(jù)集的聲明檢測(cè)總數(shù)。檢測(cè)延遲是在檢測(cè)到目標(biāo)時(shí)減去更改時(shí)間之間的幀數(shù)，即該目標(biāo)首次出現(xiàn)的地面真實(shí)幀。平均檢測(cè)延遲是數(shù)據(jù)集中注釋的所有對(duì)象的平均延遲。如果沒有檢測(cè)到地面真值對(duì)象，則該對(duì)象具有最大延遲，即它被注釋的最后一幀減去地面真值更改時(shí)間。

5.3. Methods Evaluated

單幀探測(cè)器：

我們用一級(jí)和兩級(jí)檢測(cè)器測(cè)試了我們的算法。我們選擇SSD[23]和Retinanet[21]作為單幀檢測(cè)器，選擇速度較快的RCNN[30]作為單幀檢測(cè)器。為了加快RCNN的速度，我們使用了作者在Pascal-VOC07/12上訓(xùn)練的原始實(shí)現(xiàn)作為基線方法。骨干網(wǎng)是ZF[39]和VGG-16[34]以及最近的Resnet50[14]。對(duì)于Resnet50更快的RCNN和SSD網(wǎng)絡(luò)，我們使用mmdetection[7]工具箱中的實(shí)現(xiàn)。

比較：

我們使用單幀檢測(cè)器的直接檢測(cè)結(jié)果與我們的方法進(jìn)行比較。通過對(duì)檢測(cè)響應(yīng)進(jìn)行閾值化，實(shí)現(xiàn)了不同的虛警率水平。由于單幀檢測(cè)器不處理幀之間的時(shí)間連接，因此如果重疊超過IoUlim，相鄰幀中的邊界框?qū)⒈环纸M到相同的軌跡中。對(duì)于每個(gè)目標(biāo)，檢測(cè)延遲是基于第一次正確檢測(cè)計(jì)算的。

對(duì)于我們提出的方法，對(duì)于不從RPN輸出aμ（b）的單級(jí)檢測(cè)器，我們手動(dòng)為所有觀察到的邊界框設(shè)置μ（b）=1。在所有的實(shí)驗(yàn)中，我們發(fā)現(xiàn)IoUlim=0.5。我們將對(duì)象類的先驗(yàn)概率p（l=li）設(shè)為一致的。對(duì)于每個(gè)單幀檢測(cè)器，常數(shù)C是根據(jù)經(jīng)驗(yàn)設(shè)置的。

5.4. Results

誤報(bào)警率與延遲：

圖2通過改變檢測(cè)閾值繪制假報(bào)警率與延遲曲線。在所有虛警率和每個(gè)單幀檢測(cè)器下，該算法具有較小的延時(shí)。有趣的是，單幀SSD300和SSD512具有幾乎相同的性能，然而，SSD512的最小延遲版本優(yōu)于最小延遲SSD300。這表明，與SSD300相比，SSD512在幀上具有更一致的檢測(cè)結(jié)果，從而允許更快地累積可能性。

檢測(cè)精度與計(jì)算成本：

圖3顯示了以秒為單位檢測(cè)對(duì)象的平均計(jì)算成本。在實(shí)時(shí)在線應(yīng)用中，系統(tǒng)的計(jì)算資源總是有限的。結(jié)果表明，在任何精度約束條件下，使用多幀檢測(cè)器都可以獲得較低的總體計(jì)算成本，且可以使用速度更快、噪聲更大的單幀檢測(cè)器。性能增益分析：

圖4顯示了對(duì)性能提升的更詳細(xì)的分析。在所有虛警水平下，最小延時(shí)檢測(cè)器比基線檢測(cè)器輸出的正確檢測(cè)結(jié)果更多，且這些正確檢測(cè)的發(fā)生具有更低的延時(shí)。遞歸與非遞歸檢測(cè)：

我們比較遞歸近似和非遞歸算法。我們使用SSD300和SSD512進(jìn)行說明。圖5顯示了錯(cuò)誤報(bào)警率與延遲和計(jì)算成本曲線。我們發(fā)現(xiàn)遞歸型檢測(cè)器的結(jié)果與非遞歸型檢測(cè)器的結(jié)果相當(dāng)，同時(shí)節(jié)省了相當(dāng)大的計(jì)算成本。在SSD512中，遞歸版本的性能比非遞歸版本稍好，但并不顯著（即一幀）。

計(jì)算成本：

在KITTI上，我們的遞歸算法通常以40-100 fps的速度運(yùn)行，并根據(jù)場(chǎng)景中可見對(duì)象的數(shù)量使用Matlab實(shí)現(xiàn)（不包括單個(gè)圖像檢測(cè)過程的成本）。像SSD-300這樣的單幀檢測(cè)器以59 fps的速度運(yùn)行，因此我們的整體算法以24-38 fps的速度運(yùn)行。

Conclusion

根據(jù)QD的理論結(jié)果，我們的基于視頻的在線目標(biāo)檢測(cè)器在虛警約束下達(dá)到了保證的最小延遲。此外，我們的新遞推公式比量子點(diǎn)最佳檢測(cè)器節(jié)省了大量的計(jì)算成本，而且?guī)缀鯖]有性能損失。實(shí)驗(yàn)結(jié)果表明，對(duì)于任意級(jí)別的虛警率，我們的遞推公式比單幀檢測(cè)器具有更小的延遲和計(jì)算開銷。我們的方法使用單幀檢測(cè)器，并使用簡(jiǎn)單的附加邏輯（運(yùn)行速度約為50 fps），當(dāng)與同時(shí)也是實(shí)時(shí)的單幀檢測(cè)器相結(jié)合時(shí)，會(huì)產(chǎn)生實(shí)時(shí)算法。因此，這有可能用于實(shí)時(shí)閉環(huán)應(yīng)用。此外，我們的算法允許單圖像深度學(xué)習(xí)檢測(cè)器應(yīng)用于視頻，而無需任何額外的訓(xùn)練，并且保證在任何精度級(jí)別上的最小延遲。

總結(jié)

以上是生活随笔為你收集整理的快速目标检测的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：自动驾驶抱团组合
下一篇：全景分割：CVPR2019论文解析