基于深度学习的多目标跟踪算法——ReID与MOT的联系
?PaperWeekly 原創(chuàng) ·?作者|黃飄
學(xué)校|華中科技大學(xué)碩士
研究方向|多目標(biāo)跟蹤
最近基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法越來越多,有用于特征提取的,有改進(jìn)單目標(biāo)跟蹤器的,也有提升數(shù)據(jù)關(guān)聯(lián)的。如果真的要總結(jié)的話那就太多了,所以我準(zhǔn)備分類別進(jìn)行介紹,這次是這一系列最后一篇。我主要介紹基于行人重識別(ReID)算法的方法,相關(guān) MOT 的基礎(chǔ)知識可以去我的專欄查看。
ReID與MOT的聯(lián)系
在 MOT 任務(wù)中,一般常用的特征模型有運(yùn)動模型和表觀模型,其中表觀模型以行人重識別(ReID)類算法為主流。Re-ID 任務(wù)主要解決的是跨攝像頭場景下行人的識別與檢索,其中存在給定了身份的圖片序列 query,需要為不同攝像頭場景下的多組圖片 gallery 的行人身份進(jìn)行判定。
隨著現(xiàn)在視覺任務(wù)需求的增加,車輛重識別任務(wù)也隨之誕生,包括與之對應(yīng)的數(shù)據(jù)集。對于多目標(biāo)跟蹤任務(wù)而言,由于目前只有行人和車輛的標(biāo)注,所以基本只針對這兩類目標(biāo),不過最近出來一個 833 類的多目標(biāo)跟蹤數(shù)據(jù)集 TAO [8] 。
以行人為例,多目標(biāo)跟蹤相對于 Re-ID 多出了空間位置信息和時間聯(lián)系,其更多的是針對的同一攝像頭場景,還包括可能出現(xiàn)的相機(jī)運(yùn)動。
除此之外,對于 Re-ID 任務(wù)而言,其不需要考慮新身份的誕生和舊身份的消失,所有目標(biāo)在 query 中一般都有對應(yīng)的身份,而 MOT 任務(wù)中需要判定是否有可能不存在現(xiàn)有跟蹤軌跡中,是否需要與已經(jīng)丟失跟蹤軌跡身份進(jìn)行匹配等等,二者的異同總結(jié)如下:
指標(biāo) | Re-ID | MOT |
研究對象 | 行人/車輛 | 行人/車輛 |
場景 | 跨攝像頭 | 單一攝像頭 |
先驗信息 | 表觀信息 | 時空運(yùn)動信息、 表觀信息 |
研究任務(wù) | 行人匹配 | 數(shù)據(jù)關(guān)聯(lián) |
目標(biāo)序列是否 嚴(yán)格對稱 | 是 | 否 |
其中,目標(biāo)序列嚴(yán)格對稱的意思是指的待比對的兩個序列中,目標(biāo)的 id 是否一致,如果不一致,則表明兩個序列各自可能存在新的目標(biāo)。
借鑒這個問題里面的回答行人重識別(re-ID)與跟蹤(tracking)有什么區(qū)別 [9]。
我們可以看到 ReID 是一個相對底層的任務(wù),隨著檢測、時序信息的加入,就可以拓展至行人檢索和視頻 ReID 任務(wù),再引入 MOT 則可以得到更為高層的任務(wù) MTMC(跨攝像頭多目標(biāo)跟蹤)。
實(shí)際上 ReID 只是個任務(wù)名,我們不要將其具象化成了某一類數(shù)據(jù)集或者某一類深度框架,我們甚至可以直接用傳統(tǒng)的圖像特征來應(yīng)用于這個任務(wù),關(guān)鍵要看這個任務(wù)的定義。
MOT/MTMC中的ReID框架設(shè)計
2.1 DeepCC
論文標(biāo)題: Features for multi-target multi-camera tracking and re-identification
論文來源:CVPR 2018
論文鏈接:https://arxiv.org/abs/1803.10859
代碼鏈接:https://github.com/SamvitJ/Duke-DeepCC
考慮到 MOT 和 MTMC 在表征模型方面的相似性,我們一并介紹。DeepCC 是 MTMC 領(lǐng)域的一篇經(jīng)典論文,我們可以先看看 MTMC 的基礎(chǔ)流程:
給定多個攝像頭的視頻流,由檢測器得到所有的觀測行人信息,通過提取每個人的特征對每個行人進(jìn)行關(guān)聯(lián)匹配/聚類,最后通過后處理進(jìn)行完善。這篇論文主要做的是?ReID 任務(wù)在 MTMC 任務(wù)上的適配,其關(guān)注點(diǎn)不在網(wǎng)絡(luò)的設(shè)計上,而是從訓(xùn)練策略上著手。
首先我們不妨思考下如果從 MTMC / MOT 任務(wù)中抽象出 ReID 任務(wù),無非就是數(shù)據(jù)集的提取(即相同身份行人序列的抽取),網(wǎng)絡(luò)框架的設(shè)計(特征模型),還有訓(xùn)練策略(損失函數(shù)的設(shè)計等),而且這里面抽取出來的行人序列在多樣性等方面可能都與 ReID 數(shù)據(jù)集有著差異。當(dāng)然,不同視頻數(shù)據(jù)集之間的域自適應(yīng)性問題是這幾個任務(wù)的共性問題。
由于我們這次主要關(guān)注的是表觀特征層面,所以對于其他的部分就暫時忽略。DeepCC 設(shè)計了一種自適應(yīng)的三元組損失函數(shù):
我們知道的是,在 batch-hard triplet loss,選取的是相同身份中距離最遠(yuǎn)的樣本組為 positive,不同身份中距離最近的為 negative 組。
作者并沒有使用 batch-hard 的方式,通過自適應(yīng)權(quán)重的設(shè)計我們可以看到,作者通過 softmax 的方式,使得相同身份樣本組中距離越大的權(quán)重越大,不同身份樣本組中距離越小的權(quán)重越大,相當(dāng)于給了 easy sampels 更多的注意力。
為了防止數(shù)據(jù)量大了之后,很多 batch 不存在 hard samples,作者創(chuàng)建了兩個樣本池:
根據(jù)給定的 query,設(shè)計一組難例樣本池和一組隨機(jī)身份樣本池,在訓(xùn)練的時候就可保證難例樣本對的正常獲取。
很可惜,由于國外對于個人隱私的保護(hù),MTMC 相關(guān)的數(shù)據(jù)集都被禁用了。
2.2 NOTA
論文標(biāo)題:Aggregate Tracklet Appearance Features for Multi-Object Tracking
論文來源:SPL 2019
論文鏈接:https://www.sci-hub.shop/10.1109/lsp.2019.2940922
如果說 DeepCC 關(guān)注的是 ReID 任務(wù)在 MTMC 任務(wù)中的訓(xùn)練策略設(shè)計,那 NOTA 就是針對 ReID 任務(wù)在 MOT 任務(wù)中的網(wǎng)絡(luò)框架設(shè)計。熟悉 MOT 任務(wù)的人應(yīng)該知道,由于不同質(zhì)量觀測信息和遮擋等問題的影響,我們直接根據(jù)給定行人框提取的行人特征并不一定可靠,例如下圖中,一個行人框中可能存在多個行人和大量背景信息。
因此這篇文章設(shè)計了一種時空注意力網(wǎng)絡(luò),其中空間注意力模型叫做 Position-Sensitive Mask,類似于檢測框架中的 R-FCN 算法,通過將空間分為 3x3 的網(wǎng)格,每個網(wǎng)格都預(yù)測前景/背景的概率,整體打分取平均得到這張圖屬于前景的概率。
緊接著,利用前景背景預(yù)測分支的 mask 對預(yù)測的注意力 mask 進(jìn)行 element-wise 乘法,相當(dāng)于一次過濾,從而得到空間注意力,再對表觀特征進(jìn)行一次 element-wise 乘法。那么時間注意力來自哪里呢?
作者所針對的是測試階段的跟蹤序列,以前景背景 mask 作為時間注意力,然后對跟蹤序列每個 patch 的特征和前景背景 mask 進(jìn)行加權(quán)融合得到軌跡特征,用于軌跡相似度計算:
而關(guān)于特征模型,這篇論文做了很多實(shí)驗,挺有價值的:
2.3 LAAM
論文標(biāo)題:Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking
論文來源:CVPR 2019 WorkShop
論文鏈接:https://arxiv.org/abs/1911.12037
代碼鏈接:https://github.com/hou-yz/DeepCC-local
LAAM 這篇關(guān)注的主要是 ReID 任務(wù)在 MTMC 任務(wù)中的數(shù)據(jù)集構(gòu)建和訓(xùn)練策略,這里 [10] 有作者的詳細(xì)講解,我也相應(yīng)地談?wù)?。我們知道無論是 Tracktor++ [4] 還是 DeepSort [5],二者都是單獨(dú)訓(xùn)練的 ReID 特征模型,然后直接應(yīng)用于 MOT 任務(wù)。LAAM 一文就是提出了一個 re-ID 特征是否適合直接用于跟蹤任務(wù)的問題。
作者提到:
由于目標(biāo)(行人/車輛)軌跡(trajectory)的連續(xù)性,在一般情況下,跟蹤系統(tǒng)只需要匹配一個局部鄰域中的目標(biāo),而不需要全局匹配。
局部鄰域:對于單相機(jī)跟蹤,指代同相機(jī)的連續(xù)幀內(nèi)的樣本;對于跨相機(jī)跟蹤,指代相鄰(距離較小)的幾個相機(jī)(如下圖小框中的一組相機(jī))內(nèi)的樣本。
全局:指代全部相機(jī)中的樣本。
跟蹤系統(tǒng)中的匹配一般被限制在局部鄰域內(nèi),而應(yīng)用于相似度估計的重識別特征,則是從全局學(xué)到的,相似度估計的結(jié)果直接決定數(shù)據(jù)匹配的性能。在這個關(guān)鍵部分,出現(xiàn)了局部 vs 全局的失配,則會對系統(tǒng)整體性能有很大影響。
的確,在 MTMC 任務(wù)中,如果處理的是較短時間內(nèi)的連續(xù)視頻幀,目標(biāo)更傾向于出現(xiàn)在較小的局部空間內(nèi),并且特征差異性并沒有很大。
對此作者就提出對相機(jī)內(nèi)和相機(jī)之間的樣本分開訓(xùn)練,即同相機(jī)內(nèi)的正負(fù)樣本來自于同一相機(jī),不同相機(jī)內(nèi)的正負(fù)樣本來自于不同相機(jī)。
雖然方法很簡單,但是也具有一定啟發(fā)意義:
2.4 STRN
論文標(biāo)題:Spatial-temporal relation networks for multi-object tracking
論文來源:ICCV 2019
論文鏈接:https://arxiv.org/abs/1904.11489
在 MOT 任務(wù)中,除了表觀特征,還存在運(yùn)動特征,除此之外,跟蹤序列與跟蹤序列/目標(biāo)之間的相似度度量也是一個問題。
STRN 這篇論文所針對的就是運(yùn)動表觀特征的結(jié)合、跟蹤序列特征的融合和目標(biāo)與周圍目標(biāo)間的交互。下圖中雖然 t 幀中中心目標(biāo)被遮擋了,但是其周圍目標(biāo)還在,所以依舊被跟蹤到了,這一點(diǎn)對于遮擋問題有一定緩解能力。
首先,作者利用周圍目標(biāo)表觀特征對中心目標(biāo)的特征進(jìn)行更新:
其中周圍目標(biāo)的注意力模型(ORM)權(quán)重是通過一組仿射矩陣求得周圍目標(biāo)與中心目標(biāo)的相似度和位置形狀相似度加權(quán)得到的。
而對于時間信息,同樣地,就是對于跟蹤序列中不同特征的注意力打分:
接下來,作者對于每條跟蹤序列和每個觀測行人之間的相似度度量進(jìn)行了研究,首先是將跟蹤序列最新的一部分特征加權(quán)融合,再與待比對特征進(jìn)行拼接,通過一個線性轉(zhuǎn)換得到表觀關(guān)聯(lián)性特征。
同樣地,計算出二者的余弦距離:
那么對于位置信息 L 和運(yùn)動信息 M 則有:
我們可以看到的是,這里面大多數(shù)的相似性度量都是人為設(shè)定的,但是也都引入了線性變換矩陣 W,這些都是通過一個小網(wǎng)絡(luò)得來的:
整體框架如下:
其效果如下:
總結(jié)
這次我主要介紹了 ReID 和 MOT / MTMC 等跟蹤人物的結(jié)合,可以看到 ReID 任務(wù)可以應(yīng)用于跟蹤人物中的表觀特征模型部分。而應(yīng)用時則需要注意數(shù)據(jù)集構(gòu)建的差異、網(wǎng)絡(luò)框架的設(shè)計、訓(xùn)練策略的問題、ReID 中域自適應(yīng)性問題、特征融合與選擇等問題。
隨著這兩年聯(lián)合檢測和跟蹤的框架的興起,在這類集成框架中引入 ReID 分支的算法也相繼出現(xiàn),包括 JDE [11] 和 FairMOT [12] 等。那么單獨(dú)使用 ReID 特征進(jìn)行跟蹤的話效果會如何呢?各位不妨試試。
參考文獻(xiàn)
[1] Ristani E, Tomasi C. Features for multi-target multi-camera tracking and re-identification[C]. in: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 6036-6046.
[2] Chen L, Ai H, Chen R, et al. Aggregate Tracklet Appearance Features for Multi-Object Tracking[J]. IEEE Signal Processing Letters, 2019, 26(11): 1613-1617.
[3] Yunzhong H, Liang Z, Zhongdao W, et al. Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking[J]. arXiv preprint arXiv:1911.12037, 2019.
[4] Bergmann P, Meinhardt T, Leal-Taixe L. Tracking without bells and whistles[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 941-951.
[5] Wojke N, Bewley A, Paulus D. Simple online and realtime tracking with a deep association metric[C]. in: 2017 IEEE international conference on image processing (ICIP). IEEE, 2017. 3645-3649.
[6] Xu J, Cao Y, Zhang Z, et al. Spatial-temporal relation networks for multi-object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 3988-3998.
[7] Wang Z, Zheng L, Liu Y, et al. Towards Real-Time Multi-Object Tracking[J]. arXiv preprint arXiv:1909.12605, 2019.
[8] http://taodataset.org/
[9] https://www.zhihu.com/question/68584669/answer/326110383
[10] https://zhuanlan.zhihu.com/p/96999382
[11] https://zhuanlan.zhihu.com/p/125395219
[12] https://zhuanlan.zhihu.com/p/126558285
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的基于深度学习的多目标跟踪算法——ReID与MOT的联系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果 iOS / iPadOS 18.1
- 下一篇: 苹果 macOS 15.1 开发者预览版