(AAAI-2019)用于行人重识别的水平金字塔匹配
用于行人重識別的水平金字塔匹配
論文題目:Horizontal Pyramid Matching for Person Re-Identification
paper是貝克曼研究所發(fā)表在AAAI2019上的工作
論文地址:鏈接
Abstract
盡管在行人重識別(Re-ID)方面取得了顯著進展,但這種方法仍然存在識別性身體部位缺失的失敗案例。為了減輕這種類型的失敗,作者提出了一種簡單而有效的水平金字塔匹配(HPM)方法來充分利用給定人的各部分信息,以便即使缺少一些關(guān)鍵部分也可以識別出正確的人選。借助 HPM,為 Re-ID 任務(wù)生成更穩(wěn)健的特征表示做出了以下貢獻: 1)使用不同水平金字塔尺度的部分特征表示進行分類,這成功地增強了各個人體部位的判別能力; 2)利用平均池化和最大池化以全局-局部方式說明特定于個人的判別信息。為了HPM方法的有效性,在 Market-1501、DukeMTMC-ReID 和 CUHK03 三個流行的數(shù)據(jù)集上進行了廣泛的實驗。在這些具有挑戰(zhàn)性的基準上,分別取得了 83.1%、74.5% 和 59.7% 的 mAP 分數(shù),這些都是新的最先進水平。
Introduction
行人重識別 (Re-ID) 旨在從一組圖像中重新識別查詢?nèi)藛T,這些圖像由多個攝像頭隨時間拍攝。由于人體屬性(如姿勢、步態(tài)、衣服)以及環(huán)境設(shè)置(如照明、復(fù)雜背景和遮擋)的巨大變化,為每個人學(xué)習(xí)魯棒的特征表示是一項挑戰(zhàn)。
為了解決視覺線索的復(fù)雜性,基于深度學(xué)習(xí)的方法提供了有前景的解決方案。然而,這些方法只利用了全局人物特征,實際上這對缺失的關(guān)鍵部分很敏感。
為了緩解這些問題,最近的許多方法一直專注于學(xué)習(xí)部分判別特征表示。這些方法通常利用身體大小等全局特征和衣服標志等局部特征來增強 Re-ID 方法的魯棒性。它們可以按局部區(qū)域生成方案分為三種類型。在第一種類型中,估計和提取諸如姿勢或身體標志之類的先驗知識以定位判別區(qū)域。然而,在這種情況下,Re-ID 的性能高度依賴于姿態(tài)或地標估計模型的魯棒性。姿勢估計錯誤等意外錯誤可能會極大地影響識別結(jié)果。第二種類型,基于注意力的方法,側(cè)重于通過定位感興趣的顯著區(qū)域(ROI)自適應(yīng)地提取深度特征圖中的高激活信息。然而,所選區(qū)域缺乏語義解釋。第三種類型將深度特征圖裁剪為預(yù)定義的patch或條帶,假設(shè)圖像完全對齊,因此容易出現(xiàn)異常值引入的錯誤。
為了有效地學(xué)習(xí)部分判別特征并消除由意外的位姿變量和未對齊情況引起的負面影響,作者提出了一種簡單而有效的方法,稱為水平金字塔匹配 (HPM)。我們的 HPM 旨在以更強大和更有效的方式同時利用人的全局和部分信息來執(zhí)行 Re-ID 任務(wù)。具體來說,本文做出以下三個貢獻:
- 使用各種金字塔尺度將深度特征圖水平分割成多個條帶,用于以下池化操作,稱為水平金字塔池化(HPP),并學(xué)習(xí)對不同金字塔尺度輸出的每個空間條帶特征進行獨立分類。直觀地說,使用多個尺度的條帶將包含一個松弛距離,以減輕由未對齊引起的異常值問題。此外,獨立學(xué)習(xí)多尺度信息將增強在所有特定尺度行人部分中學(xué)習(xí)到的判別信息。
- 將每個分區(qū)中的平均池化特征和最大池化特征結(jié)合起來。特別的,平均池化能夠感知每個空間條帶的全局信息,并將背景上下文考慮在內(nèi)。相比之下,最大池化目標提取最具辨別力的信息并忽略那些主要來自相似服裝或背景的干擾信息。將它們整合起來,從而以全局-局部的方式平衡這兩種策略的有效性。
- 在三個主流行人重新識別數(shù)據(jù)集 Market1501、DukeMTMC-ReID 和 CUHK03(使用新協(xié)議)上評估本文提出的方法。實驗結(jié)果表明,本文的模型在端到端方面擊敗了大多數(shù)最先進的方法。
用圖1中所示的一個示例來說明HPM。首先提取具有多個卷積層的給定圖像的特征表示,并以不同的金字塔比例對特征圖進行水平切片。然后使用每個部分條帶的全局平均池化和最大池化生成的特征表示來獨立地進行Re-ID。通過以這種方式學(xué)習(xí)HPM,可以更有效地增強部分判別能力,從而克服當前解決方案的缺點(例如對丟失的關(guān)鍵部分或錯位敏感)。圖 2 顯示了帶HPM和不帶HPM方案學(xué)習(xí)的最后一個卷積特征圖的熱力圖。可以觀察到,本文的 HPM 可以識別出更具辨別力的部分,從而獲得更好的行人重識別結(jié)果。
圖 1:提出的水平金字塔匹配示意圖。將一個人分成多個尺度的不同水平部分。然后利用每個部分的全局平均池化 (GAP) 和全局最大池化 (GMP) 生成的特征表示來獨立地學(xué)習(xí)行人Re-ID。
圖 2:Person Re-ID 中帶 HPM 和不帶 HPM 的結(jié)果比較。
在 Market-1501、DukeMTMC-ReID 和 CUHK03 上進行的大量實驗和消融研究證明了每種設(shè)計的有效性。特別是,在三個基準測試中的mAP得分分別為 83.1%、74.5% 和 59.7%,分別超過 state-of-hearts 1.5%、5.3% 和 2.2%。
Related Work
Deep learning for Person Re-ID
基于深度學(xué)習(xí)的方法在 Re-ID 社區(qū)中占主導(dǎo)地位。 Yi[1]首先使用深度神經(jīng)網(wǎng)絡(luò)來確定一對輸入圖像是否屬于同一個 ID。一般而言,行人重識別使用兩種類型的模型:驗證模型和識別模型。
對于驗證模型,Ahmed[2]采用孿生神經(jīng)網(wǎng)絡(luò)或三元組損失來提取具有相同身份的圖像對并推開具有不同身份的圖像。Hermans等人[3]提出了一種三元組損失的變體來執(zhí)行端到端深度度量學(xué)習(xí),它大大優(yōu)于許多其他已發(fā)表的方法。然而,一般來說,這種模型在大型gallery上的效率會有所下降。這是因為它沒有充分利用Re-ID注釋。
對于識別模型,它試圖學(xué)習(xí)給定輸入圖像的判別表示,并且與驗證模型相比,它總是產(chǎn)生更高的準確性。Xiao[4]等人提出了一種新穎的 dropout 策略來聯(lián)合訓(xùn)練具有多個數(shù)據(jù)集的分類模型。在[5]中,驗證和分類損失結(jié)合在一起,同時學(xué)習(xí)判別嵌入和相似性度量。在[6]中,提出了一種基于部分的卷積網(wǎng)絡(luò)來學(xué)習(xí)判別性的部分信息特征。
Part-based Model
最近,許多工作從局部部分生成深度表征,以獲得細粒度的人的判別特征。這種基于部分的模型可以分為三類。第一類是基于一些先驗知識,如姿勢估計和目標檢測[7]。這些方法都有一個共同的缺點,就是姿勢估計和人物檢索的數(shù)據(jù)集之間存在差距。第二,放棄分割的語義線索。例如,Yao等人[8]采用了部分損失網(wǎng)絡(luò),該網(wǎng)絡(luò)強迫深度網(wǎng)絡(luò)學(xué)習(xí)不同部分的表征,并獲得對未見過的人的判別能力。第三,分區(qū)被裁剪成預(yù)定義的patch。Sun等人[9]提出了基于部分卷積Baseline(PCB)來學(xué)習(xí)判別性的分區(qū)特征。然而,PCB可能會遭受一些離群值,這使得每個分區(qū)的不一致,因此他們提出了Refined Part Pooling (RPP)來加強部分內(nèi)的一致性。
Spatial Pyramid Pooling
由于具有全連接層的卷積神經(jīng)網(wǎng)絡(luò)總是需要固定的輸入大小。為了消除這種約束,He等人[10]提出了 Spatial Pyramid Pooling 網(wǎng)絡(luò),無論輸入大小如何,它都能生成固定長度的輸出,并通過在局部空間 bin 中進行池化來維護空間信息。多級空間池化也被證明對目標變形具有魯棒性。它可以提高分類和目標檢測任務(wù)的性能。類似地,金字塔池化模塊也用于[11],金字塔層級池化將特征圖分成不同的子區(qū)域,形成不同位置的池化表示。
Proposed Method
本節(jié)描述了水平金字塔匹配(HPM)框架的結(jié)構(gòu),如圖 3 所示。輸入圖像被送到backbone網(wǎng)絡(luò)以提取特征圖。之后,使用水平空間金字塔池化模塊來獲取每個局部和全局空間bin中的空間信息。對于每個水平空間bin,同時使用全局平均池化操作和最大池化操作來獲得全局和人體最具辨別力的部分的特征。然后,使用卷積層將列特征圖的維度從 2048 減少到 256,并將每個列特征輸入到獨立全連接層,然后使用 softmax 函數(shù)來預(yù)測每個輸入圖像的 ID。在測試期間,將所有這些特征連接在一起以獲得最終的 Re-ID 特征表示。更多細節(jié)將在下文中給出。
圖3:提出的水平金字塔匹配(HPM)方法概述。輸入圖像首先通過卷積神經(jīng)網(wǎng)絡(luò)來提取其特征圖。然后,利用水平金字塔匯集來使用全局平均池化和全局最大池化生成每個部分的特征表示。最后,將每個部分的預(yù)測送到分類器中以進行部分級別的行人Re-ID。在測試階段,將不同金字塔尺度的部分特征連接起來,形成每張圖像的最終特征表示。
Horizontal Pyramid Matching
Backbone Network
HPM可以采用各種網(wǎng)絡(luò)架構(gòu),如VGG、Resnet和Google Inception作為backbone網(wǎng)絡(luò)。本文選擇Resnet50作為backbone網(wǎng)絡(luò),并按照之前的最先進的技術(shù)[12]進行了一些修改。首先,移除平均池化層和全連接層。另外,conv4_1的步長設(shè)置為1。因此,提取的特征圖的大小將是輸入圖像大小的116\frac{1}{16}161?。
Horizontal Pyramid Pooling (HPP) module
HPP受到Special Pyramid Pooling(SPP)[13]的啟發(fā),SPP是為了消除因圖像輸入尺寸不同而導(dǎo)致的特征向量長度不確定而提出的。本文的HPP模塊與SPP的區(qū)別主要包括兩個方面。1)動機。HPP的目的是通過學(xué)習(xí)來增強不同尺度下部分人物身體的判別信息,而SPP是為了解決圖像特征向量長度不一致的問題。2)操作。由于人的區(qū)分分區(qū)的分布是從頭到腳,HPP以水平方式將特征圖切成多個條帶,這與SPP采用二維空間的方式不同。通過HPP,可以在不同的水平金字塔尺度上獲得固定長度的人物部分的向量。這些向量被進一步送入一個卷積層和一個全連接層以學(xué)習(xí)分類。通過這種方式,可以從全局到局部,從粗到細地捕捉到行人部分的判別能力。
公式上,將backbone網(wǎng)絡(luò)提取的特征圖表示為FFF。在HPP模塊中采用了4個金字塔尺度,并根據(jù)不同的尺度將F水平平均分割成幾個空間bin。具體來說,假設(shè)每個空間bin為Fi,jF_{i, j}Fi,j?。i,ji, ji,j代表尺度索引和每個尺度下的bin索引。例如,F3,4F_{3,4}F3,4?表示第三個池化尺度中的第四個bin。然后,通過全局平均池化和最大池化池化每個空間binFi,jF_{i, j}Fi,j?以生成列特征向量Gi,jG_{i, j}Gi,j?。
Gi,j=avgpool?(Fi,j)+maxpool?(Fi,j)G_{i, j}=\operatorname{avgpool}\left(F_{i, j}\right)+\operatorname{maxpool}\left(F_{i, j}\right) Gi,j?=avgpool(Fi,j?)+maxpool(Fi,j?)
之后,每個Gi,jG_{i, j}Gi,j?被送入一個卷積層以將維度從 2048 減少到 256,表示為Hi,jH_{i, j}Hi,j?。這些具有相同i\mathrm{i}i的Hi,jH_{i, j}Hi,j?可以被認為是對人的描述。隨著金字塔尺度的增加,這種描述涵蓋了更詳細的部分特征。
Loss Function
利用基于分類的模型來處理行人重識別任務(wù)。因此,目標是預(yù)測每個人的 ID,然后可以通過優(yōu)化的分類模型學(xué)習(xí)每人特定的特征表示。使用全連接層的一個分支作為分類器,每個特征列向量Hi,jH_{i, j}Hi,j?被送入相應(yīng)的分類器FCi,jF C_{i, j}FCi,j?并使用 softmax 函數(shù)來預(yù)測其 ID。在訓(xùn)練期間,給定圖像III的輸出是一組預(yù)測值y^i,j\hat{y}_{i, j}y^?i,j?。每個y^i,j\hat{y}_{i, j}y^?i,j?可以表示為
y^i,j=argmax?c∈Pexp?((Wi,jc)THi,j(I))∑p=1Pexp?((Wi,jp)THi,j(I))\hat{y}_{i, j}=\underset{c \in P}{\operatorname{argmax}} \frac{\exp \left(\left(W_{i, j}^{c}\right)^{T} H_{i, j}(I)\right)}{\sum_{p=1}^{P} \exp \left(\left(W_{i, j}^{p}\right)^{T} H_{i, j}(I)\right)} y^?i,j?=c∈Pargmax?∑p=1P?exp((Wi,jp?)THi,j?(I))exp((Wi,jc?)THi,j?(I))?
其中P\mathrm{P}P是行人 ID 的總數(shù),Wi,jW_{i, j}Wi,j?是FCi,jF C_{i, j}FCi,j?的學(xué)習(xí)權(quán)重,yyy是輸入圖像III的ground truth。損失函數(shù)是每個輸出y^i,j\hat{y}_{i, j}y^?i,j?的交叉熵損失之和。
Loss?=∑n=1N∑i,jCE(y^i,jn,yn)\text { Loss }=\sum_{n=1}^{N} \sum_{i, j} C E\left(\hat{y}_{i, j}^{n}, y^{n}\right) ?Loss?=n=1∑N?i,j∑?CE(y^?i,jn?,yn)
其中N\mathrm{N}N是 mini-batch 的大小,CE\mathrm{CE}CE是交叉熵損失。
Variant of HPM(HPM的變體)
HPM 可能有一些不同于上述基本框架的變體,例如不同的金字塔尺度和池化策略。
Number of pyramid scales
HPM 可以有幾種不同數(shù)量的尺度。除了4個尺度,它可以是最大為log?2(h)\log _{2}(h)log2?(h)的任何數(shù)字,其中hhh是特征圖的高度。不同金字塔尺度的HPM結(jié)構(gòu)如表1所示。隨著金字塔尺度的增加,模型關(guān)注給定人的更詳細和精細的劃分。由于本文的損失函數(shù)是每個金字塔尺度的線性組合,如果金字塔尺度過多,可能會低估人的全局信息。另一方面,如果金字塔尺度太少,局部判別分區(qū)的特征可能難以提取。因此,選擇能夠平衡全局和局部特征的適當金字塔尺度對于 HPM 的性能至關(guān)重要。
Pooling strategies
HPM 同時使用平均池化和最大池化。全局平均池化是許多分類框架中的傳統(tǒng)操作,因為它強制特征圖和類別之間的對應(yīng)關(guān)系。但是,全局平均池化可能會通過平均操作丟失一些非常具有判別性的信息。例如,如果人的一個分區(qū)判別力很強,但被背景包圍,這種情況下,全局平均池化會得到判別部分和背景區(qū)域的平均值,這可能會導(dǎo)致響應(yīng)低而錯過它。為了解決這個問題,作者同時使用平均池化和最大池化,這樣可以保持識別的全局關(guān)系,并保留判別部分。
參考文獻
[1] Dong Yi et al. “Deep Metric Learning for Person Re-identification” International Conference on Pattern Recognition (2014).
[2] Ejaz Ahmed et al. “An improved deep learning architecture for person re-identification” Computer Vision and Pattern Recognition (2015).
[3] Alexander Hermans et al. “In Defense of the Triplet Loss for Person Re-Identification” arXiv: Computer Vision and Pattern Recognition (2017): n. pag.
[4] Tong Xiao et al. “Learning Deep Feature Representations with Domain Guided Dropout for Person Re-identification” Computer Vision and Pattern Recognition (2016).
[5] Zhedong Zheng et al. “A Discriminatively Learned CNN Embedding for Person Reidentification” ACM Transactions on Multimedia Computing, Communications, and Applications 14 (2017): 13.
[6] Yifan Sun et al. “Beyond Part Models: Person Retrieval with Refined Part Pooling…” (2017).
[7] Liang Zheng et al. “Pose Invariant Embedding for Deep Person Re-identification” arXiv: Computer Vision and Pattern Recognition (2017): n. pag.
[8] Hantao Yao et al. “Deep Representation Learning with Part Loss for Person Re-Identification” arXiv: Computer Vision and Pattern Recognition (2017): n. pag.
[9] Yifan Sun et al. “Beyond Part Models: Person Retrieval with Refined Part Pooling…” (2017).
[10] Kaiming He et al. “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition” European Conference on Computer Vision (2014).
[11] Hengshuang Zhao et al. “Pyramid Scene Parsing Network” Computer Vision and Pattern Recognition (2017).
[12] Yifan Sun et al. “Beyond Part Models: Person Retrieval with Refined Part Pooling…” (2017).
[13] Kaiming He et al. “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition” European Conference on Computer Vision (2014).
總結(jié)
以上是生活随笔為你收集整理的(AAAI-2019)用于行人重识别的水平金字塔匹配的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有道翻译的划词图标在adobe acro
- 下一篇: CHAPITRE II