Improving description-based person-identification by multi-granularity image-text alignments-2019TIP
通過多粒度圖像文本對齊改進基于描述的行人重識別
原文鏈接:
Improving Description-Based Person Re-Identification by Multi-Granularity Image-Text Alignments | IEEE Journals & Magazine | IEEE Xplore
摘要:基于描述的行人重識別是視頻監控中的一項重要任務,需要有區別性的跨模態表征來區分不同的人。由于模態的異質性(交叉模態問題),直接測量圖像和描述文本之間的相似性是困難的,并且所有的樣本屬于單個類別(細粒度問題)使得這個任務比傳統的圖像描述匹配任務更加困難。本文提出了一種多粒度圖像-文本對齊(MIA)模型,以解決基于描述的行人重識別的交叉模態細粒度問題。具體來說,有三種不同的粒度,即全局-全局、全局-局部和局部-局部對齊是分層次進行的。首先,全局對比(GC)模塊中的全局-全局對齊用于匹配圖像和描述的全局上下文。其次,在關系引導的全局-局部對齊(RGA)模型中,全局-局部對齊利用局部part與全局上下文之間的潛在關系來突出可區分的組件,同時自適應地消除為涉及的組件components。然后,對于局部-局部對齊,我們采用雙向細粒度匹配(BFM)方法將圖像人體part和名詞短語進行匹配。結合多粒度的整個網絡可以端到端的訓練,無需復雜的預處理。針對多粒度組合訓練的困難,提出了一種有效的分步訓練策略,對多粒度組合進行分步訓練。大量的實驗和分析表明,我們的方法在CUHK-PEDES數據集上獲得了SOTA性能,并以顯著的優勢優于先前的方法。
基于描述的行人重識別因為現有的模態異質性使得難以直接測量圖像和描述之間的跨模態相似性。雖然傳統的圖像和描述匹配問題已經被廣泛研究,但是在基于描述的行人重識別的任務中存在特定的差異。該任務中的所有圖像都屬于同一類別,即行人類別(細粒度問題),這使得該任務比僅處理模態異構性更困難。
?圖1. 基于描述的行人再識別(Re-id)的細粒度問題。基于描述的行人識別(CUHK-PEDES數據集,六個不同的人)中的圖像比圖像-文本匹配任務(MS-COCO[21]數據集)中的圖像更難區分,因為它們都屬于同一類別,即行人類別。
若直接使用傳統圖像文本匹配中解決細粒度問題方法,存在一些問題:可以基于外部線索(如姿態)預處理的局部part提取方法[30][56]需要在行人數據集上進行進一步的微調甚至是預先重新訓練。這樣他們就可以為Re-id后續的細粒度匹配提供更準確的組件。但基于描述的人Re-id數據集中沒有對身體部位或身體分段的標注,使得調整或再訓練更加困難。
基于區域的方法[1]和[24],它們需要屬性級別的注釋(如圖2a),但是基于屬性的注釋在行人數據集中也是不可用的。
使用細粒度的基于部件的方法會存在的問題:一個圖像可能對應多個單獨的單詞部分描述,如圖所示的部分的“yellow bag slung”圖2 (b)。因此,簡單的文本分區,例如,自然將句子分成單獨的詞,不適合圖像描述細粒度匹配。另一方面,在使用文本詞檢索匹配圖像部分時,由于模態異構,也存在一些歧義。具體來說,如圖2 (c)所示,“白裙子”可以指來自不同人群的幾個視覺成分,包括不同款式和尺寸的裙子,覆蓋人體的不同區域和部位。而細粒度匹配中的這些歧義可能會導致基于描述的人員Re-id的檢索混淆和損害檢索的準確性。因此,跨模態細粒度匹配需要自適應局部組件對齊。
圖2(a)基于描述的person Re-id中細粒度屬性級別區域的圖示。(b)圖像句子對中未涉及組件的圖示。描述中未提及腿和鞋,且不應有助于視覺表現。(c) 當使用文本詞檢索匹配的圖像組件時,由于模態的異質性而產生歧義。“白色裙子”可以指來自不同人群的多個視覺組件,其中包含不同風格和尺寸的裙子,覆蓋人體的不同區域和部位。
此外,僅采用細粒度的組件匹配是不夠的,因為它忽略了局部組件和全局上下文之間的潛在關系。更具體地說,在圖像-句子對中,跨模態的全局-局部關系可以作為過濾器來消除其他模態中不涉及的成分。例如,在圖2 (b)中,腿和鞋沒有在描述中提到,因此這些屬性不應該相應地對視覺語義表示作出貢獻。在本例中,句子描述提供了有助于忽略無關視覺線索的跨模態信息,這也適用于使用視覺信息來刪除無關文本組件的情況。基于關系引導的過濾過程,我們可以獲得更好的聚合表示,以測量更準確的跨模態相似性。
?除了細粒度組件匹配和關系引導匹配考慮細粒度問題以增強特征的區分,全局上下文在人的Re-id中也很重要?。這是因為全局上下文包含更多的信息,不僅包括局部成分,還包括它們的空間關系(主要是圖像)和順序(主要是描述)。這些潛在的語義方面也有助于更準確地識別行人。總的來說,如圖3所示,我們將前面的細粒度組件匹配、關系引導匹配和全局上下文匹配作為不同粒度來分層進行多粒度交叉模態對齊。三種粒度可以相互補充,提供綜合的交叉模態相似度評價。
??雖然我們的方法可以端到端訓練,但這并不意味著同時訓練所有模塊就是一個好的訓練策略。事實上,多粒度的組合給訓練帶來了一定的困難。一方面,局部成分和全局語境位于不同的語義層次,在訓練中使用的目標也有所不同。更具體地說,全局上下文不僅包含局部成分,而且還包含它們的潛在依賴關系(例如,圖像中的空間關系和描述中詞的順序),因此它們與個人身份的相關性比局部成分更緊密。而且他們更適合在個人身份的監督下進行訓練,而不僅僅是交叉模式匹配。另一方面,局部part提取方法不可避免地會給細粒度構件表示帶來一些歧義。例如,多個屬性或不完整屬性可能被分成單個圖像部分,當訓練在一起時,這個問題很可能會影響全局特征提取。因此,我們通過實驗發現,層次化分步訓練全局上下文和局部成分更為有效。
主要貢獻如下:·為了緩解跨模態的細粒度問題,提出了一種基于描述的行人Re-id的多粒度圖文對齊模型。分層地執行三種不同的粒度,即全局-全局、全局-局部和局部-局部對齊。它們考慮匹配全局上下文,分別使用全局-局部關系過濾不涉及的組件和雙向細粒度匹配,以實現更精確的跨模態匹配。該方法是端到端可訓練的。
為了更好地訓練多粒度的組合,提出了一種有效的分步訓練策略,對整個模型進行分步訓練。
我們在CUHK-PEDES數據集上獲得了最先進的性能,并且顯著優于其他以前的方法。
?圖4. 我們解決方案的總體框架。該框架主要包括兩個部分:(A)全局和局部表征提取和(B)多粒度圖文對齊模型。不同塊上的數字分別表示他們按照我們的分步訓練策略進行訓練的步驟。
在(a)部分,使用卷積神經網絡(CNN)來提取圖像路徑中的視覺特征圖。然后將路徑分為全局上下文特征和圖像局部特征兩個分支。我們依次使用全局平均池化層和全連接層(FC層)來獲得全局視覺表示。采用1×1卷積和局部平均池化mean pooling的方法對各個圖像部分進行特征提取。在文本路徑上,句子編碼和短語編碼共享相同的雙向門控遞歸單元(Bi-GRU)模型,有不同的FC層。
?對于(b)部分中的MIA模型,主要有三個模塊,分別對應于三個粒度。更具體地說,全局對比Global Contrast(GC)模塊用于執行全局-全局對齊。它使用全局視覺和文本上下文表示來獲得基本的全局-全局相似性。關系引導的全局-局部對齊(RGA)模塊用于全局-局部關系過濾,它利用跨模態關系對齊來過濾不涉及的屬性,以獲得更好的聚合表示。并且在RGA模塊中計算中間的全局-局部相似度。然后,基于訓練好的細粒度局部分量,采用雙向細粒度匹配(BFM)模塊進行局部-局部對齊。通過對不同粒度的這三個模塊進行分層組合,可以得到更全面的跨模態相似度評估。
Global Contrast (GC): 對于圖像I,將來自CNN的特征圖依次通過全局平均池化層和FC層來獲得全局視覺上下文表示I∈RV,V表示圖像表示的維度。對于描述T,我們首先將T中每個單詞w∈RW 嵌入到嵌入向量x∈RE中
其中We∈RE×W是嵌入矩陣。符號E表示單詞嵌入的維度,W表示vocabulary size。然后我們通過Bi-GRU依次輸入所有這些向量,
我們將最后時間步的前向隱藏態和后向隱藏狀態連接在一起,使用句子FC層來獲得描述T的最終表示T∈RC
其中,Wg∈RC×2H和bg∈RC是描述T的句子FC層中的參數。C表示語句表示的維度,[·,·]表示兩個向量的連接。通過下式計算圖像I和描述T之間的全局-全局相似度sG
其中,sim(·,·)表示視覺表示I和文本表示T之間的相似性函數。
Relation-Guided Global-Local Alignment (RGA):?
在獲得視覺人體part和文本名詞短語后,直接使用這些細粒度的局部成分進行跨模態匹配是不合適的,因為存在模態的異構性和不完善的劃分方法造成了一些歧義,而且局部分量表示還沒有得到很好的訓練。因此,我們采用注意機制,首先進行關系引導的全局局部對齊,以提高局部part表示的質量。并且基于注意力聚集的表示和全局上下文可以獲得中間的跨模態相似度。
對于圖像I,我們得到與[42]之后不同的非重疊圖像部分相對應的n個局部特征,P1,...,PN∈RP,其中 P表示圖像part特征的維度。對于描述T,我們使用自然語言工具包(Natural Language Toolkit,NLTK)[4]進行句法分析、分詞和詞性標注,得到了幾個名詞短語。該提取過程可以與訓練過程一起動態處理,有利于端到端的訓練。與整個描述語句編碼類似,我們使用公式1和公式2,并在其中使用另一個FC層
用于獲得名詞短語的表示N∈RN,其中N是名詞短語特征的維度。WL∈RN×2H和bl∈RN是名詞短語FC層中的參數。我們不限制從一個句子中提取的名詞短語的數量m,即不同的描述句子的m是不同的,得到了N1,N2,...,Nm∈RN的特征。
基于圖像部分表示P1、P2、...、Pn和名詞短語表示N1、N2、...、Nm,有兩個方向相反的關系引導的全局-局部對齊模塊,即圖像引導的短語對齊(T→I)和句子引導的part對齊(I→T)。圖5顯示了I→T方向作為示例。我們首先使用跨模態注意方法來確定所有圖像part P1、P2、…、Pn與全局文本上下文T之間的關系Vi。具體地說,每個Vi由以下公式計算
MLPV(·)表示視覺部分的多層感知器,即圖4中的MLP-V-RGA,sim(·,·)表示PiT和T. 之間的相似度函數
選擇性地將part 表示pi聚合到關系指導的視覺表示IR中。該特征聚合過程由全局-局部關系指示符vi來監督,該指示符指示不同圖像part和整個描述之間的語義相關性。之后,I → T方向的中間跨模態相似性為
這被認為是我們的MIA模型的中間層次RGA內的全局-局部相似性。
類似地,我們可以通過以下方式獲得在相反的T → I方向上的關系引導的文本表示
MLPT(.)表示名詞短語的多層感知器,即圖4中的MLP-T-RGA。并且在關系引導的全局-局部比對之后,在T → I方向上相應的中間相似度為
Bi-Directional Fine-Grained Matching (BFM):
圖6顯示了P→N方向的示例。我們首先選擇一個名詞短語,例如,N1是Dark Slack,并評估N1與所有圖像部分P1,P2,…,Pn之間的相似度。然后我們參考這些相似度值并使用注意力機制自適應地獲得與單個名詞短語相關的組合視覺表示,I1∈ RP,如圖6中的金色路徑所示。?
對每個名詞短語特征Nj使用相同的步驟,我們可以獲得與單個名詞短語相關的所有組合視覺表示I1,I2,…,Im∈RP
MLPT(·)表示名詞短語的多層感知器MLP-T-BFM,MLPV(·)表示視覺部分的MLP-V-BFM,如圖4所示;sim(·,·)表示兩個特征向量之間的相似度函數,exp(·)表示指數運算。在獲得I1,I2,…,Im,P→N方向的局部-局部相似性為
類似地,在相反的N→P方向上,我們可以得到與單個圖像部分相關的組合文本表示~T1,T2,...,TN∈RN
N-→P方向的局部-局部相似度為
Similarity Fusion:
GC模塊中的sG可以看作是全局-全局相似度,而RGA模塊中的中間全局-局部相似度SI和ST。在BFM模塊頂層中,Sp和SN被認為是局部-局部的相似性。為了正確融合這些相似性,我們引入了兩個超參數來調整它們的比例,
其中sF表示最終融合的跨模態相似度,sR和sL表示分別平均RGA和BFM模塊中的兩個相反方向后的相似度。
?Learning Procedure
目標:訓練中使用兩種不同的目標,identity objective and matching objective。身份目標來源于行人的身份(ID)可以看作是對圖像和描述進行分類的類別,而匹配目標通常用于傳統的跨模態檢索。
ID目標:將訓練集中不同的ID作為類別的個數,將圖像和描述分別歸入相應的ID類別。身份目標的損失是
匹配目標:基于hinge的triplet匹配目標在圖文匹配任務中顯示出了它的優勢[12],[24]。參考文獻[12],我們采用鉸鏈損失之和LM作為匹配目標:
其中I和T分別表示圖像和句子表示。(I,T)和(T,I)表示匹配的圖像和描述對,(I,^T),(T,^I)表示不匹配的對。S(·,·)表示兩個樣本之間的相似度。
?討論:上述兩個目標有不同的關注點。身份目標將不同圖像對應的描述進行分類,同時將同一個人歸入同一身份類別。然而,圖像的描述可能與同一ID類別中的其他圖像存在某種不匹配。換句話說,身份目標在處理細粒度匹配時有點弱。因此,身份目標更像是一個松散的約束,適合于訓練中的初始化initialization,以消除明顯的不匹配對。至于匹配目標,它更嚴格,因為它將一副圖像的注釋描述視為屬于同一個人ID的其他圖像的負匹配樣本。因此,匹配目標可用于學習圖像與其對應描述之間更精確的跨模態關系,這更適合用于微調finetuning.。
訓練策略: 訓練策略包含三個步驟,分別對應于我們的MIA模型中的三個模塊,即GC、RGA和BFM模塊。在第一步中,我們只使用ID目標來初始化與全局表示相關的參數,這些參數用數字1來注釋,不微調預先訓練的視覺CNN,而是專注于從頭開始訓練文本路徑和全局視覺FC層。第一步的總損失函數為
在第二步中,我們的目標是在訓練的全局上下文下訓練細粒度組件表示,因此我們額外使用了更適合精確微調的匹配目標。正如圖4中數字1和2,參數(包括視覺CNN)由身份目標和匹配目標一起微調,整體損失函數為
其中LGM表示GC模塊中全局表示的匹配目標。LI?TM和LT?IM分別表示RGA中兩個方向相反的匹配目標。
最后,我們固定了BFM模塊中用于訓練中的part和短語的兩個MLP之外的其他參數,如圖4中數字3。損失函數是
LP?NM和LN?PM是BFM模塊中兩個相反方向的匹配目標。
討論:在提出的分步訓練策略中,身份目標只用于訓練全局上下文,而不訓練局部組件,原因是只有全局表示與Person ID具有更緊密的相關性,具體而言,不同的人可能具有相似的局部組件,即局部組件與Person ID沒有緊密的相關性,因此使用身份目標對局部組件進行分類有點不合適。?
實驗結果
對我們方法的消融研究進行可視化分析。(a) 關系引導注意在RGA模塊中的有效性。我們提供I→ T方向為例,即圖像部分與整體文本語境之間的關系。紅色表示注意力后權重最大的部分,黃色表示第二權重最大的部分。綠色和藍色用于權重最小的part。描述中帶下劃線的屬性與圖像中權重最大的兩個部分相關,這兩個部分是更準確的人物識別最可區分的屬性。相比之下,與描述中未涉及的組件相關的圖像部分的權重最小。(b) BFM模塊中細粒度匹配的有效性。這兩個例子是使用名詞短語來關注圖像部分(P→ N方向)。紅色表示部分短語注意力后的部分與短語最相似(權重最大),黃色表示第二相似。
圖8。不同粒度檢索結果的比較。“GC+BFM”和“GC+RGA”模型的性能優于“GC”模型,我們的“MIA”方法通過組合多粒度獲得最佳檢索結果。以上面的一個為例,使用“黃色短袖襯衫”可以檢索到許多穿著黃色襯衫的人,但細粒度屬性“reading a small pamphlet閱讀小冊子”是區分正確行人和其他行人的關鍵語義概念。如右圖所示(與圖7中的顏色含義相同),“閱讀小冊子”部分的權重最大,“黃色短袖襯衫”部分的權重僅次于關系引導注意。相反,底部兩部分的權重最小,因為查詢描述中沒有提到腿和鞋。下面的例子也可以用類似的方式來解釋。
圖9 失敗案例分析。我們提供了一些失敗案例,其中我們的MIA模型無法檢索前十名結果中的ground truth圖像。這些情況大致可分為兩種不同的情況:(a)不完全覆蓋和(b)模糊描述。
總結
以上是生活随笔為你收集整理的Improving description-based person-identification by multi-granularity image-text alignments-2019TIP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全尺度表示的上下文非局部对齐
- 下一篇: OpenMMLab简介