华南理工提出多模态ReID新数据集,语义自对齐网络SSAN达到SOTA性能!代码数据集均已开源!...
關注公眾號,發現CV技術之美
本篇分享論文『Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identi?cation』,華南理工提出多模態ReID新數據集,語義自對齊網絡SSAN達到SOTA性能!代碼數據集均已開源!
詳細信息如下:
論文地址:https://arxiv.org/pdf/2107.12666.pdf[1]
代碼地址:https://github.com/zifyloo/SSAN[2]
? ? ??01??? ??
摘要
文本到圖像的人物再識別(ReID)旨在使用文本描述搜索包含感興趣人物的圖像。然而,由于在文本描述中存在顯著的模態差異和較大的類內差異,文本到圖像ReID仍然是一個具有挑戰性的問題。
因此,在本文中,作者提出了一種語義自對齊網絡(SSAN)來處理上述問題。首先,作者提出了一種新的方法,自動提取其相應視覺區域的部分級文本特征。其次,設計了一個多視圖非局部網絡,捕捉身體部位之間的關系,從而在身體部位和名詞短語之間建立更好的對應關系。第三,引入了一種復合排序(CR)損失,該損失利用相同身份的其他圖像的文本描述來提供額外的監督,從而有效地減少了文本特征的類內方差。最后,為了加快文本到圖像ReID的未來研究,作者建立了一個新的數據庫ICFG-PEDES。
大量實驗表明,SSAN在很大程度上優于最先進的方法。
? ? ??02??? ??
Motivation
文本部到圖像人物再識別(ReID)是指根據自然語言描述搜索包含感興趣人物(例如失蹤兒童)的圖像。當沒有目標人的探測圖像并且只有文本描述可用時,它是一個重要而強大的視頻監控工具。與使用預先定義的屬性的ReID作品相比,文本描述包含了更多的信息,因此描述了更多樣化和更細粒度的視覺模式。不幸的是,現有的大多數ReID文獻都關注基于圖像的ReID,文本到圖像的ReID仍處于起步階段。
文本到圖像的ReID比基于圖像的ReID更具挑戰性。其中一個主要原因是文本描述是自由形式的,這造成了兩個主要問題。首先,如上圖(a)所示,同一圖像的文本描述可能會發生顯著變化,導致文本特征的類內差異很大。其次,身體部位通常是和行人檢測對齊良好;然而,如上圖(b)所示,身體部位可以用不同數量的單詞以任意順序進行描述,因此在從兩種模式中提取語義對齊的部件級特征時存在困難。
因此,跨模態對齊對于文本到圖像ReID至關重要。一種流行的跨模態對齊策略涉及采用注意力模型來獲取身體部位和單詞之間的對應關系。然而,該策略依賴于每個圖像-文本對的跨模態操作,這在計算上很昂貴。
另一種直觀的策略是使用外部工具,例如自然語言工具包,將一個文本描述分解為若干組名詞短語。每組名詞短語對應一個特定的身體部位。這種方法的缺點是文本特征的質量對外部工具的可靠性很敏感。此外,分割操作破壞了名詞短語之間的相關性,降低了文本特征的質量。
在本文中,作者提出了一種新的模型,稱為語義自對齊網絡(SSAN),它可以有效地提取語義對齊的視覺和文本部分特征。SSAN不分割文本描述或執行跨模態操作;相反,它探索圖像中相對對齊的身體部位作為監督,并利用語言描述中的語境線索來實現這一目標。
具體地說,作者首先通過將視覺主干中的特征圖分割為非重疊區域來提取part級視覺特征。然后,使用雙向長短時記憶網絡(Bi-LSTM)處理每個文本描述來捕捉單詞之間的關系。在語境提示的幫助下,使用基于每個單詞表示的單詞注意模塊(WAM)來推斷單詞部分對應。
因此,可以參考詞-部分對應關系獲得原始部分級紋理特征。部分級視覺和文本特征由兩種模式之間共享的1×1卷積(Conv)層進一步定義。最后,通過約束兩種模態的部分級特征相似,WAM被迫做出合理的預測,減少了兩種模態之間的語義差距。
然而,上述模型忽略了身體部位之間的相關性。在文本描述中,一個名詞短語通常涵蓋幾個身體部位(例如“長裙”)。此外,文本描述可以指定圖像區域之間的某些空間關系(例如,“拿著一個袋子”)。因此,作者提出了一種基于非局部注意機制的多視圖非局部網絡(MV-NLN),以捕捉身體部位之間的關系。
首先,作者通過多視圖投影計算共享嵌入空間中第k部分特征和每個其他部分特征之間的相似性。接下來,相似性分數指定第k部分和其他部分之間的交互強度。交互后,每個部件特征的接受域擴展到與名詞短語更一致。
此外,為了克服描述中的類內方差,作者提出了一種復合排序(CR)損失。在傳統的排名損失中,正對由完全匹配的圖像-文本對組成。由于觀察到一個文本描述可以粗略地標注相同身份的其他圖像,CR-loss采用它們組成弱監督項來優化網絡。然而,這種粗略標注的描述能力差別很大,這取決于文本的質量和兩個圖像之間的外觀差異。因此,作者提出了一種針對新損失項自適應調整margin的策略。CR損失可以被視為一種新的數據增強方法。
最后,由于只有一個大型數據庫可用(即CUHK-PEDES),作者為文本到圖像ReID構建了一個新的數據庫,名為以身份為中心的細粒度人物描述數據集(ICFG-PEDES)。與CUHK-PEDES相比,本文的新數據庫有三個關鍵優勢。首先,它的文本描述以身份為中心,紋理清晰;
相比之下,CUHK-PEDES中的文字描述相對較短,可能包含與身份無關的細節(如動作和背景)。更具體地說,ICFG-PEDES的每個字幕平均比CUHK-PEDES多58%。其次,ICFG-PEDES中包含的圖像更具挑戰性,由于存在復雜背景和可變照明,因此包含更多外觀變化。第三,ICFG-PEDES的規模更大:其包含的圖像比CUHK-PEDES多36%。
作者在ICFG-PEDES和CUHK-PEDES數據庫上進行了廣泛的實驗。結果表明:SSAN大大優于現有方法。此外,SSAN在效率和易用性方面具有進一步的優勢。
? ? ??03??? ??
方法
SSAN的總體架構如上圖所示。
Backbone
視覺表征提取
作者采用流行的ResNet-50模型作為視覺特征提取主干。如上圖所示,作者首先提取特征映射,其中H、W和C分別表示特征圖的高度、寬度和通道數。對于全局分支,作者直接利用學習全局視覺特征。對于部分分支作者們首先將均勻劃分為K個非重疊部分 。然后,從中提取部分級視覺特征。
文本表示提取
作者建立了一個矩陣包含訓練集中所有唯一單詞的單詞嵌入。這里,V和U分別表示單詞嵌入維度和唯一單詞的數量。給定長度n的描述D,第i個單詞的單詞嵌入為。
為了捕捉單詞之間的關系,作者采用雙向長短時記憶網絡(Bi LSTM)作為文本主干。Bi LSTM處理從到和到的字嵌入,如下所示:
其中和分別表示第i個字的正向和反向隱藏狀態。接下來,第i個單詞的表示定義如下:
就最后將進行堆疊來表示文本描述D:
其中。
Global Feature Extraction
SSAN 將整體視覺和文本特征投影到一個公共空間中。為了獲得全局特征,作者首先在F上執行全局最大池化(GMP),在E上執行行最大池化(RMP)。然后,通過共享的1×1 Conv層將獲得的特征投影到公共特征空間中:
其中。表示全局視覺和文本特征。與以前的方法相比,上的權重共享策略鼓勵F和E在語義方面更緊密地對齊。
最后,一個圖像-文本對的全局特征之間的相似性表示如下:
Part-level Feature Extraction
部分級表示對于ReID至關重要。因此,作者在SSAN中引入了部分分支,可以有效地提取語義一致的部分級視覺和文本特征。每個部分分支包括一個部分特定特征學習(PFL)模塊和一個部分關系學習(PRL)模塊。
1) 部分特定特征學習(PFL): 為了獲得部分級別的文本特征,現有方法通常首先使用外部工具檢測名詞短語,然后提取每個部分的文本特征。但是,此策略會破壞文本上下文。例如,如上圖(a) 所示,名詞短語 “白線” 可以涉及不同的服裝或配件; 在沒有文本上下文的情況下,不能推斷 “白線” 和身體部位之間的對應關系。
因此,非常需要直接從原始文本描述中提取部分級文本特征,而無需外部工具。如上圖(a)所示,圖像中的身體部位通常對齊良好。因此,利用對齊良好的人體部位作為監督,以促進實現這一目標。此外,作者認為,在LSTM處理完成后,將獲得語境線索,可以用來推斷第i個單詞對應的部分。因此,作者提出了以下方法來有效提取語義一致的部分級視覺和文本特征。
首先,作者引入單詞注意模塊(WAM)來推斷單詞部分對應關系。如上圖(b)所示,作者預測第i個單詞屬于第k部分的概率如下:
其中表示概率,σ表示sigmoid函數。。作者修改來表示第k個部分的文本描述:
其次,作者通過將饋入一個GMP層和一個1×1 Conv層來獲得第k部分的視覺特征。類似地,作者通過對執行RMP來生成第k部分級的文本特征,并將其饋送到與相同的1×1 Conv層:
其中,表示共享1×1 Conv層的參數。分別表示第k部分的視覺和文本特征。
通過將約束為具有區分性和相似性,WAM對詞部分對應進行合理的預測。值得注意的是,一個單詞可能對應多個部分,如下圖(a)所示。此外,共享的1×1 Conv層用于從和中選擇與第k部分相關的元素。通過這種方式,可以在沒有任何外部工具的情況下獲得語義一致的部分級視覺和文本特征。
最后,一個圖像-文本對的部分級特征之間的相似性表示如下:
其中。它們分別通過連接K部分級視覺和文本特征獲得。
2) 部分關系學習(PRL):F上的等分策略對于基于圖像的ReID是有效的。然而,文本到圖像ReID可能不太理想,因為一個短語可能涵蓋兩個或多個等分部分(例如上圖(a)中的“長裙”)。此外,文本描述可以指定部分之間的關系(例如上圖(b)中的“拿著一個袋子”和“一個袋子交叉的箱子”)。在這種情況下,部分之間的相關性對于區分這兩個短語至關重要。
作者提出了多視圖非局部網絡 (MVNLN) 來解決這些問題。在下文中,作者以第k個視覺部件特征為例。如上圖(c) 所示,作者首先通過多視圖的投影來計算共享嵌入空間中和之間的相似性:
其中,。。然后,第k個視覺部分特征和其他k-1部分特征之間的交互強度可以表示為:
用于聚合K-1個部分特征:
最后,MV-NLN產生的部分級視覺特征可以表示為:
其中和。
與視覺特征類似,作者還使用MV-NLN來捕捉部分級文本特征的相關性。注意,MV-NLN的參數在兩種模態之間共享。與和類似,作者采用余弦度量來評估MV-NLN為一個圖像-文本對生成的特征之間的相似性:
其中,和是通過連接MV-NLN產生的K個部分級視覺和文本特征獲得的。
Optimization
Ranking Loss應用了一個約束,使得類內相似性得分必須大于類間相似性α,如下所示:
其中,和是從匹配的圖像-文本對中提取的。和分別表示小batch中的最難負片文本和的最難負片圖像。然而,文本描述是靈活的。上述Ranking Loss僅利用匹配的圖像-文本對組成正對,這可能導致過度匹配的風險。
如上圖所示,文本描述可以大致標注相同身份的其他圖像;換句話說,每個文本描述可以被視為具有相同身份的其他圖像的粗略標題。受這一觀察結果的啟發,作者提出了一種復合排名(CR)損失,包括強監督項和弱監督項。強監督項中的正對是從完全匹配的圖像-文本對中提取的。相反,弱監督項中的正對由一個圖像和同一身份的另一個圖像的文本描述組成。通過這種方式,CR損失為每個訓練圖像利用更多樣的文本描述,作為數據增強策略。在形式上,CR損失定義如下:
其中,是指與具有相同身份的另一個圖像的文本描述。和表示margin。β表示弱監督項的權重。
然而,如上圖所示,由于圖像外觀中豐富的類內方差,對的描述能力有所不同,這表明兩個弱監督項中的固定margin可能不太理想。為了克服這個問題,作者提出了以下策略來自適應調整α2的值:
其中:
CR損失和常見的ID損失一起用于分別優化全局特征、PFL生成的部分特征和PRL生成的部分特征。注意,ID損失施加在每個K部分特征上,而CR損失施加在concat的K部分特征上。三種類型特征的所有損失項的權重設置為1、0.5和0.5。在測試階段,一個圖像-文本對之間的總體相似性分數是、和的總和。
? ? ??04??? ??
實驗
上表展示了本文方法不同模塊的消融實驗,證明了本文提出的多個模塊對于性能提升有正面的作用。
上表展示了不同對齊方法在CUHK-PEDES上的性能比較。采用Rank-1精度作為評估指標。
上表展示了不同Backbone在SOTA方法在CUHK-PEDES數據集上的性能的對比。
上表展示了不同方法在ICFG-PEDES上的性能對比。
上表展示了本文方法在CUHK-PEDES的Cross-domain設置下的實驗結果對比。
上圖展示了在圖像中相對對齊的身體部位的監督下,WAM可以對單詞進行正確的預測。通過利用文本描述中的語境線索,WAM還對與位置靈活的對象相對應的單詞進行了合理的預測。
? ? ??05??? ??
總結
在本文中,作者提出了一種新的模型,稱為SSAN,用于自動從文本到圖像的ReID的視覺和文本模態中提取語義對齊的特征。
具體來說,作者引入了一個文字注意力模塊,該模塊能夠可靠地關注部分相關文字。這使得SSAN能夠通過共享的1×1 Conv層自動提取兩種模態的部分級特征。作者進一步提出了一種多視圖非局部網絡來捕捉身體部分之間的關系。
此外,為了克服文本描述中的大類內方差問題,作者提出了一種包含強監督項和弱監督項的CR損失。最后,為了加快文本到圖像ReID的研究,作者建立了一個新的數據集,該數據集以身份為中心,具有細粒度的文本描述。在兩個數據集上的大量實驗證明了SSAN的有效性。
參考資料
[1]https://arxiv.org/pdf/2107.12666.pdf
[2]https://github.com/zifyloo/SSAN
▊?作者簡介
研究領域:FightingCV公眾號運營者,研究方向為多模態內容理解,專注于解決視覺模態和語言模態相結合的任務,促進Vision-Language模型的實地應用。
知乎/公眾號:FightingCV
END
加入「人員重識別」交流群👇備注:reid
總結
以上是生活随笔為你收集整理的华南理工提出多模态ReID新数据集,语义自对齐网络SSAN达到SOTA性能!代码数据集均已开源!...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 行人属性识别一:训练PA100k数据集
- 下一篇: 2019 ICCV之多光谱行人检测:We