(ICCV-2021)用于步态识别的3D局部卷积神经网络(一)
文章目錄
- 用于步態識別的3D局部卷積神經網絡
- Abstract
- 1. Introduction
- 2. Related Works
用于步態識別的3D局部卷積神經網絡
論文題目:3D Local Convolutional Neural Networks for Gait Recognition
paper是中國科學技術大學發表在ICCV 2021的工作
論文地址:地址
Abstract
\quad \quad步態識別的目標是從人體的時間變化特征中學習關于人體形狀的獨特時空模式。由于不同的身體部位在行走過程中表現不同,因此可以直觀地分別對每個部位的時空模式進行建模。然而,現有的基于部位的方法將每一幀的特征圖平均劃分為固定的水平條帶以獲得局部部位。顯然,這些基于條帶劃分的方法無法準確定位身體部位。第一,不同的身體部位可能出現在同一條條帶上(例如手臂和軀干),而一個部位可能出現在不同幀的不同條紋上(例如手)。第二,不同的身體部位擁有不同的尺度,甚至同一部位在不同的幀中也會有不同的位置和尺度。第三,不同的部位還表現出不同的運動模式(例如,運動從哪一幀開始,位置變化頻率,持續多長時間)。為了克服這些問題,本文提出了一種新的3D局部操作,作為3D步態識別主干中的通用構建模塊系列。這個3D局部操作支持在序列中提取具有自適應空間和時間尺度、位置和長度的身體部位的局部3D體積(volume)。這樣一來,身體部位的時空模式就能很好地從3D局部鄰域的特定部位尺度、位置、頻率和長度中學習到。實驗表明,本文的3D局部卷積神經網絡在流行步態數據集上實現了最先進的性能。代碼可從以下網址獲取:地址
1. Introduction
\quad \quad步態是最重要和最有效的生物特征模式之一,因為它可以在遠離攝像機的情況下進行身份驗證,而無需受試者(subject)的配合。步態識別在犯罪預防、法醫鑒定和社會安全保障方面有著廣泛的應用。在現實場景中,除了步行運動引起的體型變化之外,背包、穿大衣、相機視角切換等變化也會導致身體外觀的劇烈變化,從而給步態識別帶來了巨大的挑戰。步態識別的基本目標是從人體形狀的時間變化特征中學習獨特和不變的表示。步態識別的早期工作集中于使用卷積神經網絡(CNN)提取全局特征。GaitNet提出了一種自動編碼器框架,從原始RGB圖像中提取步態相關特征,然后使用LSTM對步態序列的時間變化進行建模。Thomas等人直接應用3DCNN來提取序列信息,使用一個在自然圖像分類任務上預訓練的模型。然而,全局特征不考慮身體形狀的空間結構和局部細節,因此在面對視角變化時沒有足夠的判別力。一個自然的選擇是學習詳細的基于身體部位的局部特征,作為對全局特征的補充,或者學習它們兩者的特征嵌入。
\quad \quad由于人體由定義明確的部位組成,即頭部、手臂、腿部和軀干,基于部位的模型有可能解決步態識別中的變化。以前的基于部位的模型通過將特征圖等分成固定的水平條來提取局部特征。在GaitPart中,首先通過對每個輸入幀的輸出CNN特征圖應用預先定義的水平分割來提取2D外觀特征。然后,來自所有幀的同一條帶的相應特征通過局部短距離 2D 部位特征的時間串聯聚合。在 GaitSet和GLN中,首先將最后一個 2D 卷積的幀級特征圖分割成均勻的條帶,然后沿集合維度對其應用最大池化以提取集合級部位特征。在 MT3D中,使用多個時間尺度3D CNN來探索序列中的時間關系。然后,輸出特征圖也被劃分為多個條帶。然而,這些基于部位的步態識別方法忽略了兩個問題。首先,人體的不同部位有不同的尺度,甚至同一個部位在不同的幀中也可能有不同的位置和尺度。其次,不同的部位表現出不同的運動模式,例如運動從哪一幀開始、位置變化的頻率以及持續多長時間。因此,在一個步態周期,視覺外觀和時間運動變化是相互依賴的,人體不同的部位的特征也各不相同。這表明步態識別模型應該支持對每個特定人體部位的自適應 3D 局部體積的提取和處理。
\quad \quad為了克服步態識別中的上述問題,本文提出了一種新的3D局部操作,作為3D步態識別主干中的通用構建模塊系列。這個3D局部操作支持在序列中提取具有自適應空間和時間尺度、位置和長度的身體部位的局部3D體積(volume)。這樣,不同身體部位的3D局部鄰域在特定的部位尺度、位置和運動位置、頻率、長度上進行處理,如圖1所示。2D 局部操作已經被證明在圖像識別中是有效的,其中利用可微分的 2D 注意力機制來產生位置和尺度平滑變化的 2D 圖像/特征塊。然而,由于時間注視(temporal foveation)的不同機制,將這個想法應用于 3D 局部操作是非常具有挑戰性的。原因有兩方面。1)像素的空間采樣遵循人眼的焦點,而幀的時間采樣則是遵循光流的分布。2) 空間采樣處理2D切片,時間采樣處理1D序列,時空采樣處理3D視頻體積。因此,需要一種新的2D和1D聯合采樣策略。
圖1.主干CNN中的塊。所有這些塊都從局部鄰域提取特征。在C2D和C3D中,局部鄰域是固定的2D切片(k×kk \times kk×k)或3D體積(k×k×kk \times k\times kk×k×k)。非局部網絡學習所有位置(H×W×TH\times W \times TH×W×T)的自適應長距離依賴。本文的3D局部CNN旨在為多個局部路徑定位自適應3D體積,而不是固定的局部鄰域,并提取相應的局部特征。
\quad \quad局部操作包括4個模塊:定位、采樣、特征提取和融合。定位模塊用于學習頭部、軀干、左臂、右臂、左腿和右腿六個身體部位的自適應時空尺度、位置和時間長度。采樣模塊對平穩變化的位置、尺度和時間長度的局部體積進行采樣。與一般卷積塊一樣,特征提取模塊由幾個卷積和ReLU層組成。融合模塊由全局和局部輸出的級聯層形成,后跟1×1×11\times 1 \times 11×1×1卷積層。在實踐中,現有3D主干CNN的任何構建塊都可以被視為全局路徑,并且提出的局部路徑可以很容易地插入到這些塊中,而無需改變訓練方案。此外,對于不同的配置,局部操作中每個組件的體系結構都非常靈活。
這項工作的主要貢獻總結如下:
- 與C3D、P3D和非局部網絡相比,作者為主干3D CNN設計了一個新的構建塊,它包含人體特定部位的序列信息,稱為3D局部卷積神經網絡。
- 實現了一種簡單但有效的3D局部CNN,用于步態識別。該模型在兩個最流行的數據集 CASIA-B 和 OU-MVLP 上優于最先進的步態識別方法。
- 據作者所知,他們是第一個提出這個框架的人,該框架能夠在任何3DCNN層中交互/增強全局和局部3D體積信息。
2. Related Works
\quad \quadGait Recognition. 許多關于步態識別的研究都集中在空間特征提取和時間建模。為了獲得空間表示,大多數基于CNN的研究在整個特征圖上沿空間維度采用常規2D或3D卷積運算。雖然對所有特征圖進行同等掃描是很自然的,但這些方法忽略了步態任務中人體部位之間的顯著差異。GaitSet、GaitPart、GLN、MT3D都試圖通過將主干的輸出特征圖平均水平分割為m條帶來獲得部位級空間特征。然而,對于明確定義的人體部位,它既沒有靈活性也沒有細粒度性。此外,為了獲得步態序列的時空表征,許多研究直接將整個序列壓縮為一幀,或者從每個輪廓中獨立提取幀級特征,并使用Max Pooling沿時間維度簡單地聚合幀級特征。從而忽略了連續幀之間的時間相關性。另一種方法使用LSTM明確捕捉時間變化,在時間序列中聚合姿勢特征,生成最終步態特征,這種方法保留了周期步態序列不必要的順序約束。所有這些方法都分別提取空間特征和時間特征,忽略了不同幀的不同位置的時空依賴性,這對于識別人類步態的時空運動模式至關重要。
\quad \quadLocal-based model. 基于局部的模型已經在許多視覺任務中得到了應用。在細粒度圖像分類中,許多工作已經自動定位了信息區域,以捕獲細微的區分細節,從而使從屬類彼此不同。Sun等人利用多通道注意力來學習幾個相關區域。Wang等人使用一組卷積濾波器來捕獲特征圖中的判別性區域。Zheng等人提出了三線性注意力采樣網絡來從不同的細節中學習特征。
\quad \quad在行人重識別領域,Li等人將第一卷積層的輸出特征圖橫向平均分成m個局部區域,并分別學習局部/全局特征。Cheng等人將低層特征圖橫向分成四個相等的部分,并在最后一個全連接層之前將它們與全局流連接起來。楊等人提出了一組操作來定位靜態圖像中人體的關鍵位置。所有這些先前基于局部的模型都旨在提取靜態圖像中空間局部區域的模式。對于步態識別來說,很自然地將這一觀點擴展到步態序列的時空維度,并提取特定時間間隔內特定人體部位的時空運動模式。
\quad \quadBackbone CNNs. 通常使用的主干CNN表明,從局部鄰域提取局部特征有助于改進視覺模型。如圖1所示,C2D和C3D捕獲局部鄰域內的短距離相關性。它們的局部鄰域是固定的2D切片(k×kk \times kk×k)或3D體積(k×k×kk \times k\times kk×k×k)。P3D將3×3×33 \times 3\times 33×3×3卷積分解為空域上的1×3×31 \times 3\times 31×3×3卷積濾波器和時域上的3×1×13 \times 1\times 13×1×1卷積。在非局部神經網絡中,非局部操作被設計用來捕捉輸入特征圖中所有可能的位置之間的長距離依賴關系,其中整個輸入可以被視為固定的全局鄰域。本文的三維局部CNN被提出來為不同的局部路徑定位一個自適應的三維局部體積,而不是一個固定的局部鄰域。
總結
以上是生活随笔為你收集整理的(ICCV-2021)用于步态识别的3D局部卷积神经网络(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java产品分类和管理_Java生鲜电商
- 下一篇: ARM:特殊功能寄存器、Load/Sto