行人重识别(3)——行人重识别(基于图像)综述
!轉(zhuǎn)載請注明原文地址!——東方旅行者
更多行人重識別文章移步我的專欄:行人重識別專欄
本文目錄
- 基于圖像的行人重識別
- 一、表征學(xué)習(xí)方法
- 1.淺層視覺特征
- 2.中層視覺特征(語義屬性)
- 3.深層視覺特征
- 4.多種特征結(jié)合
- 二、度量學(xué)習(xí)方法
- 三、深度學(xué)習(xí)方法
- 1.按照損失函數(shù)分類
- 1.1基于表征學(xué)習(xí)的方法
- 1.2基于度量學(xué)習(xí)的方法
- 1.3表征學(xué)習(xí)與度量學(xué)習(xí)的對比
- 2.按照研究方向分類
- 2.1基于區(qū)域的方法
- 2.2基于注意力機制的方法
- 2.3基于姿勢分類的方法
- 2.4基于生成對抗網(wǎng)絡(luò)的方法
- 3.各種方法rank-1與mAP對比
- 四、基于圖像的行人重識別常見數(shù)據(jù)集
- 五、參考文獻
基于圖像的行人重識別
一、表征學(xué)習(xí)方法
基于特征描述的方法關(guān)注如何找到較好的描述行人外貌特征的模型。
1.淺層視覺特征
顏色與紋理等是淺層視覺特征描述圖像的主要手段。基本上都是將圖像劃分成多個區(qū)域,對每個區(qū)域提取多種不同的底層視覺特征,組合后得到魯棒性更好的特征表示形式。最常用的就是顏色直方圖,多數(shù)情況下行人的衣服顏色結(jié)構(gòu)簡單,因此顏色表示是有效的特征,通常用RGB、HSV直方圖表示。把RGB空間的圖像轉(zhuǎn)化成HSL和YUV顏色空間,觀察對數(shù)顏色空間中目標像素值的分布,顏色特征在不同光照或角度等行人識別的不適環(huán)境中具有一定的不變性。形狀特征如方向梯度直方圖(HOG)以及局部特征,如局部不變特征–尺度不變特征變換(SIFT),SURF和Covariance描述子ELF方法中,結(jié)合RGB、YUV顏色空間的顏色直方圖,具有旋轉(zhuǎn)不變性的Schmid和Gabor濾波器計算紋理直方圖。還有局部二值模式(LBP)、Gabor濾波器、共生矩陣等。其中中國科學(xué)院自動化所模式識別國家重點實驗室廖勝才副研究員等在《Person Re-identification by Local Maximal Occurrence Representation and Metric Learning》中提出了LOMO+XQDA的行人重識別方法,在VIPeR,GRID,CUHK01和CUHK03四個數(shù)據(jù)集上均提高了在當(dāng)時(2015.05.07)四個數(shù)據(jù)集上的RANK-1準確率。
2.中層視覺特征(語義屬性)
中層視覺特征(語義屬性)就是如是否攜帶包、是否戴眼鏡、頭發(fā)長短顏色等信息。相同的行人在不同視頻拍攝下語義屬性很少變化,具體是使用SVM定義行人圖像的語義情況。語義屬性可以結(jié)合屬性權(quán)值與淺層特征集合,最終描述行人圖像。
3.深層視覺特征
特征的選擇技術(shù)對行人重識別的識別率的性能進行提升,如Fisher向量編碼;提取顏色或紋理直方圖,預(yù)先定義塊或條紋形狀的圖像區(qū)域;或者編碼區(qū)域特征描述符來建立高級視覺特征。受到多視角行為識別研究和Fisher向量編碼的影響,一種捕獲軟矩陣的方法,即DynFV特征和捕獲步態(tài)和移動軌跡的Fisher向量編碼的密集短軌跡時間金字塔特征被提出。Fisher向量編碼方法是首先用來解決大尺度圖像分類的方法,也能改善行為識別的性能。Karanam等對行人的n幅圖像的每個圖像分成6個水平條帶,在每個條帶上計算紋理和顏色直方圖。在YUV、白化的RGB顏色空間計算直方圖建立顏色描述符,并用LFDA降維。T.Matsukawa等提出GOG,把一幅圖像分成水平條帶和局部塊,每個條帶用一個高斯分布建模。每個條帶看作一系列這樣的高斯分布,然后用一個單一的高斯分布總體表示。GOG特征提取的方法好表現(xiàn)在用像素級特征的一個局部高斯分布來描述全局顏色和紋理分布,并且GOG是局部顏色和紋理結(jié)構(gòu)的分層模型,可以從一個人的衣服的某些部分得到。
此外,深度學(xué)習(xí)也被應(yīng)用于行人重識別的特征提取中,在AlexNet-Finetune中,開始在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的基于AlexNet結(jié)構(gòu)的CNN,并用這個數(shù)據(jù)集對數(shù)據(jù)進行微調(diào)。在微調(diào)過程中,不修改卷積層的權(quán)重,訓(xùn)練后兩個全連接層。McLaughlin等采用了類似的方法,對圖像提取顏色和光流特征,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)處理得到高層表征,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)捕捉時間信息,然后池化得到序列特征。T.Xiao等對來自各個領(lǐng)域的數(shù)據(jù)訓(xùn)練出同一個卷積神經(jīng)網(wǎng)絡(luò)(CNN),有些神經(jīng)元學(xué)習(xí)各個領(lǐng)域共享的表征,而其他的神經(jīng)元對特定的某個區(qū)域有效,得到魯棒的CNN特征表示。
4.多種特征結(jié)合
多特征組合往往會取得好的識別效果。有的研究將圖像外表特征和姿態(tài)特征相結(jié)合解決圖像拍攝視角不同給圖像識別帶來的困難。有的采用多種特征表示圖像并進行相似度計算,對計算得到的相似得分進行融合,實現(xiàn)圖像識別。有的研究結(jié)合圖像視覺特征和部分標記信息生成圖像表示向量在此基礎(chǔ)上實現(xiàn)更準確的圖像識別。有的研究結(jié)合不完整文字描述信息提出類似技術(shù)。。有的研究提出一種新的圖像特征融合方法通過組合帶重疊的條塊加權(quán)直方圖特征和顏色名描述特征采用KISSME度量方法實現(xiàn)圖像識別。有的研究將來自于HSV顏色空間的多個通道顏色、紋理、空間結(jié)構(gòu)等不同底層特征進行融合實現(xiàn)圖像識別。有的研究通過多屬性融合和多分類器集成提高行人識別精度。有的研究提出一種基于圖的多特征描述融合方法并通過圖優(yōu)化學(xué)習(xí)一次性學(xué)習(xí)檢測圖像和畫廊所有圖像的相似度。有的研究抽取多種底層特征采用不同的度量方法并實現(xiàn)多度量方法的優(yōu)化集成。有的研究通過超圖融合有效利用現(xiàn)有多個圖像描述特征,超圖可同時獲取識別對象間的成對和高階關(guān)聯(lián)通過超圖優(yōu)化獲得檢測圖像和畫廊圖像間的相似性。有的研究抽取多層次圖像描述特征以便獲得圖像更多的視覺判別線索和隱含的空間結(jié)構(gòu)。有的研究同時抽取圖像的底層和中間層特征計算相似得分并提出一種加權(quán)方法融合各種模式。有的研究綜合分析了圖像特征抽取與描述算法提出基于空間金字塔的統(tǒng)計特征抽取框架在此基礎(chǔ)上綜合評估了各種特征抽取方法和融合策略。
二、度量學(xué)習(xí)方法
基于度量學(xué)習(xí)的方法關(guān)注如何找到有效的行人特征相似度的度量準則。
由于攝像機的視角、尺度、光照、服飾與姿態(tài)變化、分辨率不同以及存在遮擋,不同攝像頭間可能會失去連續(xù)的位置和運動信息,使用歐氏距離、巴氏距離等標準的距離度量來度量行人表觀特征的相似度不能獲得很好的重識別效果,因此,研究者們提出通過度量學(xué)習(xí)的方法。該方法獲得一個新的距離度量空間,使得同一行人不同圖像的特征距離小于與不同人的距離。距離度量學(xué)習(xí)方法一般是基于馬氏距離而進行。2002年,Xing等提出以馬氏距離為基礎(chǔ)的度量學(xué)習(xí)算法,根據(jù)樣本的類別標簽,將具有相同標簽的樣本組成正樣本對,反之組成負樣本對,并以此作為約束訓(xùn)練得到一個馬氏矩陣,通過這樣學(xué)習(xí)到的距離尺度變換,使得相同的人的特征距離減小,而不同的人特征距離增大,以此開創(chuàng)了行人重識別中距離度量學(xué)習(xí)的先河。
目前在行人重識別研究中有一些普遍用于比較的度量學(xué)習(xí)算法。Weinberger等提出LMNN算法,通過學(xué)習(xí)一種距離度量,使在一個新的轉(zhuǎn)換空間中,對于一個輸入的k個近鄰屬于相同的類別,而不同類別的樣本與輸入樣本保持一定大的距離。Dikmen等對LMNN進行改進提出LMNN-R方法,用所有樣本點的平均近鄰邊界來代替LMNN中不同樣本點所采用的各自近鄰邊界,相較于LMNN方法具有更強的約束效果。同一年,Guillaumin等基于概率論提出了LDML算法。LDML算法基于邏輯回歸的思想,使用S型函數(shù)來表示樣本對是否屬于等值約束的概率。Prosser等將重識別問題抽象為相對排序問題,提出Rank SVM學(xué)習(xí)到一個子空間,在這個子空間中相匹配的圖像有更高的排序。
Zheng等提出PRDC算法,相同人的圖像組成同類樣本對,不同行人目標之間組成異類樣本對,獲得度量函數(shù)對應(yīng)的系數(shù)矩陣,優(yōu)化目標函數(shù)使得同類樣本對之間的匹配距離小于異類樣本對之間的距離,對每一個樣本,選擇一個同類樣本和異類樣本與其形成三元組,在訓(xùn)練過程通過最小化異類樣本距離減去同類樣本距離的和,得到滿足約束的距離度量矩陣。算法的基本思想在于增加正確匹配之間會擁有較短距離的可能性。2013年,Zheng等在PRDC的基礎(chǔ)上提出了一種相對距離比較算法RDC,RDC采用Adaboost算法來減少對標注樣本的需求。
Kostinger等提出KISSME算法,認為所有相似樣本對和不相似樣本對的差向量均滿足一個高斯分布,因此可以通過相似和不相似訓(xùn)練樣本對分別大致計算出均值向量和協(xié)方差矩陣。給定兩個樣本組成的樣本對,作者分別計算該樣本對屬于相似樣本對的概率和該樣本屬于不相似樣本對的概率,并用其比值表示兩個樣本之間的距離,并把該距離變幻成馬氏距離的形式,而馬氏距離中的矩陣正好等于相似樣本對高斯分布協(xié)方差矩陣的逆減去不相似樣本對高斯分布協(xié)方差矩陣的逆。因此,該方法不要用迭代優(yōu)化過程,適合用于大尺度數(shù)據(jù)的距離度量學(xué)習(xí)。
Pedagadi等提出LFDA算法進行度量學(xué)習(xí),該方法在進行特征提取的時候,首先提取不同特征的主要成分,然后拼接成特征向量。在距離度量學(xué)習(xí)上,該方法考慮不是對所有樣本點都給予相同的權(quán)重,考慮到了局部樣本點,應(yīng)用局部Fisher判別分析方法為降維的特征提供有識別能力的空間,提高度量學(xué)習(xí)的識別率。
Liao等提出了XQDA算法,這是KISSME算法在多場景下的推廣。XQDA算法對多場景的數(shù)據(jù)進行學(xué)習(xí),獲得原有樣本的一個子空間,同時學(xué)習(xí)一個與子空間對應(yīng)的距離度量函數(shù),該距離度量函數(shù)分別用來度量同類樣本和非同類樣本。
三、深度學(xué)習(xí)方法
深度學(xué)習(xí)方法中
根據(jù)訓(xùn)練損失函數(shù)的不同可以分為基于表征學(xué)習(xí)的方法和基于度量學(xué)習(xí)的方法。
根據(jù)方法原理不同,可以將近幾年行人重識別的研究分為區(qū)域(region)、注意力(attention)、姿勢(pose)和生成對抗性網(wǎng)絡(luò)(GAN)四類方法。下面分別從基于表征學(xué)習(xí)的方法、基于度量學(xué)習(xí)的方法和四類研究熱點進行介紹。
1.按照損失函數(shù)分類
1.1基于表征學(xué)習(xí)的方法
雖然行人重識別的最終目標是為了學(xué)習(xí)出兩張圖片之間的相似度,但是表征學(xué)習(xí)的方法并沒有直接在訓(xùn)練網(wǎng)絡(luò)的時候考慮圖片間的相似度,而把行人重識別任務(wù)當(dāng)做分類問題或者驗證問題來看待。這類方法的特點就是網(wǎng)絡(luò)的最后一層全連接層輸出的并不是最終使用的圖像特征向量,而是經(jīng)過一個Softmax激活函數(shù)來計算表征學(xué)習(xí)損失,前一層(倒數(shù)第二層)FC層通常為特征向量層。具體言之,分類問題是指利用行人的ID或者屬性等作為訓(xùn)練標簽來訓(xùn)練模型,每次只需要輸入一張圖片;驗證問題是指輸入一對(兩張)行人圖片,讓網(wǎng)絡(luò)來學(xué)習(xí)這兩張圖片是否屬于同一個行人。分類網(wǎng)絡(luò)常用的兩種損失分別是行人ID損失和屬性損失。IDE網(wǎng)絡(luò)將每一個行人當(dāng)做分類問題的一個類別,用行人的ID作為訓(xùn)練數(shù)據(jù)的標簽來訓(xùn)練CNN網(wǎng)絡(luò),這個網(wǎng)絡(luò)損失被稱為ID損失。IDE網(wǎng)絡(luò)是行人重識別領(lǐng)域非常重要的baseline基準。后來部分研究者認為,光靠行人的ID信息不足以學(xué)習(xí)出一個泛化能力足夠強的模型。因此,他們利用了額外標注的行人圖片的屬性信息,例如性別、頭發(fā)、衣著等屬性,通過引入行人屬性標簽計算屬性損失。訓(xùn)練好的網(wǎng)絡(luò)不但要準確地預(yù)測出行人ID,還要預(yù)測出各項行人屬性,這大大增加了網(wǎng)絡(luò)的泛化能力。通過結(jié)合ID損失和屬性損失能夠提高網(wǎng)絡(luò)的泛化能力。驗證網(wǎng)絡(luò)是另外一種常用于行人重識別任務(wù)的表征學(xué)習(xí)方法。和分類網(wǎng)絡(luò)不同之處在于,驗證網(wǎng)絡(luò)每次需要輸入兩張圖片,這兩張圖片經(jīng)過一個共享的CNN,將網(wǎng)絡(luò)輸出的兩個特征向量融合起來,輸入到一個只有兩個神經(jīng)元的FC層,來預(yù)測這兩幅圖片是否屬于同一個行人。因此,驗證網(wǎng)絡(luò)本質(zhì)上是一個多輸入單輸出的二分類網(wǎng)絡(luò)。通常,僅僅使用驗證損失訓(xùn)練網(wǎng)絡(luò)是非常低效的,所以驗證損失會與ID損失一起使用來訓(xùn)練網(wǎng)絡(luò)。
表征學(xué)習(xí)可以近似看作為學(xué)習(xí)樣本在特征空間的分界面。
1.2基于度量學(xué)習(xí)的方法
度量學(xué)習(xí)不同于表征學(xué)習(xí),度量學(xué)習(xí)旨在通過網(wǎng)絡(luò)學(xué)習(xí)出兩張圖片的相似度。在行人重識別問題上,表現(xiàn)為同一行人的不同圖片間的相似度大于不同行人的不同圖片。具體為,定義一個映射f(x):RF→RD,將圖片從原始域映射到特征域,之后再定義一個距離度量函數(shù)D(x,y):RD×RD→R,來計算兩個特征向量之間的距離。最后通過最小化網(wǎng)絡(luò)的度量損失,來尋找一個最優(yōu)的映射f(x),使得相同行人兩張圖片(正樣本對)的距離盡可能小,不同行人兩張圖片(負樣本對)的距離盡可能大。而這個映射f(x),就是我們訓(xùn)練得到的深度卷積網(wǎng)絡(luò)。首先,假如有兩張輸入圖片I1和I2,通過網(wǎng)絡(luò)的前向傳播我們可以得到它們(歸一化后)的特征向量fI1和fI2。之后我們需要定義一個距離度量函數(shù),這個函數(shù)并不唯一,只要能夠在特征空間描述特征向量的相似度或差異度的函數(shù)均可以作為距離度量函數(shù)。通常,為了實現(xiàn)端對端訓(xùn)練的網(wǎng)絡(luò),度量函數(shù)盡可能連續(xù)可導(dǎo),使用特征的歐氏距離或者余弦距離作為度量函數(shù),同時曼哈頓距離、漢明距離、馬氏距離等距離也可以作為度量學(xué)習(xí)的距離度量函數(shù)。常用的度量學(xué)習(xí)損失方法包括對比損失(Contrastive loss)、三元組損失(Triplet loss)、四元組損失(Quadruplet loss)。對比損失用于訓(xùn)練孿生網(wǎng)絡(luò)。三元組損失是一種被廣泛應(yīng)用的度量學(xué)習(xí)損失,三元組損失需要三張輸入圖片。和對比損失不同,一個輸入的三元組包括一對正樣本對和一對負樣本對。三張圖片分別命名為固定圖片a,正樣本圖片p和負樣本圖片n。圖片a和圖片p為一對正樣本對,圖片a和圖片n為一對負樣本對。四元組損失是三元組損失的另一個改進版本,四元組需要四張輸入圖片,和三元組不同的是多了一張負樣本圖片。即四張圖片為固定圖片a,正樣本圖片p,負樣本圖片n1和負樣本圖片n2。其中n1和n2是兩張不同行人ID的圖片。這些方法在計算度量損失時,樣本對都是從訓(xùn)練集中隨機挑選。隨機挑選樣本對的方法可能經(jīng)常挑選出一些容易識別的樣本對組成訓(xùn)練批次,使得網(wǎng)絡(luò)泛化能力受限。為此,部分學(xué)者提出了難樣本采樣的方法,來挑選出難樣本對訓(xùn)練網(wǎng)絡(luò)。常用的思路是挑選出一個訓(xùn)練Batch中特征向量距離比較大(非常不像)的正樣本對和特征向量距離比較小(非常像)的負樣本對來訓(xùn)練網(wǎng)絡(luò)。難樣本采樣技術(shù)可以明顯改進度量學(xué)習(xí)方法的性能,加快網(wǎng)絡(luò)的收斂,并且可以很方便地在原有度量學(xué)習(xí)方法上進行擴展,是目前廣泛采用的一種技術(shù)。
度量學(xué)習(xí)可以近似看作為樣本在特征空間進行聚類。度量學(xué)習(xí)和表征學(xué)習(xí)相比,優(yōu)勢在于網(wǎng)絡(luò)末尾不需要接一個分類的全連接層,因此對于訓(xùn)練集的行人ID數(shù)量不敏感,可以應(yīng)用于訓(xùn)練超大規(guī)模數(shù)據(jù)集的網(wǎng)絡(luò)。總體而言,度量學(xué)習(xí)比表征學(xué)習(xí)使用的更加廣泛,性能表現(xiàn)也略微優(yōu)于表征學(xué)習(xí)。但是目前行人重識別的數(shù)據(jù)集規(guī)模還依然有限,表征學(xué)習(xí)的方法也依然得到使用。同時,融合度量學(xué)習(xí)和表征學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的思路也在逐漸變得流行。
1.3表征學(xué)習(xí)與度量學(xué)習(xí)的對比
表征學(xué)習(xí)的優(yōu)點在于數(shù)據(jù)集量不大的時候收斂容易,模型訓(xùn)練魯棒性強,訓(xùn)練時間短。然而表征學(xué)習(xí)是將每一個ID的行人圖片當(dāng)做一個類別,當(dāng)ID數(shù)量增加到百萬、千萬甚至更多的時候,網(wǎng)絡(luò)最后一層是一個維度非常高的全連接層,使得網(wǎng)絡(luò)參數(shù)量巨大并且收斂困難。
由于直接計算特征之間的距離,度量學(xué)習(xí)的優(yōu)點在于可以很方便地擴展到新的數(shù)據(jù)集,不需要根據(jù)ID數(shù)量來調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu),此外也可以非常好地適應(yīng)ID數(shù)目巨大的訓(xùn)練數(shù)據(jù)。然而,度量學(xué)習(xí)相對來說收斂困難,需要比較豐富的訓(xùn)練經(jīng)驗來調(diào)整網(wǎng)絡(luò)參數(shù),另外收斂訓(xùn)練時間也比表征學(xué)習(xí)要長。
表征學(xué)習(xí)和度量學(xué)習(xí)擁有各自的優(yōu)缺點,目前學(xué)術(shù)界和工業(yè)界逐漸開始聯(lián)合兩種學(xué)習(xí)損失。聯(lián)合的方式也比較直接,在傳統(tǒng)度量學(xué)習(xí)方法的基礎(chǔ)上,在特征層后面再添加一個全連接層進行ID分類學(xué)習(xí)。網(wǎng)絡(luò)同時優(yōu)化表征學(xué)習(xí)損失和度量學(xué)習(xí)損失,來共同優(yōu)化特征層。
2.按照研究方向分類
2.1基于區(qū)域的方法
基于區(qū)域的方法將行人圖像分成水平條紋或者幾個均勻的部分,可以有效的觀察各個分區(qū)的差異值;可優(yōu)化內(nèi)部一致性,以便更好的提取顏色和紋理特征;結(jié)合卷積神經(jīng)網(wǎng)絡(luò)使模型具有學(xué)習(xí)的能力;對于部分遮擋和姿勢小規(guī)模的變化具有魯棒性;但是這類方法對于遮擋和姿勢不對齊等問題還存在大的挑戰(zhàn),對于行人圖像姿勢的大幅度變化還有待提高。
基于區(qū)域的方法大致可以分為水平條紋分區(qū)、局部特征與局部全局特征協(xié)同三種。
水平條紋分區(qū):由于圖像的像素不穩(wěn)定,故需要一個有效的表示來對行人進行特征提取和匹配。2014年Yi等人提出了深度量度學(xué)習(xí)方法(DML),此方法是受到孿生神經(jīng)網(wǎng)絡(luò)的啟發(fā),用孿生卷積神經(jīng)網(wǎng)絡(luò)、將目標行人圖像強行分成三個大的部分來評估兩圖像的相似性,此方法從理論上說,應(yīng)該是歸類于基于部件的方法,但是深入觀察,發(fā)現(xiàn)與基于條紋的方法也有相似之處。在此之前也有一些較好的量度學(xué)習(xí)方法,比如2012年Kostinger等人驗證了KISSME方法比同類方法效果略優(yōu);Zheng等人提出相對距離比較(RDC)模型,并在三個公開的數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明相對距離比較(RDC)明顯優(yōu)于當(dāng)下流行的其它模型。多次實驗還發(fā)現(xiàn)新的相對距離比較(RDC)模型對外觀和視覺效果更好,更具魯棒性,同時減少了模型的過度擬合性。在后續(xù)工作中Tao等人又在Zheng等人的基礎(chǔ)上進行了優(yōu)化和擴展。深度量度學(xué)習(xí)(DML)較前面幾個方法優(yōu)勢在于模型中學(xué)習(xí)的多通道濾波器可以同時檢測紋理和顏色特征,明顯比傳統(tǒng)方法中的簡單融合更合理,也使得識別過程更具靈活性。
局部特征:早期的一些研究會假設(shè)幾何和光照等因素的變化,并且可以從樣本中學(xué)習(xí)模型參數(shù)。2014年Li等人提出一種新的濾波器配對神經(jīng)網(wǎng)絡(luò)(FPNN)模型來進行行人重識別。文獻中提出的濾波器配對神經(jīng)網(wǎng)絡(luò),利用濾波器和最大分組層來學(xué)習(xí)光度變換。此模型較深度量度學(xué)習(xí)更細致,把行人分成更多小塊來計算相似性,在深度神經(jīng)網(wǎng)絡(luò)下統(tǒng)一完成未對準、遮擋和光度變化等問題的處理,使識別通道的各個部件聯(lián)合起來工作,提高了識別的靈活性。許多研究想通過改進原來的方法來提高行人的識別效率,然而不少識別方法中的視覺特征表示是手動的,但手動的方法容易失去空間信息導(dǎo)致辨別率下降,使用基于貼片的局部特征可以適當(dāng)?shù)奶岣弑鎰e率,但是沒有根本的解決問題,要更好解決問題還是要求模型有從數(shù)據(jù)中學(xué)習(xí)的能力。
局部全局特征協(xié)同:前人利用深度學(xué)習(xí)的優(yōu)勢,使得行人重識別技術(shù)逐漸完善,現(xiàn)階段還是要著力于如何降低外界因素對行人重識別的影響和加強局部特征之間的聯(lián)系。2017年Yao等人提出部分損失網(wǎng)絡(luò)(PL-Net)的深度學(xué)習(xí)的方法。文獻提出只看全局特征是局限的,所以把目標人物分成幾個部分來進行表示,但沒有考慮幾個局部特征之間的聯(lián)系和不對齊,依然沒有根本解決問題。2017年Zhang等人基于部件的方法提出了對齊識別(Aligned Reid)模型,實現(xiàn)了局部特征和全局特征協(xié)同工作。
2.2基于注意力機制的方法
針對行人的臉部是模糊的,可以考慮從行人身體上其它比較特別的局部特征入手。此類方法對于行人的遮擋和分辨率不高等問題有一定的幫助,但是在識別的過程中有可能丟失更重要的數(shù)據(jù)信息,導(dǎo)致識別效率不高。
在實際情況中,行人姿勢復(fù)雜,劃分的邊界框不一定能夠適應(yīng)所有的行人,實現(xiàn)起來和理想狀態(tài)總有一定的差距,就算用復(fù)雜的匹配技術(shù)也不一定能夠得到理想的結(jié)果。針對此問題,2017年Zhao等人受到注意力模型的啟發(fā)提出了部分對齊(Part-Aligned)方法。主要步驟是,把在匹配的過程中有區(qū)別的局部進行檢測。先計算局部的表示,最后匯總各個部分之間的相似性。文章中提出的局部對齊特征表示提取器,也是一個深度神經(jīng)網(wǎng)絡(luò),是由完全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)組成,實驗得出較好的結(jié)果。通過研究者們分析得出,雖然在卷積神經(jīng)網(wǎng)絡(luò)的貢獻下,結(jié)果有明顯的提高,但還是存在一些識別死角。例如對細粒度綜合特征的行人識別,沒有得到充分的解決。故2017年Liu等人基于注意力神經(jīng)網(wǎng)絡(luò),提出一種對細粒度特征識別有優(yōu)勢的HydraPlus-Net(HPnet)網(wǎng)絡(luò)模型。它主要是通過將多層的注意力圖以多方向地反饋到不同的層,從而達到識別目的。之前提到遮擋、背景雜波和行人姿勢的大幅度形變等客觀因素引起的問題依然存在。在檢測過程中,為提高實驗效果,研究者們針對這些客觀因素引起的復(fù)雜問題提出許多行之有效的方法。如自動檢測的行人檢測框,此類基于注意力識別的方法模型,可以解決一定的遮擋和背景雜波等問題。還有一些思路是想通過選擇注意力行人檢測框來解決遮擋等問題,主流的方法是局部斑塊校準匹配和顯著性加權(quán)。2018年,在原來研究成果的基礎(chǔ)上,受注意力神經(jīng)網(wǎng)絡(luò)啟發(fā),Li等人提出了注意力融合卷積神經(jīng)網(wǎng)絡(luò)(HA-CNN)模型,用于硬區(qū)域和軟像素聯(lián)合學(xué)習(xí),同時優(yōu)化特征表示,從而達到優(yōu)化圖像未對準情況的行人識別。在最近的研究中就遮擋的問題又有了新的成就。2018年Li等提出了一種新的時空注意力模型,此模型可以自動的發(fā)現(xiàn)行人身體的各個特殊部位。利用多個空間注意力模型提取每個圖像幀的有用部位信息,并且通過時間注意力模型整合輸出,允許從所有幀中提取可利用的部位信息,對遮擋和錯位等問題有一定的改善,并且在三大數(shù)據(jù)集上進行評估,實驗結(jié)果超過了部分先進的方法。
2.3基于姿勢分類的方法
基于姿勢的方法大多是從全局和局部特征出發(fā)來緩解姿勢變化,利用全局圖像的完整性與不同的局部部分相結(jié)合來學(xué)習(xí)特征表示,此類方法一定程度上可以解決因姿勢變化引起的行人特征形變問題。
最先提出基于姿勢的工作是Spindel Net。近期基于姿勢的行人識別方法,在該問題上也取得了階段性的成果。2017年Su等人為解決此類問題,提出了一種姿勢驅(qū)動的深度卷積(PDC)模型,此模型改進了常規(guī)的特征提取和匹配模型。首先是特征嵌入子網(wǎng)(FEN),實現(xiàn)的功能是,利用人體姿勢信息,將身體全局圖像轉(zhuǎn)換為包含規(guī)范化部分區(qū)域的圖像,再通過全局特征和不同局部特征相結(jié)合學(xué)習(xí)強大的特征表示。為了進行特征匹配還設(shè)計了特征加權(quán)子網(wǎng)(PWN)。實驗操作中首先是將姿勢的信息嵌入到結(jié)構(gòu)化網(wǎng)絡(luò)當(dāng)中,然后生成modified結(jié)構(gòu)圖像,最后是對這個結(jié)構(gòu)圖像進行識別。實驗在三個常用的數(shù)據(jù)集上得到驗證,故得出結(jié)論考慮額外姿勢線索可以提高Rank-1準確率。有研究提出Date Augment的方法,主要是通過引入存在遮擋的姿勢的樣本庫,再結(jié)合GAN生成多姿態(tài)的樣本標簽,用于輔助后期的訓(xùn)練。但是訓(xùn)練GAN生成的樣本數(shù)據(jù)集因辨識度不高對訓(xùn)練模型幫助不大,其中還提出了一種姿態(tài)遷移的行人重識別框架來提高實驗結(jié)果。有些研究強調(diào)姿勢和嵌入,如2018年Sarfraz等就是基于姿勢和嵌入提出一種行之有效姿勢敏感嵌入(PSE)的方法。此方法結(jié)合人細致(如人的關(guān)節(jié)等)和粗略的姿勢(全局的人像)信息來學(xué)習(xí)嵌入。
2.4基于生成對抗網(wǎng)絡(luò)的方法
此類方法大多數(shù)是通過改進GAN 來增強數(shù)據(jù)集,從而減少因域間隙引起的模型過度擬合性問題。一般會結(jié)合上述類型的方法,一起完成識別過程。從實驗結(jié)果來看確實部分增強了數(shù)據(jù)集,但是整體的識別效率還有待提高。
在以上行人重識別工作中,利用深度學(xué)習(xí)很好地解決遮擋和不對齊等問題。但是通過對各個方法在數(shù)據(jù)集上的表現(xiàn)進行分析時發(fā)現(xiàn),部分方法在某個數(shù)據(jù)集上表現(xiàn)較好,卻在另外一個數(shù)據(jù)集上訓(xùn)練可能就沒有那么好的實驗結(jié)果。像這樣因為訓(xùn)練數(shù)據(jù)集的改變引起的實驗效果變化,很可能是模型的過度擬合導(dǎo)致的。解決此類問題,可以從擴大數(shù)據(jù)集和增加數(shù)據(jù)多樣性方面著手。故2017年zheng等利用生成對抗性網(wǎng)絡(luò)來生成更多模擬的數(shù)據(jù),從實驗結(jié)果來看,模型對數(shù)據(jù)集的過度依賴確實得到部分的優(yōu)化,但是數(shù)據(jù)集生成的樣本存在辨識度不高和有些復(fù)雜的圖像出現(xiàn)了扭曲等問題,與真實圖像差距較大。針對以上問題Liu等人提出了一種姿態(tài)遷移的行人重識別框架。在傳統(tǒng)GAN辨別器的基礎(chǔ)上增加一個引導(dǎo)子網(wǎng)絡(luò),使得網(wǎng)絡(luò)能夠生成更具代表性的行人重識別樣本。更近一步的研究是2018年Zhong等人提出的CamStyle,主要是利用CycleGAN和標簽平滑正則化(LSR)來改善模型在訓(xùn)練中生成扭曲圖像和產(chǎn)生噪聲的問題,改進幅度可達到17%左右,但是對生成的數(shù)據(jù)集進行分析時發(fā)現(xiàn),該論文中的方法只是學(xué)習(xí)了攝像機的風(fēng)格(色調(diào)),沒有對行人的姿勢進行處理。對行人姿勢處理較好的是Zhu等人提出的姿勢轉(zhuǎn)移對抗性網(wǎng)絡(luò),將給定的行人姿勢轉(zhuǎn)換成目標行人的姿勢,從而實現(xiàn)生成新的行人姿勢。轉(zhuǎn)換姿勢的還有Song等人的研究。傳統(tǒng)的GAN模型生成的模擬數(shù)據(jù)集之間仍然存在差異性,導(dǎo)致不同的數(shù)據(jù)集,在相同的模型上訓(xùn)練出來的結(jié)果稍有偏差,也叫域間隙。2018年Wei等人也是針對域間隙的問題提出了人員轉(zhuǎn)移生成對抗性網(wǎng)絡(luò),來彌補領(lǐng)域差距。同時還提供了一個叫做MSMT17的新數(shù)據(jù)集,此數(shù)據(jù)集增加許多重要的功能,并且提供許多較復(fù)雜的圖像。結(jié)合此數(shù)據(jù)集進行實驗,結(jié)果表明遷移生成對抗性網(wǎng)絡(luò)確實縮小了域間隙。
3.各種方法rank-1與mAP對比
下表中所有技術(shù)組合在Market1501數(shù)據(jù)集上進行性能比較。
上表來自《基于深度學(xué)習(xí)的行人重識別研究進展》[40]《基于深度學(xué)習(xí)的行人重識別研究進展》^{[40]}《基于深度學(xué)習(xí)的行人重識別研究進展》[40]
四、基于圖像的行人重識別常見數(shù)據(jù)集
首先解釋single-shot和multi-shot的區(qū)別。single-shot是指每個行人在每個場景中只有一幅圖像;multi-shot是指每個行人在每個場景中對應(yīng)若干圖像序列。
公布于2007年。拍攝場景-大學(xué)校園。由2個攝像頭拍攝,包含632個行人的1264張圖片。圖片分辨率統(tǒng)一為128X48。single-shot。該數(shù)據(jù)集圖像分辨率較低,識別難度大。
公布于2009年。拍攝場景-機場大廳。由2個攝像頭拍攝,包含個119行人的476張圖片。圖片未統(tǒng)一分辨率。multi-shot。
公布于2009年。拍攝場景-地鐵站。由8個攝像頭拍攝,包含個1025行人的1275張圖片。圖片未統(tǒng)一分辨率。multi-shot。
公布于2011年。拍攝場景-購物中心。由2個攝像頭拍攝,包含72個行人的1220張圖片。圖片未統(tǒng)一分辨率。multi-shot。
公布于2012年。拍攝場景-大學(xué)校園。由2個攝像頭拍攝,包含971個行人的3884張圖片。圖片分辨率統(tǒng)一為160X60。multi-shot。
公布于2013年。拍攝場景-大學(xué)校園。由10個(5對)攝像頭拍攝,包含1816個行人的7264張圖片。圖片分辨率統(tǒng)一為160X60。multi-shot。
公布于2014年。拍攝場景-大學(xué)校園。由10個(5對)攝像頭拍攝,包含1467個行人的13164張圖片。圖片未統(tǒng)一分辨率。multi-shot。
公布于2014年。拍攝場景-公共大廳。由4個攝像頭(2室內(nèi)2室外)拍攝,包含43個行人的6920張圖片。圖片分辨率統(tǒng)一為128X64。multi-shot。
公布于年。拍攝場景-大學(xué)校園。由6個攝像頭拍攝,包含1501個行人的32217張圖片。圖片分辨率統(tǒng)一為128X64。multi-shot。
五、參考文獻
[1] 宋婉茹, 趙晴晴, 陳昌紅, 等. 行人重識別研究綜述[J]. 智能系統(tǒng)學(xué)報, 2017, 12(06): 770-780.
[2] 張化祥, 劉麗. 行人重識別研究綜述[J]. 山東師范大學(xué)學(xué)報, 2018, 33(04): 379-387.
[3] S. Liao,Y. Hu, Xiangyu Zhu and S. Z. Li, Person re-identification by Local Maximal Occurrence representation and metric learning[C]. CVPR, 2015: 2197-2206.
[4] MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. ICCV, 2012: 413–422.
[5] CHEN D, YUAN Z, HUA G, 等. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]. CVPR, 2015: 1565–1573.
[6] GOU M, ZHANG X, RATES-BORRAS A, 等. Person re-identification in appearance impaired scenarios[C]. British Machine Vision Conference, 2016: 1–48.
[7] KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]. ICCV, 2015: 4516–4524.
[8] SUGIYAMA. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35-61.
[9] MATSUKAWA T, OKABE T, SUZUKI E, 等. Hierarchical gaussian descriptor for person re-identification[C]. CVPR, 2016: 1363–1372.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems, 2012: 1097–1105.
[11] MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]. CVPR, 2012: 51–58.
[12] XIAO T, LI H, OUYANG W, 等. Learning deep feature representations with domain guided dropout for person re-identification[C]. CVPR, 2016: 1249–1258.
[13] WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(1): 207–244.
[14] DIKMEN M, AKBAS E, HUANG T S, 等. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010,6495: 501-512.
[15] GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you? Metric learning approaches for face identification[C]. ICCV, 2009: 498–505.
[16] ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]. CVPR, 2011: 649–656.
[17] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.
[18] YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]. CVPR, 2014: 34–39.
[19] LIU H, MA B, QIN L, 等. Set-label modeling and deep metric learning on person re-identification[J]. Neurocomputing, 2015(151): 1283–1292.
[20] LI W, ZHAO R, XIAO T, 等. Deepreid: Deep filter pairing neural network for person re-identification[C]. CVPR, 2014: 152–159.
[21] DING S, LIN L, WANG G, 等. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993-3003.
[22] PEDAGADI S, ORWELL J, VELASTIN S, 等. Local fisher discriminant analysis for pedestrian re-identification[C]. CVPR, 2013: 3318–3325.
[23] KOESTINGER M, HIRZER M, WOHLHART P, 等. Large scale metric learning from equivalence constraint[C].CVPR , 2012: 2288–2295.
[24] ENGEL C, BAUMGARTNE P, HOLZMANN M, 等. Person re-identification by support vector ranking[C]. British Machine Vision Conference, 2010: 1–11.
[25] SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]. 15th ACM International Conference on Multimedia, 2007: 357–360.
[28] BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]. Asian Conference on Computer Vision, 2014: 633–649.
[29] SIMONNET D, LEWANDOWSKI M, VELASTIN S.A, 等. Re-identification of pedestrians in crowds using dynamic time warping[C]. ICCV, 2012: 423–432.
[30] MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.
[31] WANG T, GONG S G, ZHU X, 等. Person re-identification by video ranking[C]. European Conference on Computer Vision, 2014: 688–703.
[32] KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]. British Machine Vision Conference, British, 2008: 152–159.
[34] YOU J, WU A, LI X, 等. Top-push video-based person re-identification[C]. CVPR, 2016: 1345–1353.
[35] YAN Y, NI B, SONG Z, 等. Person Re-identification via recurrent feature aggregation[C]. European Conference on Computer Vision. Springer International Publishing, 2016: 701–716.
[36] ZHOU Z,HUANG Y, WANG W, 等. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]. CVPR, 2017: 143–147.
[37] LIU H, JIE Z, JAYASHREE K, 等. Video-based person re-identification with accumulative motion context[J]. IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.
[38] Zhang X , Luo H , Fan X , 等. AlignedReID: Surpassing Human-Level Performance in Person
Re-Identification[J]. 2017.
[39] WEI L, ZHANG S, GAO W, 等. Person transfer GAN to bridge domain gap for person re-identification[C]. CVPR, 2018: 79-88.
[40] 羅浩, 姜偉, 范星, 張思朋. 基于深度學(xué)習(xí)的行人重識別研究進展. 自動化學(xué)報, 2019, 45(11): 2032-2049
總結(jié)
以上是生活随笔為你收集整理的行人重识别(3)——行人重识别(基于图像)综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 洛谷题库P5735距离函数C语言,扩展有
- 下一篇: 使用Golang开发手游服务器的感想