综述2 | 基于深度学习的行人重识别
文章目錄
- 1. 概念
- 2. 有監(jiān)督學(xué)習(xí)
- 2.1 基于圖像的有監(jiān)督學(xué)習(xí)
- 2.2 基于視頻的有監(jiān)督學(xué)習(xí)
- 3. 半監(jiān)督學(xué)習(xí)
- 4. 弱監(jiān)督學(xué)習(xí)
- 5. 無監(jiān)督學(xué)習(xí)
- 6. 生成對(duì)抗網(wǎng)絡(luò)
- 7. 注意力機(jī)制
- 8. 評(píng)價(jià)指標(biāo)
- 9. 損失函數(shù)
- 10. 未來研究方向
1. 概念
- 行人重識(shí)別深度學(xué)習(xí)模型相關(guān)研究主要聚焦于如何提取更具判別性的特征表示。
2. 有監(jiān)督學(xué)習(xí)
- 有監(jiān)督學(xué)習(xí)能充分利用標(biāo)注數(shù)據(jù),提取有較強(qiáng)判別能力的特征表示,因而能在行人重識(shí)別問題中取得較高的準(zhǔn)確率。
2.1 基于圖像的有監(jiān)督學(xué)習(xí)
- 基于圖像的行人重識(shí)別研究,圖像特征提取方式可分為全局特征提取和局部特征提取兩大類。
- 全局特征提取:一般做法是將完整圖像輸入卷積神經(jīng)網(wǎng)絡(luò)( convolutional neural network,CNN) 進(jìn)行提取,在目標(biāo)遮擋時(shí)使用全局特征提取難以取得理想效果。
- 局部特征提取:是指提取目標(biāo)圖像中更為重要的局部區(qū)域特征。傳統(tǒng)低級(jí)視覺特征提取方法主要提取圖像邊緣信息,基于深度學(xué)習(xí)的局部特征提取方法則包括行人圖像分割、基于姿態(tài)提取局部特征等。
2.2 基于視頻的有監(jiān)督學(xué)習(xí)
- 視頻數(shù)據(jù)的優(yōu)點(diǎn): ① 圖像序列可以捕捉與行人運(yùn)動(dòng)相關(guān)的時(shí)序信息( 步態(tài)、形體變化規(guī)律等) ; ② 圖像序列中豐富的視角信息允許建立更好的人物外觀模型,而且大量樣本會(huì)使模型訓(xùn)練更容易。當(dāng)然也面臨其他一些挑戰(zhàn),如在可變長(zhǎng)度或不同幀速率的圖像序列上,如何構(gòu)建時(shí)序模型、如何進(jìn)行特征聚合。
- 充分利用圖像序列的時(shí)序信息:循環(huán)特征聚合網(wǎng)絡(luò)、門控循環(huán)網(wǎng)絡(luò)、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)等。
- 圖像序列特征聚合:池化是一種常用的圖像序列特征聚合方法,具體做法是從視頻圖像序列每一幀中提取一個(gè)特征向量,然后對(duì)所有幀中提取的特征向量進(jìn)行池化操作。
3. 半監(jiān)督學(xué)習(xí)
- 概念:半監(jiān)督學(xué)習(xí)( semi-supervised learning,SSL) 是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法,旨在利用少量標(biāo)注數(shù)據(jù)提取有效特征,以獲得與有監(jiān)督模型接近甚至相同的結(jié)果。
- 問題:如何通過少量標(biāo)注的行人圖像提取有判別性的特征表示,并為大量未標(biāo)注數(shù)據(jù)打上準(zhǔn)確的偽標(biāo)簽以進(jìn)一步優(yōu)化模型的特征提取,是半監(jiān)督學(xué)習(xí)目前要解決的問題。
- 補(bǔ)充:對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行有效采樣的方法尤為重要,常用的半監(jiān)督學(xué)習(xí)方法有字典學(xué)習(xí)、協(xié)同訓(xùn)練等。
4. 弱監(jiān)督學(xué)習(xí)
- 概念:弱監(jiān)督學(xué)習(xí)( weakly supervised learning) 是一個(gè)總括性的術(shù)語,Zhou將弱監(jiān)督學(xué)習(xí)分為不完整、不確切和不準(zhǔn)確三種。利用弱監(jiān)督學(xué)習(xí)減輕數(shù)據(jù)標(biāo)注代價(jià),同時(shí)提高模型泛化能力。
- 特點(diǎn):不同于半監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)模型常用的圖像級(jí)標(biāo)簽,弱監(jiān)督通常采用包級(jí)標(biāo)簽,即對(duì)給定的多個(gè)小的圖像集作標(biāo)注,且標(biāo)注信息不需要十分精準(zhǔn),即通常說的弱標(biāo)注。與完全標(biāo)注數(shù)據(jù)相比,弱標(biāo)注數(shù)據(jù)會(huì)缺乏每個(gè)人的詳細(xì)特征,但它提供了行人之間的特征依賴性,因而有助于解決跨攝像頭的行人重識(shí)別任務(wù)。
5. 無監(jiān)督學(xué)習(xí)
- 概念:無監(jiān)督學(xué)習(xí)( unsupervised learning)主要通過學(xué)習(xí)未標(biāo)注樣本來解決行人重識(shí)別問題。由于缺失標(biāo)注信息,此類模型在學(xué)習(xí)行人特征表示時(shí)面臨更大挑戰(zhàn)。
- 遷移學(xué)習(xí)( transfer learning) 也是一種常用的無監(jiān)督學(xué)習(xí)方法,具體做法是將基于其他數(shù)據(jù)集訓(xùn)練的模型遷移至缺少標(biāo)簽信息的目標(biāo)數(shù)據(jù)集,以解決行人重識(shí)別問題。
6. 生成對(duì)抗網(wǎng)絡(luò)
- 概念:生成對(duì)抗網(wǎng)絡(luò)( generative adversarial network,GAN) 可以通過生成器與判別器間的博弈產(chǎn)生較為真實(shí)的樣本,擴(kuò)充訓(xùn)練數(shù)據(jù)集,因而能有效解決行人重識(shí)別面臨的樣本數(shù)量不足問題。
- 特點(diǎn):行人重識(shí)別首先要解決在低分辨率圖像中獲取有效行人特征表示這一難題。Wang 等人將此類任務(wù)命名為 尺度自適應(yīng)低分辨率行人重識(shí)別( SALR-REID) 并提出了級(jí)聯(lián)超分辨率生成對(duì)抗網(wǎng)絡(luò)( CSR-GAN) ,將各種低分辨率行人圖像有效轉(zhuǎn)變?yōu)榻y(tǒng)一的高分辨率圖像。
7. 注意力機(jī)制
- 概念:注意力機(jī)制的本質(zhì)是模仿人類視覺信號(hào)處理機(jī)制,即選擇性地觀察一部分,同時(shí)忽略其他可見信息。
- 分類:針對(duì)行人重識(shí)別問題,根據(jù)關(guān)注重點(diǎn)的不同,可以將注意力機(jī)制分為時(shí)間注意力機(jī)制與空間注意力機(jī)制兩種。時(shí)間注意力機(jī)制主要關(guān)注輸入圖像序列的哪幅圖像更重要,而空間注意力機(jī)制則主要關(guān)注某幅具體圖像中哪部分更關(guān)鍵,可以獲得更有區(qū)分力的特征信息。
- 特點(diǎn):從本質(zhì)上講,時(shí)間注意力機(jī)制更適用于基于視頻的行人重識(shí)別問題。Li 等人提出了一種時(shí)空注意力模型,使用多個(gè)空間注意力模型和多樣化的正則項(xiàng)來確保各個(gè)空間注意力模型學(xué)習(xí)身體的不同部分,在此基礎(chǔ)上通過時(shí)間注意力模型將序列中的圖像特征進(jìn)行融合,很好地解決了視頻序列中行人遮擋以及未對(duì)齊等問題。
8. 評(píng)價(jià)指標(biāo)
行人重識(shí)別任務(wù)常用的評(píng)價(jià)指標(biāo)包括:累計(jì)匹配曲線(CMC) 和平均精度均值( MAP) 等。
- AP 指的是對(duì)給定查詢實(shí)例,模型所預(yù)測(cè)的正例 top1 ~ top10 中 P 值的平均值,AP只計(jì)算所有返回的判斷正確的圖像,AP=該圖像在所有正確圖像的排序 / 該圖像在所有返回圖像中的排序,求和,除以返回正確的圖像的個(gè)數(shù);
- MAP 是對(duì)所有類別 AP 值的平均值。
- AP 衡量的是模型在每個(gè)類別上的性能好壞,MAP 衡量的是模型在所有類別的平均性能,其值均以百分比形式呈現(xiàn),越接近 100% ,表示重識(shí)別效果越好。
9. 損失函數(shù)
- 通常是分類損失+ Triplet loss(目標(biāo)其實(shí)就是為了讓特征提取的更好)
- Triplet loss需要準(zhǔn)備3份數(shù)據(jù),其中Anchor代表當(dāng)前人的圖像數(shù)據(jù),Positive代表該人的另一張圖像數(shù)據(jù),Negative代表其他人的一個(gè)圖像數(shù)據(jù)。我們希望A和P相似性比較近,A和N相似性比較遠(yuǎn)。
- Triplet loss: L(A,P,N) = max(||f(A)-f( P)|| - ||f(A)-f(N)|| + a, 0)。只有前面的式子大于0才進(jìn)行學(xué)習(xí)。其中,a叫做margin,間隔,表示AP之間要比AN之間最少相差多少。
- 實(shí)際應(yīng)用中,最多的是hard negative方法,選擇樣本的時(shí)候讓AP約等于AN(P選最不像的,N選最像的),給網(wǎng)絡(luò)一些挑戰(zhàn)。
10. 未來研究方向
特征表達(dá)能力的提升。提高行人重識(shí)別性能的核心依然是提取更加有效的特征表示。① 由全局特征提取到局部特征提取的轉(zhuǎn)變對(duì)模型的提升作用非常明顯,因此如何高效地提取有效的局部特征表示仍然是今后的研究熱點(diǎn);② 可以利用時(shí)序等附加語義信息來構(gòu)建更加細(xì)節(jié)的特征表示。③ 構(gòu)建數(shù)量更大、質(zhì)量更好的數(shù)據(jù)集,幫助模型提取更加有效的特征表示也是可行的,GAN 的存在也為解決行人重識(shí)別面臨的數(shù)據(jù)集規(guī)模不夠以及圖像分辨率不高等問題提供了新思路。
半監(jiān)督、弱監(jiān)督學(xué)習(xí)模型。未來基于半監(jiān)督學(xué)習(xí)的模型應(yīng)致力于如何有效利用更少的標(biāo)注數(shù)據(jù)與龐大的未標(biāo)注數(shù)據(jù)來獲得更有效的行人特征表示;弱監(jiān)督學(xué)習(xí)減輕了數(shù)據(jù)集標(biāo)注代價(jià),但需要模型從較為模糊的標(biāo)簽信息中對(duì)行人進(jìn)行有效分類。弱標(biāo)注數(shù)據(jù)中包含了行人間隱含的關(guān)聯(lián)信息,因此提取圖像特征聯(lián)合挖掘人際關(guān)系也可以更加高效地解決行人重識(shí)別問題。
無監(jiān)督行人重識(shí)別模型。無監(jiān)督學(xué)習(xí)模型無須標(biāo)注數(shù)據(jù),模型不知道如何學(xué)習(xí)判別性的特征表示。如何為行人圖像尋找一個(gè)有效的特征映射空間是無監(jiān)督學(xué)習(xí)模型重點(diǎn)關(guān)注的研究方向。遷移學(xué)習(xí)為無監(jiān)督學(xué)習(xí)提供了一個(gè)好的思路,現(xiàn)階段遷移學(xué)習(xí)模型還難以適應(yīng)目標(biāo)域中的不同場(chǎng)景,克服場(chǎng)景變換導(dǎo)致的領(lǐng)域適應(yīng)問題是有價(jià)值的研究方向。
行人檢測(cè)與行人重識(shí)別結(jié)合。單獨(dú)的行人重識(shí)別模型并不能滿足應(yīng)用需求,因此結(jié)合行人檢測(cè)與行人重識(shí)別具有很大的現(xiàn)實(shí)意義與研究?jī)r(jià)值。
?
?
?
參考鏈接:https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDLAST2020&filename=JSYJ202011004&v=Dhm5rO5ZeYh4WIAcLlVGEbIzhqpnosJJLnGBMsz%25mmd2Btwfddd94lN9bjRpJFWfOANg5
總結(jié)
以上是生活随笔為你收集整理的综述2 | 基于深度学习的行人重识别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 行人重识别 度量学习
- 下一篇: 数据结构-链表:对链表进行初始化、增删改