国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例
生活随笔
收集整理的這篇文章主要介紹了
国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 2. 特征設計與提取過程q
- 2.1 局部特征--SIFT
- 2.2局部特征HOG
- 3. 特征匯聚或變換h
- 3.1BoVW視覺詞袋模型
- 3.2PCA
- 4.以人臉識別為例
- 4.1 主動統計模型
- 4.1.1ASM(active shape model)
- 4.1.2 AAM主動表觀模型
- 4.2人臉特征提取和比對
- 特征臉
- Fisherfaces方法--本質(Fisher線性判別分析)=PCA+FLD
- 貝葉斯人臉識別
- LBP
- 計算機視覺的基本任務
- 距離估計
- 距離估計是指計算輸入圖像中的每個點距離攝像機的物理距離,該功能對于導盲系統顯然是至關重要的
- 目標檢測、跟蹤、定位
- ? 在圖像視頻中發現感興趣的目標,并給出其位置和區域。對導盲系統來說,各類車輛、行人、紅綠燈、交通標示等都是需關注的目標
- 前景分割和物體分割
- 將圖像視頻中前景物體所占據的區域或輪廓勾勒出來。為了導盲之目的,將視野中的車輛和斑馬線區域勾勒出來顯然是必要的,當然,盲道的分割以及可行走區域的分割更加重要
- 目標分類和識別
- 為圖像視頻中出現的目標分配其所屬類別的標簽。這里類別的概念是非常豐富的,例如畫面中人的男女、老少、種族等,視野內車輛的款式乃至型號,甚至是對面走來的人是誰(認識與否)等等
- 場景分類與識別
- 根據圖像視頻內容對拍攝環境進行分類,如室內、室外、山景、海景、街景等等
- 場景文字檢測與識別
- 特別是在城市環境中,場景中的各種文字對導盲顯然是非常重要的,例如道路名、綠燈倒計時秒數、商店名稱等等
- 事件監測與識別
- ? 對視頻中的人、物和場景等進行分析,識別人的行為或正在發生的事件(特別是異常事件)
- 距離估計
- 定義
- 解讀wh3個0~255之間的數字中蘊藏的、人類可理解的內容(邊界,區域,物體,事件,意義)
- 數學建模
- 多數計算機視覺問題可以建模為廣義的函數擬合問題
- 學習一個以θ\thetaθ為參數的函數F,使得y=Fθ(x)y=F_\theta(x)y=Fθ?(x)
- 其中y大致有兩大類:
- ? 類別標簽:有限種類的離散型變量
- ? 續變量或向量或矩陣:連續的變量或向量
- 多數計算機視覺問題可以建模為廣義的函數擬合問題
- 方法
- 圖像預處理過程p
- 用于實現目標對齊、幾何歸一化、亮度或顏色矯正、圖像復原(如去模糊)、圖像增強等處理,從而提高數據的一致性,該過程一般是人為設定的。
- 特征設計與提取過程
- 其功能是從預處理后的圖像中提取描述圖像內容的特征,這些特征可能反應圖像的低層(如邊緣)、中層(如部件)或高層(如場景)特性,一般也是依據專家知識人工設計的
- 該步驟一般并不需要訓練數據進行學習
- 特征匯聚或變換t
- 其功能是對前步提取的局部特征(一般是向量)z,進行統計匯聚或降維處理,從而得到維度更低、更利于后續分類或回歸過程的特征z′。
- 該過程一般通過專家設計的統計建模方法實現,通常需要訓練數據進行學習(與下一個步驟類似)
- 分類器或回歸器函數h的設計與訓練
y=Fθ(x)=h(t(q(p(x))))y=F_\theta(x)=h(t(q(p(x))))y=Fθ?(x)=h(t(q(p(x)))) - 缺點——淺層視覺模型
- 帶有強烈的“人工設計”色彩:不僅
- 依賴于專家知識進行步驟的劃分,
- 更依賴專家知識選擇和設計各步驟的函數
- 帶有強烈的“人工設計”色彩:不僅
2. 特征設計與提取過程q
- 設計某種流程來提取專家覺得“好”的特征
- 分類
- 局部特征
- 提取局部細節,主要建模邊緣、梯度、紋理基元等
- 手段:濾波器+統計(直方圖)
- 典型的局部特征:SIFT, HOG, LBP, Gabor, SURF, DAISY, BRIEF, ORB, BRISK
- 全局特征
- 顏色直方圖(統計各個顏色出現的頻度
- GIST(對圖像場景的整體空間形狀屬性建模
- 局部特征
2.1 局部特征–SIFT
- 尺度不變特征變換,
- SIFT: Scale-Invariant Feature Transform
- ? 由David Lowe于1999年提出,其發表的ICCV1999和IJCV2004兩篇文章被谷歌引用超過65000次
- SIFT: Scale-Invariant Feature Transform
- ? 概況
- 自動發現一定數量的關鍵興趣點
- ? 特征點數是不確定的,與圖像內容有關
- 自適應確定合適的局部鄰域范圍
-
- ? 與特征點尺度有關
- 提取方向直方圖作為描述特征
- ? 特征維度通常固定為128維
- ? 對尺度和旋轉等變化具有良好不變性
- 自動發現一定數量的關鍵興趣點
- 計算步驟
- 尺度空間上的極值檢測
- 目標:識別潛在的、對尺度和旋轉不變的候選興趣點
- 做法:使用高斯差分(DoG)金字塔近似LoG算子,形成尺度空間用以計算極值點
- 不僅要考慮圖像域中空間域上的極值,也要考慮尺度域中相鄰尺度上的極值點
- 即:極值點是DoG尺度空間的本層及上下層的若干鄰域點中的最大/小值
- 關鍵點篩選和精確定位
- why?上述極值點都未必是穩定可靠的特征點,并且為之也未必精確
- 篩選:去除部分對比度低的關鍵點,以及去除那些響應大但不穩定的邊緣點
- 精確定位:采用函數擬合法,通過求解擬合曲線的極值點來得到位置和尺度
- why?上述極值點都未必是穩定可靠的特征點,并且為之也未必精確
- 確定特征點主方向
- ? 為實現旋轉不變性,需確定每個特征點的主方向
- 所謂主方向,是指該特征點鄰域像素梯度方向的統計顯著方向
- ? 通過統計一定鄰域范圍內像素的梯度方向直方圖得到(參見上圖)
- ? 為準確計算主方向,可以10度為間隔構建直方圖
- 注:清晰起見,上圖示例的只是8個方向,即以45度為間隔
- ? 為實現旋轉不變性,需確定每個特征點的主方向
- ? 確定描述子采樣鄰域的范圍(由步驟2所得尺度決定)以獲得尺度不變性
-
? 用步驟3的主方向對該區域進行旋轉以對齊到主方向,獲得旋轉不變性
-
? 將旋轉后區域劃分為d×d個子區域(d通常取為4),在每個子區域內計算O個方向的梯度直方圖
- 與求主方向不同,這里通常取O為8,即每個方向區間為45°
- 故最終每個特征點的SIFT特征維度為4x4x8=128
SIFT講解視頻
-
2.2局部特征HOG
- 方向梯度直方圖
- 動機:SIFT僅在稀疏關鍵點鄰域內統計梯度特征(找關鍵點費勁
- 特點
- 也是統計局部梯度直方圖,但沒有關鍵點的概念
- 按不長滑動窗口直接在圖像上均勻采樣,局部區域統計方向,梯度直方圖
- 開啟了稠密特征描述子的先河
- 計算步驟
- 梯度計算
- 將每個像素點作為中心點位置,計算其梯度強度和方向
- 可以通過水平和豎直方向的濾波器核([-1, 0, +1]和[-1, 0, +1]T)實現
- 將圖像分塊(Block)
- 設定圖像塊大小,例如BxB個像素,然后在圖像上以一定的步長S滑動,滑動到每個位置得到一個BxB大小的圖像塊
- S一般小于B,所以圖像塊之間是有重疊的
- 分塊細分為Cell
- 將每個分塊(BxB)均勻細分為若干個更小的分塊,每個分塊稱為cell
- 假設每個cell大小為NxN像素, 則每個Block被劃分為(B/N)x(B/N)個Cell
- Cell內統計梯度強度加權的方向直方圖
- 以cell為基本統計單元計算方向直方圖,即
- 將cell中每個像素的梯度方向按照梯度強度加權的方式,映射到預設的M個方向桶(bin)中,從而形成cell的方向梯度直方圖H_c
- 拼接Block內所有Cell直方圖并歸一化
- 每個Block 內部所有cell的H_c直接拼接得到H_b
- 然后用L1-norm或L2-Norm對其進行歸一化處理,即得到該block的方向梯度直方圖
- 全圖HOG特征計算
- 將圖像中所有Block的特征串接起來, 即得到最終的圖像HOG特征
3. 特征匯聚或變換h
- 原因
`有效性(未充分考慮隨后的任務和目標 - 方法
- 特征匯聚
- 視覺詞袋模型(BoVW),Fisher向量(FV),和局部聚合向量(VLAD)
- 特征變換方法
- PCA,線性判別分析、流形學習
- 特征匯聚
3.1BoVW視覺詞袋模型
- 圖-文檔;局部特征-詞
- 計算過程
- ? 1. 圖像特征提取
- 理論上,用于BoVW方法的圖像特征可以是任意特征
- ? 既可以前述的稀疏關鍵點SIFT特征,也可以是稠密采樣的HOG特征
- ? 實踐中,128維的稀疏關鍵點SIFT特征是應用最廣泛的
- ? 2. 視覺詞典構建
- 用于文本處理的BoW基本單元是單詞(word)
- ? 單詞是確定的,很容易統計詞頻
- 面向計算機視覺的單詞應該是什么?
- ? 視覺局部特征幾乎不可能完全相同,需要首先構建視覺單詞,形成視覺詞典(Visual Vocabulary),以便像BOW中一樣通過統計詞頻形成詞袋
- ? 視覺單詞可以理解為一些經常出現的視覺特征,需要從一個訓練集中學習而來
- 假設訓練集中有M幅圖像,對第i幅圖像提取SIFT特征,設得到Ni個關鍵點及其每個關鍵點的128維SIFT描述子
- 將所有訓練圖像中的N=Σi=1MNiN=\Sigma_{i=1}^MN_iN=Σi=1M?Ni?個SIFT特征進行聚類
- 例如用K-Means,高斯混合模型等,得到K個聚類中心
- 每個聚類中心是一個128維的向量Wk,即所謂視覺單詞
- 所有K個視覺單詞的集合即形成視覺詞典D={Wk:k=1,...,K}D=\{W_k:k=1,...,K\}D={Wk?:k=1,...,K}
- 用于文本處理的BoW基本單元是單詞(word)
- 給定任意圖像
- 計算其SIFT特征,得到l個128位的SIFT的描述子{xj}
- 將這些特征分別映射到視覺詞典中的某個視覺單詞 {Wj}
- 統計每個視覺單詞出現的頻次,可以得到一個K維的直方圖向量H
- 優點
- 從L*128的不定長表示->K維定長表示
- 便于度量不同圖像間的距離,有利于后續圖像檢測分類等任務
- 應用
- 以圖搜圖SIFT+BoVW+Hashing(二值化)用于圖像檢索任務
- 圖像分類 SIFT+BoVW+SVM用于圖像分類任務
3.2PCA
- 目標
- 降維
- 理論:特征值的大小對應于特征向量所描述的方向上方差的大小==》所以從w中去掉那些對應較小特征值的特征向量,因為在信息丟失最小的情況下降維
- 誤差:x與重構的x’的誤差為:Σj=1nλj?Σj=1dλj=Σj=1+dnλj\Sigma_{j=1}^n\lambda_j-\Sigma_{j=1}^ d\lambda_j=\Sigma_{j=1+d}^n\lambda_jΣj=1n?λj??Σj=1d?λj?=Σj=1+dn?λj?
- 小結:
- ? 一種多元統計分析方法
- ? 變換后各維數據之間的相關性最小
- ? 最小均方誤差意義下的最佳變換
- ? 限定有效的參數空間范圍(在訓練集合對象變化論域下)
4.以人臉識別為例
- 面部特征點定位方法
- 可變形模版的方法(下巴檢測、眼睛嘴唇檢測)
4.1 主動統計模型
4.1.1ASM(active shape model)
- 人臉形狀表示(n個特征點形成的向量s
- 統計形狀模型
- 人工->S={s1,s2,…,sm}
- pca:bs=Ws′(s?sˉ)?b_s=W'_s(s-\bar{s})-bs?=Ws′?(s?sˉ)?
- 重構s=(ˉs)+Wsbs???改變bs,得到不同的人臉形狀(方向)s=\bar(s)+W_sb_s---改變bs,得到不同的人臉形狀(方向)s=(ˉ?s)+Ws?bs????改變bs,得到不同的人臉形狀(方向)
- ? 目標:求取最優的人臉形狀(特征點位置)
- 求取最優的bs參數,使得用bs重建的形狀最佳的匹配輸入圖像中人臉的形狀
- ? 思路
- 首先進行不夠可靠的局部特征點紋理匹配
- 然后通過全局形狀統計約束來對其進行規范化
- ? 方法(迭代優化
- 局部紋理模型:每個特征點自己找自己該去哪里
- ? 對每個特征點,在其法線鄰域內搜索最佳匹配局部紋理模型的點
- ? 局部紋理模型
- 法線方向的紋理梯度,稱為Profile
- 每個特征點的Profile模型都要在訓練階段統計而來
- ? 匹配方法
- 在法線上逐點計算(馬氏)距離
- 選擇距離最小的候選點作為匹配點
- 全局統計形狀模型(PCA)約束:糾正不靠譜的(瞎跑的)特征點
- 局部紋理模型:每個特征點自己找自己該去哪里
- 缺點
- 實質上目標函數缺失
- 容易形成震蕩
4.1.2 AAM主動表觀模型
4.2人臉特征提取和比對
- 人臉存儲
- 幾何參數
- 亮度向量
- 特征臉
- 本質PCA or KLT(用于人臉提取特征問題)
- Wi-像臉?Wi是協方差矩陣的特征向量
- Fisherfaces方法–本質(Fisher線性判別分析)=PCA+FLD
- 尋找一種投影變換Y=WX
- 同一人更緊致,不同人更離散
- 類內離散度Sw
- 類間離散度Sb
- Sw?1SbW=WΛ目標函數:Wfld=argmaxW∣WTSBW∣∣WTSWW∣S_w^{-1}S_bW=W\Lambda\\目標函數:W_{fld}=argmax_W\frac{|W^TS_BW|}{|W^TS_WW|}Sw?1?Sb?W=WΛ目標函數:Wfld?=argmaxW?∣WTSW?W∣∣WTSB?W∣?
- 如果Sw是奇異的:正則化,Null-space
- FLD假設:所有類別具有相同的協方差分布(實際不是這樣的
- FLD的特征唯獨:最大為C-1(C類)
- 貝葉斯人臉識別
- ? 類內差(ΩI\Omega_IΩI?)類
- 相同個體的多幅圖象之間的差別,即包含了表情、不同光照條件、不同姿態等差別
- ? 類間差(ΩE\Omega_EΩE? )類
- 不同人的人臉圖象之間的差別,包含了身份變化的信息
- 相似度建模為Δ=I1?I2\Delta=I_1-I_2Δ=I1??I2?屬于類內差別的概率S(I1,I2)=P(Δ∈ΩI)=P(ΩI∣Δ)=P(Δ∣ΩI)P(ΩI)P(Δ∣ΩI)P(ΩI)+P(Δ∣ΩE)P(ΩE)若為正態分布:P(Δ∣ΩI)=N(Δ,ΣI)P(Δ∣ΩE)=N(Δ,ΣE)S(I_1,I_2)=P(\Delta \in \Omega_I)=P(\Omega_I|\Delta)\\=\frac{P(\Delta|\Omega_I)P(\Omega_I)}{P(\Delta|\Omega_I)P(\Omega_I)+P(\Delta|\Omega_E)P(\Omega_E)}\\若為正態分布:P(\Delta|\Omega_I)=N(\Delta,\Sigma_I)\\P(\Delta|\Omega_E)=N(\Delta,\Sigma_E)S(I1?,I2?)=P(Δ∈ΩI?)=P(ΩI?∣Δ)=P(Δ∣ΩI?)P(ΩI?)+P(Δ∣ΩE?)P(ΩE?)P(Δ∣ΩI?)P(ΩI?)?若為正態分布:P(Δ∣ΩI?)=N(Δ,ΣI?)P(Δ∣ΩE?)=N(Δ,ΣE?)
- ? 類內差(ΩI\Omega_IΩI?)類
- Tom-vs-pete:像誰就是誰
- LBP:local binary patterns(圖像=語言)
- Gabor+FLDA
特征臉
Fisherfaces方法–本質(Fisher線性判別分析)=PCA+FLD
貝葉斯人臉識別
LBP
- 建模圖像中的微模式類型
- 與中心點像素亮度上的大小關系
- 一種建模鄰域像素與中心像素亮度序關系的局部特征
- 3x3像素鄰域,中心像素和8-鄰域像素亮度大小關系
- ? 比中心像素更亮則賦1,否則賦0,這樣會有256種不同的模式
- 微模式類型可以類比語言中的word(單詞)
- ? 視覺單詞的詞頻統計作為不同人臉的特征表示
總結
以上是生活随笔為你收集整理的国科大prml15-基于浅层模型的计算机视觉--以人脸识别为例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能支撑马赛克战机理研究
- 下一篇: MongoDB:SpringBoot有关