3.2 目标点检测-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
| 3.1 目標(biāo)定位 | 回到目錄 | 3.3 目標(biāo)檢測(cè) |
目標(biāo)點(diǎn)檢測(cè) (Landmark Detection)
上節(jié)課,我們講了如何利用神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)象定位,即通過(guò)輸出四個(gè)參數(shù)值 bx、by、bhb_x、b_y、b_hbx?、by?、bh? 和 bwb_wbw? 給出圖片中對(duì)象的邊界框。更概括地說(shuō),神經(jīng)網(wǎng)絡(luò)可以通過(guò)輸出圖片上特征點(diǎn)的 (x,y)(x,y)(x,y) 坐標(biāo)來(lái)實(shí)現(xiàn)對(duì)目標(biāo)特征的識(shí)別,我們看幾個(gè)例子。
假設(shè)你正在構(gòu)建一個(gè)人臉識(shí)別應(yīng)用,出于某種原因,你希望算法可以給出眼角的具體位置。眼角坐標(biāo)為 (x,yx,yx,y) ,你可以讓神經(jīng)網(wǎng)絡(luò)的最后一層多輸出兩個(gè)數(shù)字 lxl_xlx? 和 lyl_yly? ,作為眼角的坐標(biāo)值。如果你想知道兩只眼睛的四個(gè)眼角的具體位置,那么從左到右,依次用四個(gè)特征點(diǎn)來(lái)表示這四個(gè)眼角。對(duì)神經(jīng)網(wǎng)絡(luò)稍做些修改,輸出第一個(gè)特征點(diǎn)( l1x,l1yl_{1x},l_{1y}l1x?,l1y? ),第二個(gè)特征點(diǎn)(l2x,l2yl_{2x},l_{2y}l2x?,l2y?),依此類推,這四個(gè)臉部特征點(diǎn)的位置就可以通過(guò)神經(jīng)網(wǎng)絡(luò)輸出了。
也許除了這四個(gè)特征點(diǎn),你還想得到更多的特征點(diǎn)輸出值,這些(圖中眼眶上的紅色特征點(diǎn))都是眼睛的特征點(diǎn),你還可以根據(jù)嘴部的關(guān)鍵點(diǎn)輸出值來(lái)確定嘴的形狀,從而判斷人物是在微笑還是皺眉,也可以提取鼻子周圍的關(guān)鍵特征點(diǎn)。為了便于說(shuō)明,你可以設(shè)定特征點(diǎn)的個(gè)數(shù),假設(shè)臉部有64個(gè)特征點(diǎn),有些點(diǎn)甚至可以幫助你定義臉部輪廓或下頜輪廓。選定特征點(diǎn)個(gè)數(shù),并生成包含這些特征點(diǎn)的標(biāo)簽訓(xùn)練集,然后利用神經(jīng)網(wǎng)絡(luò)輸出臉部關(guān)鍵特征點(diǎn)的位置。
具體做法是,準(zhǔn)備一個(gè)卷積網(wǎng)絡(luò)和一些特征集,將人臉圖片輸入卷積網(wǎng)絡(luò),輸出1或0,1表示有人臉,0表示沒(méi)有人臉,然后輸出( l1x,l1yl_{1x},l_{1y}l1x?,l1y? )……直到( l64x,l64yl_{64x},l_{64y}l64x?,l64y? )。這里我用 lll 代表一個(gè)特征,這里有129個(gè)輸出單元,其中1表示圖片中有人臉,因?yàn)橛?4個(gè)特征,64×2=128,所以最終輸出128+1=129個(gè)單元,由此實(shí)現(xiàn)對(duì)圖片的人臉檢測(cè)和定位。這只是一個(gè)識(shí)別臉部表情的基本構(gòu)造模塊,如果你玩過(guò)Snapchat或其它娛樂(lè)類應(yīng)用,你應(yīng)該對(duì)AR(增強(qiáng)現(xiàn)實(shí))過(guò)濾器多少有些了解,Snapchat過(guò)濾器實(shí)現(xiàn)了在臉上畫皇冠和其他一些特殊效果。檢測(cè)臉部特征也是計(jì)算機(jī)圖形效果的一個(gè)關(guān)鍵構(gòu)造模塊,比如實(shí)現(xiàn)臉部扭曲,頭戴皇冠等等。當(dāng)然為了構(gòu)建這樣的網(wǎng)絡(luò),你需要準(zhǔn)備一個(gè)標(biāo)簽訓(xùn)練集,也就是圖片 xxx 和 yyy 標(biāo)簽的集合,這些點(diǎn)都是人為辛苦標(biāo)注的。
最后一個(gè)例子,如果你對(duì)人體姿態(tài)檢測(cè)感興趣,你還可以定義一些關(guān)鍵特征點(diǎn),如胸部的中點(diǎn),左肩,左肘,腰等等。然后通過(guò)神經(jīng)網(wǎng)絡(luò)標(biāo)注人物姿態(tài)的關(guān)鍵特征點(diǎn),再輸出這些標(biāo)注過(guò)的特征點(diǎn),就相當(dāng)于輸出了人物的姿態(tài)動(dòng)作。當(dāng)然,要實(shí)現(xiàn)這個(gè)功能,你需要設(shè)定這些關(guān)鍵特征點(diǎn),從胸部中心點(diǎn)( l1x,l1yl_{1x},l_{1y}l1x?,l1y? )一直往下,直到( l32x,l32yl_{32x},l_{32y}l32x?,l32y? )。
一旦了解如何用二維坐標(biāo)系定義人物姿態(tài),操作起來(lái)就相當(dāng)簡(jiǎn)單了,批量添加輸出單元,用以輸出要識(shí)別的各個(gè)特征點(diǎn)( x,yx,yx,y )的坐標(biāo)值。要明確一點(diǎn),特征點(diǎn)1的特性在所有圖片中必須保持一致,就好比,特征點(diǎn)1始終是右眼的外眼角,特征點(diǎn)2是右眼的內(nèi)眼角,特征點(diǎn)3是左眼內(nèi)眼角,特征點(diǎn)4是左眼外眼角等等。所以標(biāo)簽在所有圖片中必須保持一致,假如你雇用他人或自己標(biāo)記了一個(gè)足夠大的數(shù)據(jù)集,那么神經(jīng)網(wǎng)絡(luò)便可以輸出上述所有特征點(diǎn),你可以利用它們實(shí)現(xiàn)其他有趣的效果,比如判斷人物的動(dòng)作姿態(tài),識(shí)別圖片中的人物表情等等。
以上就是特征點(diǎn)檢測(cè)的內(nèi)容,下節(jié)課我們將利用這些構(gòu)造模塊來(lái)構(gòu)建對(duì)象檢測(cè)算法。
課程板書
| 3.1 目標(biāo)定位 | 回到目錄 | 3.3 目標(biāo)檢測(cè) |
總結(jié)
以上是生活随笔為你收集整理的3.2 目标点检测-深度学习第四课《卷积神经网络》-Stanford吴恩达教授的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 3.1 目标定位-深度学习第四课《卷积神
- 下一篇: 3.3 目标检测-深度学习第四课《卷积神