人脸识别论文——发现微小的脸
論文簡(jiǎn)介
論文中文翻譯:《發(fā)現(xiàn)微小的臉》
論文名稱:《Finding Tiny Faces》
錄用日期:2017年4月15日
摘要
- 盡管在物體識(shí)別方面已經(jīng)取得了巨大的進(jìn)步,但仍然存在的一個(gè)開(kāi)放式挑戰(zhàn)是探測(cè)小物體。我們探討了在尋找小面孔的背景下的問(wèn)題的三個(gè)方面:尺度不變性的作用,圖像分辨率和上下文推理。雖然大多數(shù)識(shí)別方法的目標(biāo)是尺度不變,但識(shí)別3px高的人臉的線索與識(shí)別300px高的人臉的線索本質(zhì)上是不同的。我們采用不同的方法,訓(xùn)練不同尺度的探測(cè)器。為了保持效率,探測(cè)器采用多任務(wù)方式進(jìn)行訓(xùn)練:它們利用從單一(深度)特征層次的多個(gè)層中提取的特征。雖然訓(xùn)練用于大型物體的探測(cè)器很簡(jiǎn)單,但關(guān)鍵的挑戰(zhàn)仍然是訓(xùn)練用于小型物體的探測(cè)器。我們展示了上下文是至關(guān)重要的,并且定義了使用超大接受域的模板(其中99%的模板超出了感興趣的對(duì)象)。最后,我們探討了規(guī)模在預(yù)先訓(xùn)練的深度網(wǎng)絡(luò)中的作用,提供了將有限規(guī)模調(diào)整為相當(dāng)極端范圍的網(wǎng)絡(luò)進(jìn)行外推的方法。我們展示了大量基準(zhǔn)人臉數(shù)據(jù)集(FDDB和WIDER FACE)的最新結(jié)果。特別是,與現(xiàn)有技術(shù)在WIDER FACE上相比,我們的結(jié)果減少了2倍的誤差(我們的模型產(chǎn)生的AP為82%,而現(xiàn)有技術(shù)的范圍為29-64%)。
我們描述了一種探測(cè)器,通過(guò)使用新的尺度、分辨率和上下文特征來(lái)尋找小物體,它可以在報(bào)道的1000個(gè)當(dāng)前的面中找到大約800個(gè)面。檢測(cè)器的可信度由右邊的顏色條給出:你能自信地識(shí)別錯(cuò)誤嗎?
一、簡(jiǎn)介
- 盡管在物體識(shí)別方面已經(jīng)取得了巨大的進(jìn)步,但仍然存在的一個(gè)開(kāi)放式挑戰(zhàn)是探測(cè)小物體。我們從三個(gè)方面探討了這個(gè)問(wèn)題,在人臉檢測(cè)的背景下:尺度不變性、圖像分辨率和上下文推理的作用。尺度不變性是目前幾乎所有的識(shí)別和目標(biāo)檢測(cè)系統(tǒng)的基本屬性。但從實(shí)際角度來(lái)看,尺度不變性不適用于有限分辨率的傳感器:不可否認(rèn),識(shí)別300px高臉的線索與識(shí)別3px高臉的線索是不同的。
多任務(wù)尺度建模(Multi-task modeling of scales)
- 許多最近的目標(biāo)檢測(cè)工作利用尺度歸一化分類器(例如,掃描窗口檢測(cè)器運(yùn)行在圖像金字塔[5]或區(qū)域分類器運(yùn)行在“ROI”池圖像特征[7,18])。當(dāng)將區(qū)域調(diào)整為規(guī)范模板大小時(shí),我們會(huì)問(wèn)一個(gè)簡(jiǎn)單的問(wèn)題——模板的大小應(yīng)該是多少?一方面,我們想要一個(gè)能檢測(cè)小人臉的小模板;另一方面,我們想要一個(gè)可以利用細(xì)節(jié)特征(比如面部部分)來(lái)提高準(zhǔn)確性的大型模板。我們沒(méi)有采用“一刀切”的方法,而是**訓(xùn)練針對(duì)不同尺度(和寬高比)進(jìn)行調(diào)優(yōu)的獨(dú)立檢測(cè)器。**訓(xùn)練大量特定于規(guī)模的檢測(cè)器可能會(huì)缺少針對(duì)單個(gè)規(guī)模的訓(xùn)練數(shù)據(jù),并且在測(cè)試時(shí)運(yùn)行大量檢測(cè)器會(huì)導(dǎo)致效率低下。為了解決這兩個(gè)問(wèn)題,我們以多任務(wù)方式訓(xùn)練和運(yùn)行特定于規(guī)模的檢測(cè)器:它們利用在單個(gè)(深度)特性層次的多個(gè)層上定義的特性。雖然這種策略可以使探測(cè)器對(duì)大型物體具有較高的精度,但尋找小物體仍然是一項(xiàng)挑戰(zhàn)。
如何推廣訓(xùn)練前的網(wǎng)絡(luò)?(How to generalize pre-trained networks?)
- 對(duì)于尋找小物體的問(wèn)題,我們提供了另外兩個(gè)關(guān)鍵的見(jiàn)解。首先是分析如何最好地從預(yù)先訓(xùn)練的深度網(wǎng)絡(luò)中提取尺度不變的特征。我們演示了現(xiàn)有的網(wǎng)絡(luò)針對(duì)特定大小的對(duì)象進(jìn)行了調(diào)整(在預(yù)處理數(shù)據(jù)集如ImageNet中遇到)。為了將特征從這些網(wǎng)絡(luò)擴(kuò)展到新尺寸的對(duì)象,我們采用了一個(gè)簡(jiǎn)單的策略:通過(guò)插值和抽取在測(cè)試時(shí)間調(diào)整圖像的大小。當(dāng)許多識(shí)別系統(tǒng)通過(guò)處理圖像金字塔以“多分辨率”的方式應(yīng)用時(shí),我們發(fā)現(xiàn)對(duì)金字塔的最底層進(jìn)行插值對(duì)于尋找小物體[5]尤為重要。因此,我們最終的方法(圖2)是一種精細(xì)的尺度特定檢測(cè)器的混合,以一種尺度不變的方式使用(通過(guò)處理圖像金字塔來(lái)捕獲大尺度變化)。
捕捉尺度不變性的不同方法。傳統(tǒng)方法構(gòu)建一個(gè)單尺度模板,應(yīng)用于精細(xì)離散的圖像金字塔(a)。為了利用不同分辨率下的不同線索,我們可以為不同的對(duì)象尺度建立不同的檢測(cè)器(b)。這種方法可能在訓(xùn)練(或訓(xùn)練前)數(shù)據(jù)中很少觀察到的極端對(duì)象尺度上失敗。我們利用一個(gè)粗糙的圖像金字塔捕捉extreme scale ?的挑戰(zhàn)。最后,以提高性能的小臉上,我們額外的上下文模型,有效地實(shí)現(xiàn)為一個(gè)固定大小的接受域所有scale-specific模板(d)。我們定義模板在特征提取的多層深模型,這類似于中央凹描述符(e)。
如何最好地編碼上下文?(How best to encode context?)
- 從根本上來(lái)說(shuō),尋找小對(duì)象是一項(xiàng)挑戰(zhàn),因?yàn)閷?duì)象上幾乎沒(méi)有可以利用的信號(hào)。因此,**我們認(rèn)為圖像證據(jù)的使用必須超越客體范圍。這通常被稱為“上下文”。**在下圖中,我們提供了一個(gè)簡(jiǎn)單的人體實(shí)驗(yàn),用戶試圖分類真和假陽(yáng)性的面孔(如我們的檢測(cè)器所給出的)。
在左邊,我們想象一個(gè)大的和小的臉,有或沒(méi)有背景。人們不需要上下文就能識(shí)別大臉,而小臉如果沒(méi)有上下文就很難識(shí)別。我們?cè)谟疫呑隽艘粋€(gè)簡(jiǎn)單的人體實(shí)驗(yàn)來(lái)量化這一觀察結(jié)果,在這個(gè)實(shí)驗(yàn)中,用戶對(duì)我們提出的探測(cè)器的真陽(yáng)性和假陽(yáng)性面孔進(jìn)行分類。增加比例背景(將窗口放大3倍)對(duì)大面孔提供了一個(gè)小的改善,但對(duì)小面孔不夠。添加一個(gè)300像素的固定上下文窗口,大大減少了小人臉20%的錯(cuò)誤。這意味著環(huán)境應(yīng)該以不同規(guī)模的方式建模。我們使用巨大的接受野(大約300x300,黃色盒子的大小)的中央凹模板來(lái)操作這個(gè)觀察。
很明顯,人類需要環(huán)境來(lái)準(zhǔn)確地分類小臉。雖然這種觀察是相當(dāng)直觀的,并且在計(jì)算機(jī)視覺(jué)中得到了高度的探索[16,22],但眾所周知,很難量化地證明上下文在識(shí)別中的好處[4,6,23]。其中一個(gè)挑戰(zhàn)似乎是如何有效地編碼大圖像區(qū)域。我們證明了從多個(gè)層(也稱為“超列”特征[8,14])中提取的卷積深度特征是有效的“中央凹”描述符,可以捕獲大感受野的高分辨率細(xì)節(jié)和粗糙的低分辨率線索(圖2 (e))。圖5顯示,我們的中心凹描述符(從較低的卷積層中提取)的高分辨率成分對(duì)精確定位是至關(guān)重要的。
中心凹描述子是精確檢測(cè)小目標(biāo)的關(guān)鍵。小模板(top)在只有res4的情況下性能下降7%,在只有res5的情況下性能下降33%。相反,去除中央凹結(jié)構(gòu)并不會(huì)損害大模板(底部),這表明從底層的高分辨率是最有用的尋找小物體!
我們的貢獻(xiàn)(Our contribution)
- 我們提供了圖像分辨率、對(duì)象規(guī)模和空間背景的深入分析,以尋找小面孔。我們展示了大量基準(zhǔn)面部數(shù)據(jù)集(FDDB和WIDER face)的最新結(jié)果。特別是,與現(xiàn)有技術(shù)在WIDER FACE上相比,我們的結(jié)果將誤差降低了2倍(我們的模型產(chǎn)生的AP為82%,而現(xiàn)有技術(shù)的AP范圍為29-64%)。
相關(guān)工作(Related work)
標(biāo)度不變性(Scale-invariance)
- 絕大多數(shù)的識(shí)別管道關(guān)注于尺度不變表示,可以追溯到SIFT[15]。目前的檢測(cè)方法,如Faster RCNN[18],也認(rèn)同這一理念,通過(guò)ROI池或圖像金字塔[19]提取尺度不變特征。我們對(duì)尺度變異模板進(jìn)行了深入的探索,這些模板以前被提出用于行人檢測(cè)[17],有時(shí)在速度提高[3]的背景下。SSD[13]是一種基于深度特性的新技術(shù),它利用了可伸縮的模板。我們的工作不同于我們對(duì)微小物體檢測(cè)的背景的探索。
上下文(Context)
- 上下文是發(fā)現(xiàn)多個(gè)識(shí)別任務(wù)中顯示的小實(shí)例的關(guān)鍵。在目標(biāo)檢測(cè)中,[2]堆棧空間rnn (IRNN[11])模型在感興趣區(qū)域之外的上下文,顯示出改進(jìn)的小目標(biāo)檢測(cè)。在行人檢測(cè)中,[17]將地平面估計(jì)作為上下文特征,改進(jìn)了對(duì)小實(shí)例的檢測(cè)。在人臉檢測(cè)中,[28]同時(shí)對(duì)人臉和身體周?chē)腞OI特征進(jìn)行評(píng)分檢測(cè),顯著提高了整體性能。我們提議的工作以一種可變的方式(相對(duì)于[28])利用大型本地上下文(相對(duì)于全局上下文描述符[2,17])。我們證明了上下文對(duì)于尋找低分辨率的人臉是非常有用的。
多尺度表示(Multi-scale representation)
- 多尺度表示在許多識(shí)別任務(wù)中被證明是有用的。[8,14,1]表明,深度多尺度描述符(稱為“超列”)對(duì)于語(yǔ)義分割是很有用的。[2, 13]演示了這種模型在目標(biāo)檢測(cè)方面的改進(jìn)。[28]池多尺度ROI特征。我們的模型使用了“超列”特征,指出精細(xì)尺度特征對(duì)定位小對(duì)象最有用(第3.1節(jié)和下圖)。
RPN
- 從表面上看,我們的模型類似于為特定對(duì)象類訓(xùn)練的區(qū)域提議網(wǎng)絡(luò)(RPN),而不是一般的“objectness”提議生成器[18]。重要的區(qū)別在于,我們使用了中心凹描述符(通過(guò)多尺度特征實(shí)現(xiàn)),我們通過(guò)交叉驗(yàn)證選擇了一系列的對(duì)象大小和方面,我們的模型利用圖像金字塔來(lái)尋找極端尺度。特別是,我們發(fā)現(xiàn)小物體的方法是利用特定規(guī)模的探測(cè)器來(lái)調(diào)整插值圖像。如果沒(méi)有這些修改,小臉的性能會(huì)顯著下降10%以上(下表)。
三、探索上下文和解決方案(Exploring context and resolution)
- 在本節(jié)中,我們將對(duì)影響我們最終模型的問(wèn)題進(jìn)行探索性分析。為了構(gòu)建討論框架,我們問(wèn)以下簡(jiǎn)單的問(wèn)題:找到固定尺寸(25x20)的小面最好的方法是什么?通過(guò)顯式地分解出所需輸出的規(guī)模變化,我們可以探討上下文和規(guī)范模板大小的作用。直覺(jué)上,上下文對(duì)于尋找小臉是至關(guān)重要的。規(guī)范模板的大小似乎是一個(gè)奇怪的維度來(lái)探索-既然我們想找到大小為25x20的面,為什么定義一個(gè)任何大小不是25x20的模板呢?我們的分析給出了一個(gè)令人驚訝的答案,什么時(shí)候以及為什么應(yīng)該這樣做。為了更好地理解我們的分析的含義,在此過(guò)程中,我們還對(duì)一個(gè)大型物體提出了類似的問(wèn)題:找到固定尺寸(250x200)的大型面的最佳方法是什么?
Setup
- 我們探索了不同的策略來(lái)為固定大小(例如,25x20)的面構(gòu)建掃描窗口檢測(cè)器。我們對(duì)待固定大小的對(duì)象檢測(cè)作為一個(gè)二進(jìn)制的熱圖的預(yù)測(cè)問(wèn)題,在預(yù)測(cè)的熱圖像素位置(x, y)指定的信心fixedsize檢測(cè)集中在(x, y)。我們訓(xùn)練的熱圖預(yù)測(cè)使用一個(gè)完全卷積網(wǎng)絡(luò)(FCN)[14]定義在一個(gè)先進(jìn)的架構(gòu)ResNet[9]。我們利用ResNet-50對(duì)每個(gè)res-block的最后一層提取的多尺度特征(res2cx, res3dx, res4fx, res5cx)進(jìn)行了探索。今后我們將把這些稱為(res2, res3, res4, res5)特性。我們將在第5節(jié)中討論培訓(xùn)管道的其他細(xì)節(jié)。
3.1 上下文(Context)
- 圖4給出了上下文影響的分析,由用于熱圖預(yù)測(cè)的接受場(chǎng)(RF)的大小給出。回想一下,對(duì)于固定大小的檢測(cè)窗口,我們可以選擇使用與此窗口相比具有任意更小或更大接受域的特征進(jìn)行預(yù)測(cè)。因?yàn)楦邔拥木矸e特征往往有更大的接受域(例如,res4特征跨度291x291像素),較小的接受域需要使用較低層特征。我們看到了一些總體趨勢(shì)。添加上下文幾乎總是有幫助的,但最終為細(xì)小的面孔(超過(guò)300x300像素)添加額外的上下文是有害的。
建模額外的背景會(huì)有所幫助,特別是在尋找小面孔時(shí)。小面孔(18.9%)比大面孔(1.5%)的效果更好。有趣的是,對(duì)于小臉來(lái)說(shuō),較小的接受域效果更好,因?yàn)檎麄€(gè)臉都是可見(jiàn)的。綠色框代表實(shí)際的人臉大小,虛線框代表接受域與不同層次的特征相關(guān)(青色= res2,淺藍(lán)色= res3,深藍(lán)色= res4,黑色= res5)。圖5和圖7使用了相同的顏色。
我們驗(yàn)證了這是由于過(guò)度擬合(通過(guò)檢查訓(xùn)練和測(cè)試性能)。有趣的是,較小的接受域?qū)τ谛∧樃?#xff0c;因?yàn)檎麖埬樁际强梢?jiàn)的——如果只看鼻尖很難找到大臉。更重要的是,我們通過(guò)比較“緊密”RF(限制在對(duì)象范圍內(nèi))的性能與帶有附加上下文的最佳得分“松散”RF的性能來(lái)分析上下文的影響。小臉的正確率提高了18.9%,大臉的正確率提高了1.5%,這與我們的人類實(shí)驗(yàn)一致(這表明上下文對(duì)小實(shí)例最有用)。我們的結(jié)果表明,我們可以為具有相同接受域(尺寸為291x291)的不同大小的檢測(cè)器構(gòu)建多任務(wù)模板,這作為一個(gè)多通道熱圖預(yù)測(cè)問(wèn)題特別容易實(shí)現(xiàn)(其中每個(gè)尺度特定的通道和像素位置有自己的二進(jìn)制損失)
在圖5中,我們比較了有和沒(méi)有中央凹結(jié)構(gòu)的描述符,這表明我們的中央凹描述符的高分辨率成分對(duì)于小實(shí)例的準(zhǔn)確檢測(cè)是至關(guān)重要的。
3.2. Resolution
-
我們現(xiàn)在探討一個(gè)相當(dāng)奇怪的問(wèn)題。如果我們故意訓(xùn)練一個(gè)大小不同于要檢測(cè)的目標(biāo)對(duì)象的模板會(huì)怎樣?理論上,我們可以使用一個(gè)“中等”尺寸的模板(50x40)在一個(gè)2X上采樣(插值)的測(cè)試圖像上找到微笑的臉(25x20)。圖7實(shí)際上顯示了一個(gè)令人驚訝的結(jié)果,即這顯著地提高了性能,從69%提高到75%!對(duì)于大臉,我們問(wèn)相反的問(wèn)題:我們可以通過(guò)在測(cè)試圖像上運(yùn)行一個(gè)調(diào)優(yōu)為“中等”臉(125x100)的模板來(lái)找到大臉(250x200)嗎?再一次,我們看到了性能的顯著提高,從89%到94%!
在原始分辨率下建立模板不是最佳的。對(duì)于尋找小的(25x20)面,創(chuàng)建2倍分辨率的模板可以提高6.3%的整體精度;而對(duì)于尋找大的(250 × 200)面,構(gòu)建0.5 ×分辨率的模板可以提高5.6%的整體精度。 -
一種解釋是,對(duì)于不同大小的對(duì)象,我們有不同數(shù)量的訓(xùn)練數(shù)據(jù),并且我們希望對(duì)于那些大小的對(duì)象,使用更多的訓(xùn)練數(shù)據(jù),我們會(huì)有更好的性能。在諸如WIDER FACE和COCO[12]這樣的“野外”數(shù)據(jù)集中反復(fù)觀察到,較小的物體大大多于較大的物體,部分原因是更多的小物體可以在固定大小的圖像中被標(biāo)記出來(lái)。我們?cè)谙聢D(灰色曲線)中驗(yàn)證了這一點(diǎn)。
模板解析分析。x軸表示目標(biāo)對(duì)象大小,由聚類派生。左Y軸顯示每個(gè)目標(biāo)大小的AP(忽略超過(guò)0.5 Jaccard距離的對(duì)象)。圖中出現(xiàn)了自然機(jī)制:為了尋找較大的面孔(高度超過(guò)140px),構(gòu)建0.5分辨率的模板;為了尋找更小的面(高度小于40px),創(chuàng)建2X分辨率的模板。對(duì)于介于兩者之間的大小,構(gòu)建1X分辨率的模板。右y軸和灰色曲線顯示每個(gè)對(duì)象大小在0.5 Jaccard距離內(nèi)的數(shù)據(jù)數(shù)量,表明更多的小面孔被標(biāo)注。
雖然不平衡的數(shù)據(jù)可以解釋為什么在中等模板下檢測(cè)大臉更容易(因?yàn)橛懈嘀械却笮〉哪樋晒┯?xùn)練),但它不能解釋小臉的結(jié)果。中等面孔的訓(xùn)練例子較少,但使用中等大小的模板仍然表現(xiàn)得更好。 -
我們發(fā)現(xiàn),罪魁禍?zhǔn)自谟陬A(yù)訓(xùn)練數(shù)據(jù)集(ImageNet)中對(duì)象規(guī)模的分布。下圖顯示了ImageNet中80%的訓(xùn)練示例包含“中等”大小的對(duì)象,在40到140px之間。具體來(lái)說(shuō),我們假設(shè)預(yù)先訓(xùn)練的ImageNet模型(用于微調(diào),我們的尺度特定檢測(cè)器)是針對(duì)該范圍內(nèi)的對(duì)象進(jìn)行優(yōu)化的,并且在可能的情況下,應(yīng)該將標(biāo)準(zhǔn)尺寸模板的尺寸偏置在該范圍內(nèi)。我們將在下一節(jié)中驗(yàn)證這一假設(shè),在這一節(jié)中,我們將描述構(gòu)建具有不同規(guī)范分辨率的特定規(guī)模檢測(cè)器的管道。
ImageNet數(shù)據(jù)集中平均對(duì)象尺度的分布(假設(shè)圖像歸一化為224x224)。超過(guò)80%的類別的平均對(duì)象大小在40到140像素之間。我們假設(shè)在ImageNet上預(yù)先訓(xùn)練的模型對(duì)該范圍內(nèi)的對(duì)象進(jìn)行了優(yōu)化。
四、方法:scale-specific檢測(cè)
- 人們很自然地會(huì)問(wèn)一個(gè)后續(xù)問(wèn)題:是否有一個(gè)針對(duì)特定對(duì)象大小選擇模板分辨率的通用策略?我們證明可以利用多任務(wù)學(xué)習(xí)“暴力”訓(xùn)練不同分辨率的多個(gè)模板,并貪婪地選擇最好的模板。事實(shí)證明,似乎有一個(gè)與我們?cè)谇耙还?jié)中的分析一致的總體策略。
- 首先,讓我們定義一些符號(hào)。我們用t(h, w,σ)來(lái)表示一個(gè)模板。這樣一個(gè)模板被調(diào)整來(lái)檢測(cè)在分辨率σ下大小(h/σ, w/σ)的目標(biāo)。例如,下圖使用t(250,200,1)(上)和t(125,100,0.5)(下)來(lái)尋找250 × 200的面。
- 給定一個(gè)圖像和邊界框的訓(xùn)練數(shù)據(jù)集,我們可以定義一組正則邊界框形狀,大致覆蓋邊界框形狀空間。本文利用Jaccard距離d(Eq),通過(guò)聚類的方法來(lái)定義此類規(guī)范形狀。
其中,si= (hi, wi)和sj= (hj, wj)是一對(duì)邊界盒形狀,J表示標(biāo)準(zhǔn)Jaccard相似度(并集重疊的交集)。 - 現(xiàn)在對(duì)于每個(gè)目標(biāo)對(duì)象大小si= (hi, wi),我們問(wèn):什么樣的σi將使ti(σihi, σiwi, σi)的性能最大化?為了回答這個(gè)問(wèn)題,我們簡(jiǎn)單地對(duì)每個(gè)σ∈Σ(某個(gè)固定集)的值訓(xùn)練單獨(dú)的多任務(wù)模型,并對(duì)于每個(gè)對(duì)象大小取最大值。我們將每個(gè)分辨率特定的多任務(wù)模型的性能繪制為下圖中的彩色曲線。
在每個(gè)(hi, wi)的最佳σi下,我們用“混合”分辨率(稱為HR)重新訓(xùn)練一個(gè)多任務(wù)模型,該模型實(shí)際上遵循所有曲線的上包絡(luò)線。有趣的是,存在不同策略的自然機(jī)制:尋找大的物體(大于140px的高度),使用2X較小的標(biāo)準(zhǔn)分辨率。要找到小對(duì)象(高度小于40px),使用2倍大的標(biāo)準(zhǔn)模板分辨率。否則,使用相同的(1X)分辨率。我們的結(jié)果與ImageNet的統(tǒng)計(jì)數(shù)據(jù)密切相關(guān)(圖6),大多數(shù)對(duì)象都在這個(gè)范圍內(nèi)。
Pruning(修剪)
- 前一節(jié)中的混合分辨率多任務(wù)模型有些多余。例如,模板(62,50,2),即尋找31x25個(gè)面的最優(yōu)模板,在已知模板(64,50,1)(尋找64x50個(gè)面的最優(yōu)模板)存在的情況下是冗余的。我們能去掉這些多余的部分嗎?是的!為了直觀的描述,我們向讀者介紹圖9中的標(biāo)題。如下表所示,刪除冗余模板會(huì)帶來(lái)一些小的改進(jìn)。從本質(zhì)上講,我們的模型可以減少一個(gè)小套scale-specific模板(調(diào)諧40 - 140 px高臉),可以運(yùn)行在一個(gè)粗糙的圖像金字塔(包括2 x插值),加上一組scale-specific模板設(shè)計(jì)尋找小面孔(不到20 px高)2 x插值圖像。
4.1 Architecture
- 我們?cè)谙聢D中可視化了我們提議的架構(gòu)。我們訓(xùn)練二進(jìn)制多通道熱圖預(yù)測(cè)器來(lái)報(bào)告人臉大小范圍(高度40-140px)的對(duì)象可信度。
我們檢測(cè)管道的概述。從輸入圖像開(kāi)始,我們首先創(chuàng)建coarse image pramid(包括2X插值)。然后,我們將縮放后的輸入輸入到CNN中,以預(yù)測(cè)每個(gè)分辨率下的模板響應(yīng)(用于檢測(cè)和回歸)。最后,在原始分辨率下應(yīng)用非最大抑制(non-maximum suppression, NMS)得到最終檢測(cè)結(jié)果。虛線框表示端到端可訓(xùn)練部分。我們?cè)诖植诘膱D像金字塔(包括2X插值)上運(yùn)行a型模板(調(diào)整為40-140px高的面),而只在2X插值的圖像上運(yùn)行b型模板(調(diào)整為低于20px高的面)(圖9)
刪除冗余模板。假設(shè)我們?cè)谝粋€(gè)粗糙的圖像金字塔(包括2X插值)上測(cè)試以1X分辨率(A)構(gòu)建的模板。它們將覆蓋更大范圍的范圍,除了極小的尺寸,這是最好的檢測(cè)使用模板建立在2X,如圖8所示。因此,我們最終的模型可以簡(jiǎn)化為兩套特定比例的模板:(A)針對(duì)40140px高的人臉進(jìn)行調(diào)整,并運(yùn)行在一個(gè)粗糙的圖像金字塔(包括2X插值);(B)針對(duì)小于20px的人臉進(jìn)行調(diào)整,并僅運(yùn)行在2X插值的圖像中。
然后,我們會(huì)找到帶有粗糙金字塔圖像的大臉和小臉,其中重要的是包括一個(gè)2X上采樣階段,帶有專門(mén)用于該分辨率的熱圖(例如,專為小臉設(shè)計(jì)的小于20像素),對(duì)于共享cnn(shared CNNs),我們用ResNet101、ResNet50和VGG16進(jìn)行了實(shí)驗(yàn)。雖然ResNet101表現(xiàn)最好,但表2中包含了所有模型的性能。我們看到,與現(xiàn)有技術(shù)相比,所有模型在“硬”集上都取得了實(shí)質(zhì)性的改進(jìn),包括CMS-RCNN[28],它也建模上下文,但以比例方式(圖3)。
驗(yàn)證我們的模型在不同架構(gòu)下的性能。ResNet101的表現(xiàn)略好于ResNet50,遠(yuǎn)遠(yuǎn)好于VGG16。重要的是,我們基于vgg16的模型在“硬”集上已經(jīng)大大優(yōu)于現(xiàn)有技術(shù)。
Details
- 給定帶有對(duì)象和模板ground-truth注釋的訓(xùn)練圖像,我們定義正位置為IOU重疊超過(guò)70%的位置,負(fù)位置為重疊低于30%的位置(去掉梯度忽略所有其他位置)。請(qǐng)注意,這意味著每個(gè)大對(duì)象實(shí)例生成的正訓(xùn)練實(shí)例要比小實(shí)例多得多。由于這導(dǎo)致了一個(gè)高度不平衡的二值分類訓(xùn)練集,我們使用平衡采樣[7]和硬例挖掘[21]來(lái)改善這種效果。我們發(fā)現(xiàn),性能提高后處理線性回歸,微調(diào)報(bào)告的邊界盒位置。為了確保我們對(duì)數(shù)據(jù)進(jìn)行類似于測(cè)試條件的訓(xùn)練,我們隨機(jī)調(diào)整訓(xùn)練數(shù)據(jù)的大小,使其達(dá)到我們?cè)跍y(cè)試時(shí)考慮的Σ分辨率范圍(0.5x,1x,2x),并從每個(gè)圖像500x500個(gè)固定大小的隨機(jī)裁剪區(qū)域中學(xué)習(xí)(以利用批處理的優(yōu)勢(shì))。我們?cè)赪IDER FACE訓(xùn)練集上以固定的學(xué)習(xí)速率10 - 4對(duì)預(yù)先訓(xùn)練過(guò)的ImageNet模型進(jìn)行了優(yōu)化,并對(duì)WIDER FACE驗(yàn)證集(用于診斷)和保留測(cè)試集上的性能進(jìn)行了評(píng)估。為了生成最終的檢測(cè),我們對(duì)檢測(cè)到的熱圖應(yīng)用標(biāo)準(zhǔn)NMS,重疊閾值為30%。我們?cè)诟戒沚中討論更多的訓(xùn)練細(xì)節(jié)。我們的代碼和模型都可以在https://www.cs.cmu.edu/ peiyunh/tiny上找到。
五、實(shí)驗(yàn)
- WIDER FACE(更廣泛的臉) 我們?cè)赪IDER FACE的訓(xùn)練集上訓(xùn)練了一個(gè)有25個(gè)模板的模型,并報(bào)告了我們的最佳模型HR-ResNet101 (a +B)在保留測(cè)試集上的性能。如下圖所示,我們的混合分辨率模型(HR)在所有難度級(jí)別上都實(shí)現(xiàn)了最先進(jìn)的性能,但最重要的是,減少了2倍的“硬”設(shè)置的錯(cuò)誤。注意,“硬”集包括所有大于10px的面,因此更準(zhǔn)確地表示整個(gè)測(cè)試集的性能。
在WIDER FACE“hard”測(cè)試裝置上的精確回憶曲線。與現(xiàn)有技術(shù)相比,我們的方法(HR)將誤差降低了2倍。
我們?cè)谙聢D中可視化了一些具有挑戰(zhàn)性的場(chǎng)景下的性能。請(qǐng)參考基準(zhǔn)網(wǎng)站的全面評(píng)估和我們的附錄A更多定量診斷[10]。
對(duì)WIDER FACE的定性結(jié)果。我們?yōu)槊總€(gè)屬性和比例可視化一個(gè)示例。我們提出的檢測(cè)器能夠在連續(xù)范圍的尺度下檢測(cè)人臉,同時(shí)對(duì)表情、模糊、照明等挑戰(zhàn)具有魯棒性。請(qǐng)放大看一些非常小的發(fā)現(xiàn)。 - FDDB 我們?cè)贔DDB上測(cè)試了我們的WIDER face訓(xùn)練模型。我們的開(kāi)箱即用檢測(cè)器(HR)在離散分?jǐn)?shù)上優(yōu)于所有發(fā)布的結(jié)果,它使用標(biāo)準(zhǔn)的50%交集過(guò)并閾值來(lái)定義正確性。因?yàn)镕DDB使用邊界橢圓,而WIDER FACE使用邊界盒,所以我們訓(xùn)練一個(gè)自適應(yīng)線性回歸器將邊界盒預(yù)測(cè)轉(zhuǎn)換為橢圓。使用事后回歸器,我們的檢測(cè)器在連續(xù)評(píng)分(測(cè)量平均邊界盒重疊)上也實(shí)現(xiàn)了最先進(jìn)的性能。我們的回歸者接受過(guò)十倍交叉驗(yàn)證的訓(xùn)練。
下圖繪制了我們的檢測(cè)器的性能,無(wú)論是有和沒(méi)有橢圓回歸器(ER)。
FDBB檢驗(yàn)的ROC曲線。我們的預(yù)訓(xùn)練檢測(cè)器(HR)產(chǎn)生最先進(jìn)的離散檢測(cè)(左)。通過(guò)學(xué)習(xí)將邊界框轉(zhuǎn)換為橢圓的事后回歸器,我們的方法(HR-ER)也產(chǎn)生了最先進(jìn)的連續(xù)重疊(右)。我們只比較發(fā)表的結(jié)果。
定性結(jié)果如下圖所示。請(qǐng)參閱我們的附錄B,以了解我們的橢圓回歸方程。
FDDB的定性結(jié)果。綠色橢圓為地面真實(shí)值,藍(lán)色邊界框?yàn)闄z測(cè)結(jié)果,黃色橢圓為回歸橢圓。我們提出的檢測(cè)器是魯棒的重遮擋,重模糊,大外觀和規(guī)模方差。有趣的是,許多面臨這種挑戰(zhàn)的人甚至沒(méi)有注釋(第二個(gè)例子)。 - Run-time(運(yùn)行時(shí)間) 我們的運(yùn)行時(shí)主要是通過(guò)運(yùn)行一個(gè)“完全卷積”的網(wǎng)絡(luò)來(lái)跨越一個(gè)2x -up采樣的圖像。我們基于resnet101的檢測(cè)器在1080p分辨率下運(yùn)行速度為1.4FPS,在720p分辨率下運(yùn)行速度為3.1FPS。重要的是,我們的運(yùn)行時(shí)間獨(dú)立于圖像中的面數(shù)。這與基于提議的檢測(cè)器(如Faster R-CNN[18])形成對(duì)比,后者與提議的數(shù)量成線性比例。
- 結(jié)論:我們提出了一個(gè)簡(jiǎn)單而有效的尋找小對(duì)象的框架,證明了大背景和尺度變化的表現(xiàn)都是至關(guān)重要的。我們特別指出,巨大的接受域可以有效地編碼為一個(gè)中心凹描述符,可以捕獲粗糙的上下文(檢測(cè)小物體的必要條件)和高分辨率的圖像特征(有助于定位小物體)。我們還探索了現(xiàn)有預(yù)訓(xùn)練的深度網(wǎng)絡(luò)的規(guī)模編碼,提出了一種簡(jiǎn)單的方式,以規(guī)模變化的方式外拉網(wǎng)絡(luò),以應(yīng)對(duì)有限規(guī)模或更極端的場(chǎng)景。最后,我們使用我們對(duì)尺度、分辨率和上下文的詳細(xì)分析來(lái)開(kāi)發(fā)一個(gè)最先進(jìn)的人臉檢測(cè)器,它顯著優(yōu)于之前在標(biāo)準(zhǔn)基準(zhǔn)上的工作。
實(shí)驗(yàn)細(xì)節(jié)
- 多尺度特征 受[20]對(duì)“FCN-8s”同時(shí)訓(xùn)練的啟發(fā),我們用一個(gè)固定常數(shù)來(lái)衡量建立在每一層之上的預(yù)測(cè)器的學(xué)習(xí)率。具體來(lái)說(shuō),我們對(duì)res4使用1的比例因子,對(duì)res3使用0.1,對(duì)res2使用0.01。我們的模型和[20]之間的另一個(gè)區(qū)別是:我們的模型不是在原始分辨率下預(yù)測(cè),而是在res3特征的分辨率下預(yù)測(cè)(與輸入分辨率相比下降了8X)。
- 輸入采樣 (input sampling) 我們首先將輸入圖像隨機(jī)縮放0.5X, 1X,或2X。然后我們?cè)诳s放后的輸入中隨機(jī)裁剪一個(gè)500x500的圖像區(qū)域。當(dāng)裁剪圖像邊界外時(shí),我們填充平均RGB值(在平均減法之前)。
- 邊界情況(Border cases) 與[18]類似,我們忽略了來(lái)自檢測(cè)窗口越過(guò)圖像邊界的熱圖位置的梯度。唯一的區(qū)別是,我們也將填充的平均像素(如輸入采樣中所述)作為圖像的外部邊界。
- 在線硬挖掘和均衡抽樣 (Online hard mining and balanced sampling) 在正、負(fù)兩方面都應(yīng)用了硬挖掘。與[21]相比,我們的實(shí)現(xiàn)更簡(jiǎn)單,但仍然有效。我們?cè)O(shè)置了一個(gè)小的分類損失閾值(0.03)來(lái)過(guò)濾出容易的位置。然后,我們從損失超過(guò)閾值的剩余部分中,對(duì)正的和負(fù)的(分別)最多抽取128個(gè)位置。
在下表中,我們比較了使用硬挖掘和不使用硬挖掘的訓(xùn)練對(duì)驗(yàn)證性能的影響。
有和沒(méi)有硬挖掘訓(xùn)練的比較。我們展示了在WIDER FACE驗(yàn)證集上的性能。兩種模型都采用平衡采樣訓(xùn)練,并使用ResNet-101體系結(jié)構(gòu)。結(jié)果表明,難采礦對(duì)最終性能沒(méi)有明顯影響。 - Loss function (損失函數(shù)) 我們的損失函數(shù)和[18]是一樣的。注意,我們還使用Huber損失作為包圍盒回歸的損失函數(shù)。
- Bounding box regression (邊界框回歸) 我們的邊界盒回歸公式為[18],并與隨機(jī)梯度下降分類聯(lián)合訓(xùn)練。我們比較了使用回歸測(cè)試和不使用回歸測(cè)試在WIDER FACE驗(yàn)證集上的性能。
- **Bounding ellipse regression (邊界橢圓回歸) ** 我們的邊界橢圓回歸公式為:
其中x?c, y?c, r?a, r?b, θ?表示中心x-,y-坐標(biāo),地面真半軸,和地面真橢圓的旋轉(zhuǎn)角。Xc, yc, h, w表示我們預(yù)測(cè)的邊界框的中心x-,y-坐標(biāo),高度和寬度。我們離線學(xué)習(xí)邊界橢圓線性回歸,使用與訓(xùn)練邊界盒回歸相同的特征 - Other hyper-parameters (其他超參數(shù)) 我們使用固定的學(xué)習(xí)速率為10?4,重量衰減為0.0005,動(dòng)量為0.9。我們使用20張圖像的批量大小,從每張圖像的重新縮放版本中隨機(jī)裁剪一個(gè)500x500的區(qū)域。通常,我們對(duì)模型進(jìn)行50個(gè)epoch的訓(xùn)練,然后在驗(yàn)證集上選擇性能最好的epoch。
總結(jié)
以上是生活随笔為你收集整理的人脸识别论文——发现微小的脸的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 数据整理与命令行环境
- 下一篇: Android Switch开关按钮使用