论文解析:人脸检测中级联卷积神经网络的联合训练
論文解析:人臉檢測中級聯卷積神經網絡的聯合訓練
商湯科技解析CVPR2016論文:人臉檢測中級聯卷積神經網絡的聯合訓練 width="250" height="250" align="center,center" id="iframeu1554535_0" src="http://pos.baidu.com/jcgm?rdid=1554535&dc=2&di=u1554535&dri=0&dis=0&dai=2&ps=461x690&dcb=BAIDU_SSP_define&dtm=BAIDU_DUP_SETJSONADSLOT&dvi=0.0&dci=-1&dpt=none&tsr=0&tpr=1465998600293&ti=%E8%AE%BA%E6%96%87%E8%A7%A3%E6%9E%90%EF%BC%9A%E4%BA%BA%E8%84%B8%E6%A3%80%E6%B5%8B%E4%B8%AD%E7%BA%A7%E8%81%94%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E8%81%94%E5%90%88%E8%AE%AD%E7%BB%83--%E7%99%BE%E5%BA%A6%E7%99%BE%E5%AE%B6&ari=1&dbv=2&drs=1&pcs=1000x666&pss=1000x536&cfv=21&cpl=1&chi=1&cce=true&cec=utf-8&tlm=1465998600<u=http%3A%2F%2Fsynchuman.baijia.baidu.com%2Farticle%2F495393<r=http%3A%2F%2Fnews.baidu.com%2F&ecd=1&psr=1000x750&par=1000x721&pis=-1x-1&ccd=24&cja=true&cmi=2&col=zh-CN&cdo=-1&tcn=1465998600&qn=bae2e37d6887f526&tt=1465998600251.161.367.368" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" vspace="0" hspace="0" style="border:0; vertical-align:bottom;margin:0;" allowtransparency="true">
論文:Joint Training of Cascaded CNN for Face Detection
論文作者:Hongwei Qin, Junjie Yan, Xiu Li, Xiaolin Hu
Grad.School at Shenzhen Tsinghua University(清華大學深圳研究生院),Tsinghua University(清華大學),SenseTime Group Limited(商湯科技)
本文作者:閆俊杰
作者個人簡介:
閆俊杰,商湯科技主任研發工程師,15 年博士畢業于中科院自動化所,研究領域主要是物體檢測和人臉識別,發表了超過 10 篇 CVPR\ECCV\ICCV 論文。在 SenseTime 負責監控產品線的技術研發以及檢測技術的基礎研究。
CVPR:IEEE Conference on Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議。該會議是計算機視覺和模式識別領域的頂級會議,在中國計算機學會推薦國際學術會議的排名中,CVPR 為人工智能領域的 A 類會議。
商湯科技會在 CVPR 2016 上提交多篇論文,接下來,商湯科技的技術專家將在機器之心發布系列文章,對論文進行解讀。
人臉檢測是一個各種人臉應用中最基礎的一個模塊。 幾乎所有的人臉應用都需要首先使用檢測器來得到人臉的具體位置,然后再進行更加精細的處理,包括關鍵點定位,美顏,識別等等。當我們用單反拍照,當我們用手機美顏,當我們登陸系統前進行人臉認證,甚至當我們經過某些監控攝像頭,人臉檢測算法時刻在運行著。
作為幾乎是整個計算機視覺最重要、最成功的應用之一,人臉檢測在 2000 年左右就有了一個令人信服的解決方案,當時 Viola 和 Jones 提出了積分圖特征計算 +Adaboost+ 級聯的方式來做檢測。其中積分圖特征計算的效率非常高,每個像素只要被遍歷一次就可以得到積分圖,然后可以快速的計算出一些人工設計的特征模式;Adaboost 算法可以把很多弱特征組合成一個更強的分類器;而級聯可以快速過濾掉過多的背景。Viola 和 Jones 的方法非常成功,以至于至今依然被持續改進和大規模的使用。Viola&Jones的改進和實用化的過程中,一個很重要的事件是黃暢博士的改進算法以及 Omron(歐姆龍)的勞世竑和他的團隊把該算法做到了芯片上(很幸運的勞老師現在也在 SenseTime 工作)。
從 08 年 12 年之間,很多沒有自己動手做過實驗的人往往以為人臉檢測已經解決了,計算機視覺的幾個主流會議上甚至很少也看到人臉檢測的工作。 這其中的原因,可能是之前大家做人臉識別等的實驗,往往在一些比較規范的數據集上。但是對于真實世界的人臉,不管是學術界的 FDDB,MALF 還是工業界的一些實際使用場景,親自做過實驗的人都可以很明顯的感受到基于 Viola-Jones 的這套框架的力不從心。不僅僅是性能方面,還有個嚴重的問題是,這些方法過多的依賴經驗的積累。從頭基于這套框架復現一個好的結果,并且維護一套性能優異的測試代碼的時間成本和人力成本都非常非常的大,造成了一定的門檻。 由于大部分所謂的經驗都是不公開的,這在某種程度上也阻礙了技術的進步。
好消息是整個領域進入了卷積神經網絡(Convolutional Neural Network,既CNN)的時代后,之前的很多傳統方法的經驗積累可以很快的被顛覆。人們很快發現,直接把通用物體檢測的思路搬到人臉檢測里面,并做一些簡單的改進就很容易取得比傳統方法更好的結果。于是13年到現在學術界的人臉檢測數據集 FDDB、AFW 和 MALF 等被一次次的刷新著。這些方法至少在精度上比前一代算法提升了很多, 與當時很多商業軟件里面的人臉檢測器,比如 Google Picasa 等有接近的性能。筆者也在這個大潮中和伙伴們一起用幾種不同的方法刷新了結果,但是和絕大多數的所謂科研一樣,這些基本上都成了過眼云煙,除了幾篇 paper 外并沒有留下太多的實際意義。 這些方法本質上以最好的通用物體檢測算法作為基礎,加以改進。但是相比于通用物體檢測,人臉檢測有些不同,比如說人臉對精度和速度的要求更高;人臉有很多關鍵點和屬性的標注可以利用;人臉比通用物體更容易設計有更多的先驗等等,這些不同導致了近期非常多的基于卷積神經網絡的人臉檢測的工作,大部分也都取得了不錯的結果。
我們的文章考慮了一個如何聯合訓練檢測器的問題,可以認為是卷積神經網絡方案中的一個,但是不局限于某個特定的 CNN 檢測方法。不管是人工設計的特征的方法,還是基于卷積神經網絡的檢測算法,往往都需要做級聯。而級聯的缺點是不太好直接聯合訓練,這恰恰破壞了卷積神經網絡可以端到端訓練的性質。由于傳統的級聯訓練往往是單步求解最優,得到的結果可能沒有多步聯合最優的效果好。
為此,我們提出了一種可以聯合訓練整個級聯分類器的一種方式。得益于神經網絡可以反向傳播的性質,我們給出了如何聯合訓練整個級聯分類器。并且,我們說明了如何在簡單的 cascade CNN 和更復雜一點的 faster-RCNN 上都可以用這種方式來聯合訓練,并且可以取得非常優異的性能。 特別是當網絡的規模比較小的時候,這種聯合訓練的方法提升非常大。如下是一個簡單的級聯卷積神經網絡的示例圖。
這個工作做完之后,我們進一步大幅度提升了檢測的速度和精度,并把完全基于 CNN 的方法做到了包括 ARM,CPU 和 GPU 各個平臺上,并且跑到了非常好的速度。如今,商湯科技基于深度學習的人臉檢測技術適配于多個品牌不同型號的手機上,支持著幾十個各類 APP 的人臉分析功能;在單核 CPU 上可以跑到上百 FPS,并每天支持著大量的金融人臉認證服務;在單個 GPU 上可以實時的處理超過 12 路以上的高清視頻,并運用到很多的安防監控系統中;甚至不久的將來,還會集成到相機前端的人臉抓拍芯片中。
如今眾多的產品需求為技術的進步提供了海量的數據,也提出了越來越高的需求。我們知道,技術遠遠沒有極限。很多現在感覺平常的技術,甚至半年前都難以想象;一些我們現在覺得難以逾越的技術障礙,有可能半年內被很好地解決。為此,我們默默的積累著,也希望更多的小伙伴一起在技術進步的道路上流下自己的汗水。
總結
以上是生活随笔為你收集整理的论文解析:人脸检测中级联卷积神经网络的联合训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 理解GBDT算法(三)——基于梯度的版本
- 下一篇: ICML论文|这违反直觉的“升噪”方法,