【论文解读】让特征感受野更灵活,腾讯优图提出非对称卡通人脸检测,推理速度仅50ms...
該文是騰訊優圖&東南大學聯合提出一種的非對稱卡通人臉檢測算法,該方法取得了2020 iCartoon Face Challenge(Under 200MB)競賽的冠軍,推理速度僅為50ms且無需任何預訓練模型。該文包含不少的trick,是檢測領域不錯的文章,推薦大家了解一下。
Abstract
由于諸多復雜場景導致卡通人臉檢測比常規人臉檢測更具挑戰性,針對卡通人臉特性(huge difference within intra-face),該文提出一種非對稱卡通人臉檢測算法,稱之為ACFD。 所提方法包含這樣幾個模塊:(1)一種新穎的骨干網絡VoVNetV3,該骨干網絡有多個非對稱匯聚模塊(AOSA)構成;(2)非對稱雙向特征金字塔網絡(ABi-FPN);(3) 動態錨點匹配策略(DAM);(4)邊界二值分類損失(MBC)。
特別的,為生成具有靈活感受野的特征,采用VoVNetV3提取多尺度金字塔特征,然后采用ABi-FPN同時進行融合與增強以處理極限姿態的人臉。除此之外,采用DAM對每個人臉匹配充足的高質量錨點,并采用MBC提升強判別性能。
基于上述模塊的有效性,所提方法ACFD取得了2020 iCartoon Face Challenge(Under 200MB)競賽的冠軍,推理速度僅為50ms且無需任何預訓練模型。
該文主要有這樣幾點貢獻:
提出一種新穎的骨干網絡VoVNetV3;
提出一種ABi-FPN同時進行多尺度特征融合與語義信息增強;
提出DAM策略匹配高質量錨點;
提出MBC模塊提升卡通人臉判別能力
所提方法取得了2020 iCartoon Face Challenge競賽檢測賽道冠軍。
Method
下圖給出了所提ACFD的網絡架構圖,它采用VoVNetV3-51作為骨干網絡(包含6個階段生stride=4到128的特征),然后采用ABi-FPN進行多尺度特征融合與增強,最后采用錨點Head網絡輸出稠密預測。
VoVNetV3
VoVNet是一種計算高效的骨干網絡,其OSA模塊可以輸出靈活的特征表達;VoVNetV2通過添加殘差連接方式解決了VoVNet訓練的局限性,同時引入一種高效的注意力機制(eSE)。為進一步提升特征的靈活性,作者提出了一種更有效的骨干網絡VoVNetV3,其核心模塊如下所示。
VoVNet與VoVNetV2的OSA模塊采用了不同于DenseNet的稠密連接方式,而是采用相對稀疏連接的方式生成特征,每個特征與前接卷積特征相連從而生成更大感受野的特征,最后將所有特征進行一次Concat融合。可以看到:OSA模塊可以生成更豐富感受野的特征。然而OSA僅僅處理方框感受野,這種處理方式可能會影響不同角度的人臉檢測性能。受啟發于ACNet,作者提出了一種非對稱OSA模塊,稱之為AOSA,見上圖右。
作者采用所提AOSA模塊構建VoVNetV3-51骨干網絡,網絡結構信息見下表。
ABi-FPN
目前,大多人臉檢測器采用ResNet或VGG提取多尺度特征,然而它們僅僅可以處理方框感受野的,這可能會影響極限角度的人臉檢測。而卡通人臉中大約有10%的比例大于2.0或小于0.5.
為解決上述局限問題,PyramidBox、DSFD、RefineFace等在特征融合模塊之后添加了一個額外的模塊進行感受野進行精煉處理(盡管有效果但是低效率)。不同于前述方法,該文提出一種有效且高效的ABi-FPN模塊同時進行特征融合、語義信息增強以及感受野精煉處理。采用ACB模塊替換Bi-FPN中的卷積即可得到所提出的ABi-FPN模塊,它可以使得特征感受野更靈活。
Dynamic Anchor Match
HamBox發現一個有趣的現象:某些不匹配的錨點具有非常強的回歸能力,見上圖b。具有強回歸能力的錨點將得到一個具有大IoU得分的邊界框(盡管它本身的IoU非常小)。
受上述現象啟發,作者提出一種DAM策略以充分利用這些具有強回歸能力的錨點,從而更好的為每個GT人臉匹配充足的高質量錨點。首先,IoU得分大于閾值的錨點被設置為正;然后,如果對應回歸框的IoU得分大于閾值將被補償為正。算法細節如下,挺有意思的一種處理策略。
Margin Binary Classification Loss
正如前面所提到的,DAM可以為每個人臉匹配充足的高質量錨點,然而這些高質量錨點可能距離GT人臉比較遠,從而影響訓練過程中的損失。為此,作者提出在第一步分開計算匹配錨點損失權值,并在第二部對高質量錨點進行補償,其中回歸與分類損失定義如下:
其中分別表示匹配錨點與補充錨點的數量,表示對應的加權系數。
為提出網絡的分類性能(即判別哪些人臉與背景相似),作者將人臉識別領域常用的邊界損失(通過添加額外硬邊界約束促使最大化類間差異,最小化類內差異)引入到人臉檢測領域。在邊界二分類應用中,假設表示網絡的輸出,那么邊界預測可以定義如下:
其中表示對應的one-hot標簽,m表示硬邊界約束,用于計算分類損失。
Experimetns
在訓練數據方面,作者將50000張iCartoon Face圖像分為45000用于訓練5000用于測試。在最后的競賽提交階段,所有模型均用于訓練。
在數據增廣方面,作者采用了:
color distort for training images,
expand the images with a random range [1*,* 4] by mean-padding to augment the small faces
crop the images with a random size at a random position to augment the big faces
random tile the faces to anchor scales, finally, resize the images to 640×640 for feeding into the network.
在錨點設置方面,每個檢測層一個錨點且尺度為4,比例為1:1.因此總計有34125個錨點,且可以覆蓋16-512大小的人臉。
在訓練方面,模型采用kaiming方式進行初始化,優化器為SGD,momentum=0.9,權值衰減因子為,batch=64,同時采用warmup策略。在200、250、280epoch進行學習率x0.1,合計訓練300epoch。
其他超參數,動態錨點匹配參數,加權系數為,分類損失中的邊界參數為0.2.
在推理階段,采用了多尺度()方式提交測試。先看看效果再說。
首先,給出了不同骨干網絡下的模型性能對比,見下表。所提方法VoVNetV3-51取得了最佳得分。
然后,給出了ResNet50作為骨干網絡時不同Head的性能,ABi-FPN獲勝。
其次,給出了DAM的消融實驗結果。可以看到:DAM以1.3%的指標高于baseline。
與此同時,給出了MBC分類損失的消融實驗結果。
最后,作者給出了卡通人臉檢測方案一步步改進對比表。而最終參賽的模型取得了92.91%的指標,高居榜首。
最后的最后,作者還提供了算法的推理耗時優化(競賽要求推理耗時不超過50ms,而前述模型肯定是超過了)。首先,進行ACB的合并,下圖給出了ACB的合并示意圖;然后,進行Conv與BatchNorm的合并;最后,采用torch2rt工具將Pytorch模型轉為TensorRT加速。
Conclusion
為解決卡通人臉檢測困難問題,作者提出了一種新穎的非對稱卡通人臉檢測器ACFD。ACFD包含(1)一個新提出的VoVNetV3骨干網絡用于提取多尺度特征;(2)一種ABi-FPN模塊同時進行特征融合與增強;(3)一種動態錨點匹配策略;(4)引入邊界二值分類損失進一步增強網絡的判別能力。
該文最核心的創新可能是DAM與MBC兩塊,而VoVNetV3則是VoVNetV2與ACNet的組合,ABi-FPN則是Bi-FPN與ACNet的組合。但不管怎么說,能奪冠的方法就是好方法。
◎作者檔案
Happy,一個愛“胡思亂想”的AI行者
個人公眾號:AIWalker
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進群:總結
以上是生活随笔為你收集整理的【论文解读】让特征感受野更灵活,腾讯优图提出非对称卡通人脸检测,推理速度仅50ms...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】在PyTorch中构建高效的
- 下一篇: 【资源推荐】良心之作!超过 10000+