论文盘点:性别年龄分类器详解
?PaperWeekly 原創(chuàng) ·?作者|孫裕道
學(xué)校|北京郵電大學(xué)博士生
研究方向|GAN圖像生成、情緒對(duì)抗樣本生成
引言
年齡和性別在社會(huì)交往中起著基礎(chǔ)性的作用。隨著社交平臺(tái)和社交媒體的興起,自動(dòng)年齡和性別分類(lèi)已經(jīng)成為越來(lái)越多應(yīng)用程序的相關(guān)內(nèi)容。本文會(huì)盤(pán)點(diǎn)出近幾年來(lái)關(guān)于深度年齡和性別識(shí)別的優(yōu)質(zhì)論文。
CVPR 2015
論文標(biāo)題:Age and Gender Classification using Convolutional Neural Networks
論文來(lái)源:CVPR 2015
論文鏈接:https://www.sci-hub.ren/10.1109/CVPRW.2015.7301352
代碼鏈接:https://github.com/GilLevi/AgeGenderDeepLearning
1.1 模型介紹
在該論文是第一篇將深度學(xué)習(xí)引入到年齡和性別的分類(lèi)任務(wù)中,作者證明通過(guò)使用深卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)表示,可以顯著提高年齡和性別的分類(lèi)任務(wù)的性能。因此,該論文提出了一個(gè)卷積網(wǎng)絡(luò)架構(gòu),即使在學(xué)習(xí)數(shù)據(jù)量有限的情況下也可以使用。
從社交圖像庫(kù)收集一個(gè)大的、帶標(biāo)簽的圖像訓(xùn)練集,用于年齡和性別估計(jì),需要訪(fǎng)問(wèn)圖像中出現(xiàn)的對(duì)象的個(gè)人信息,這些信息通常是私有的,或者手動(dòng)標(biāo)記既繁瑣又耗時(shí)。因此,用于從真實(shí)社會(huì)圖像中估計(jì)年齡和性別的數(shù)據(jù)集在大小上相對(duì)有限。當(dāng)深度學(xué)習(xí)的方法應(yīng)用于如此小的圖像采集時(shí),過(guò)擬合是一個(gè)常見(jiàn)的問(wèn)題。
如下圖所示,為作者提出的一個(gè)簡(jiǎn)單的 CNN 網(wǎng)絡(luò)架構(gòu),該網(wǎng)絡(luò)包含三個(gè)卷積層,每個(gè)卷積層后面都有一個(gè)校正的線(xiàn)性運(yùn)算和池化層。前兩層使用對(duì)參數(shù)進(jìn)行正則化操作。
第一卷積層包含 96個(gè)7×7 像素的卷積核,第二個(gè)卷積層包含 256 個(gè) 5×5 像素的卷積核,第三層和最后一層包含 384 個(gè) 3×3 像素的卷積核。最后,添加兩個(gè)全連接層,每個(gè)層包含 512 個(gè)神經(jīng)元。
在訓(xùn)練網(wǎng)絡(luò)的過(guò)程中,作者還應(yīng)用了兩種額外的方法來(lái)進(jìn)一步限制過(guò)度擬合的風(fēng)險(xiǎn)。第一個(gè)是 dropout 學(xué)習(xí)(即隨機(jī)設(shè)置網(wǎng)絡(luò)神經(jīng)元的輸出值為零)。該網(wǎng)絡(luò)包括兩個(gè) dropout 層,丟失率為 0.5(將神經(jīng)元的輸出值設(shè)為零的幾率為 50%)。
第二個(gè)是使用數(shù)據(jù)增強(qiáng)技術(shù),從 256×256 的輸入圖像中隨機(jī)抽取 227×227 個(gè)像素,并在每個(gè)前后訓(xùn)練過(guò)程中隨機(jī)鏡像。這與使用的多種裁剪和鏡像變體類(lèi)似。
1.2 實(shí)驗(yàn)結(jié)果
作者使用 Adience 數(shù)據(jù)集進(jìn)行基準(zhǔn)測(cè)試 CNN 設(shè)計(jì)的準(zhǔn)確性,該數(shù)據(jù)集是為年齡和性別分類(lèi)而設(shè)計(jì)的。Adience 集包括從智能手機(jī)設(shè)備自動(dòng)上傳到 Flickr 的圖像。
因?yàn)檫@些圖片是在沒(méi)有事先人工過(guò)濾的情況下上傳的,就像媒體網(wǎng)頁(yè)或社交網(wǎng)站上的典型情況一樣。整個(gè) Adience 收藏包括 2284 個(gè)受試者的大約 26K 張圖片。如下表所示列出了收集到的不同性別和年齡組的分類(lèi)情況。
下表分別給出了性別和年齡分類(lèi)結(jié)果,可以看出論文中提出的方法的準(zhǔn)確率要比其它方法更高。
下圖為性別錯(cuò)誤分類(lèi)。第一行:女性被誤認(rèn)為是男性。最下面一行:男性被誤認(rèn)為是女性。
下圖為年齡錯(cuò)誤分類(lèi)。第一行:年長(zhǎng)的被試被誤認(rèn)為是年輕人。最下面一行:年輕人被誤認(rèn)為是老年人。
由上面兩張圖是系統(tǒng)所犯的許多錯(cuò)誤都是由于某些 Adience 基準(zhǔn)圖像的觀看條件極為困難所致。最值得注意的是由模糊或低分辨率和遮擋(尤其是濃妝)引起的錯(cuò)誤。性別估計(jì)錯(cuò)誤也經(jīng)常發(fā)生在嬰兒或非常年幼的兒童的圖像中,因?yàn)檫@些圖像還沒(méi)有明顯的性別屬性。
IWBF 2018
論文標(biāo)題:Age and Gender Classification from Ear Images
論文來(lái)源:IWBF 2018
論文鏈接:https://arxiv.org/abs/1806.05742
2.1 論文貢獻(xiàn)
該論文是一篇有趣文章,研究是從耳朵圖像進(jìn)行年齡和性別的分類(lèi)。作者采用卷積神經(jīng)網(wǎng)絡(luò)模型 AlexNet、VGG-16、GoogLeNet 和 squezenet。在一個(gè)大規(guī)模的耳朵數(shù)據(jù)集上進(jìn)行了訓(xùn)練,分類(lèi)器通過(guò)人耳對(duì)性別和年齡進(jìn)行分類(lèi)。該論文的貢獻(xiàn)分為三個(gè)部分:
對(duì)于幾何特征,作者在耳朵上使用了 8 個(gè)標(biāo)志點(diǎn),并從中衍生出 16 個(gè)特征。
對(duì)于基于外觀的方法,作者使用了一個(gè)大型 ear 數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)對(duì)年齡和性別進(jìn)行分類(lèi)。
與之前的工作相比,作者在性別分類(lèi)方面取得了優(yōu)異的成績(jī)。
2.2 模型介紹
論文使用幾何特征和在這些特征上使用的分類(lèi)器,以及基于外觀的表示進(jìn)行分類(lèi)。
2.2.1 幾何特征
下圖為人耳標(biāo)志位和相關(guān)的幾何特征。由于每個(gè)幾何特征具有不同的取值范圍,為了使其規(guī)范化,作者在訓(xùn)練集中計(jì)算了每個(gè)特征的均值和標(biāo)準(zhǔn)差。然后并對(duì)它們進(jìn)行歸一化,使它們具有零均值和單位方差。在 16 個(gè)耳朵的幾何特征中選擇出重要的6個(gè)。
2.2.2?基于外觀的表示與分類(lèi)
本研究中使用的第一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 AlexNet。AlexNet 包含五個(gè)卷積層和三個(gè)全連接層。在網(wǎng)絡(luò)訓(xùn)練中,為了防止過(guò)度擬合,采用了 dropout 方法。第二個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 VGG-16。
VGG-16 包含 16 個(gè)卷積層,3 個(gè)全連接層和在卷積層之后的 softmax 分類(lèi)器。第三個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是 GoogleNet,它是一個(gè)更深層次的網(wǎng)絡(luò),包含 22 層。它基于初始模塊,主要是幾個(gè)初始模塊的串聯(lián)。
inception 模塊包含幾個(gè)不同大小的卷積核。將不同的卷積核輸出組合起來(lái)。最后一個(gè) CNN 架構(gòu)是 squezenet,它提出了一種減少參數(shù)數(shù)量和模型大小的新方法。使用 1×1 過(guò)濾器,而不是 3×3 過(guò)濾器。該體系結(jié)構(gòu)還包含剩余連接,以提高反向傳播學(xué)習(xí)的效率。此外,沒(méi)有全連接層。使用平均池化層,而不是全連接層。
2.3 實(shí)驗(yàn)結(jié)果
2.3.1 數(shù)據(jù)集介紹
論文選用的數(shù)據(jù)集包含 338 個(gè)不同對(duì)象的面部輪廓圖像。這個(gè)數(shù)據(jù)集中的所有受試者都超過(guò)18歲。從下圖可以看到來(lái)自數(shù)據(jù)集的樣本圖像。這些受試者分為五個(gè)不同的年齡組。這些年齡組分別為 18-28、29-38、39-48、49-58、59-68+。根據(jù)幾何特征的變化對(duì)年齡組進(jìn)行分類(lèi)。
2.3.2 性別分類(lèi)結(jié)果
如下表所示為性別分類(lèi)的結(jié)果,第一列為分類(lèi)器的名稱(chēng),第二列包含相應(yīng)的分類(lèi)精度。為了提醒讀者所使用的特性,第二列的括號(hào)中包含了這些特性的類(lèi)型。從表中可以看出,基于外觀的方法優(yōu)于基于幾何特征的分類(lèi)器
2.3.3 年齡組分類(lèi)結(jié)果
如下表所示為年齡組分類(lèi)的結(jié)果,同樣的,第一列包含分類(lèi)器的名稱(chēng),第二列包含相應(yīng)的分類(lèi)精度。我們會(huì)發(fā)現(xiàn),基于幾何特征的方法和基于外觀的方法之間的性能差距很小,基于外觀的方法能稍微優(yōu)越一點(diǎn)。
CVPR 2019
論文標(biāo)題:Multimodal Age and Gender Classification Using Ear and Profile Face Images
論文來(lái)源:CVPR 2019
論文鏈接:https://arxiv.org/abs/1907.10081
3.1 核心思想
在該論文中,作者提出一個(gè)多模態(tài)深度神經(jīng)網(wǎng)路的年齡和性別分類(lèi)框架,輸入為一個(gè)側(cè)面的臉和一個(gè)耳朵的圖像。主要目標(biāo)是通過(guò)進(jìn)一步利用生物特征識(shí)別方法:耳朵外觀,來(lái)提高從側(cè)面人臉圖像中提取軟生物特征的準(zhǔn)確性。輪廓人臉圖像包含了豐富的年齡和性別分類(lèi)信息源。本篇論文的貢獻(xiàn)分為以下三個(gè)部分:
作者提出了一個(gè)多模式年齡和性別分類(lèi)系統(tǒng),該系統(tǒng)以側(cè)面人臉和耳朵圖像為輸入。所提出的系統(tǒng)執(zhí)行端到端多模式、多任務(wù)學(xué)習(xí)。
作者全面探討了利用多模式輸入進(jìn)行年齡和性別分類(lèi)的各種方法。并采用了三種不同的數(shù)據(jù)融合方法。
作者將中心損失和 softmax 損失結(jié)合起來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型。
3.2 模型介紹
3.2.1 CNN網(wǎng)絡(luò)和損失函數(shù)
在本文中采用了 VGG-16 和 ResNet-50 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在 VGG16 中,有 13 個(gè)卷積層和3個(gè)全連接層。為防止過(guò)度擬合,采用了 dropout 方法。另一個(gè) CNN 模型是 ResNet-50。與 VGG-16 不同,除了 ResNet-50 的輸出層外,沒(méi)有全連接層。在卷積部分和輸出層之間存在一個(gè)全局池化層。兩個(gè)網(wǎng)絡(luò)的輸入大小都是 224×224。
作者利用中心損失函數(shù)和 softmax 函數(shù)來(lái)獲得更多的鑒別特征。中心損失背后的主要?jiǎng)訖C(jī)是提供更接近相應(yīng)類(lèi)中心的特性。測(cè)量特征到相關(guān)類(lèi)中心的距離,計(jì)算出中心損失。中心損失試圖為每個(gè)類(lèi)中心生成更接近的特征,但它不負(fù)責(zé)提供可分離的特征,因此,softmax 損失對(duì)其進(jìn)行了補(bǔ)充。具體的計(jì)算公式如下:
3.2.2 多模態(tài)多任務(wù)
作者研究了年齡和性別分類(lèi)的性能,分別使用耳朵和側(cè)面人臉圖像,作為單峰系統(tǒng),并結(jié)合作為一個(gè)多模式,多任務(wù)系統(tǒng)。對(duì)于多模式、多任務(wù)年齡和性別分類(lèi)總損失計(jì)算,作者結(jié)合了年齡和性別預(yù)測(cè)的所有損失。具體的計(jì)算公式如下所示:
3.2.3 數(shù)據(jù)融合
為了實(shí)現(xiàn)數(shù)據(jù)融合,作者采用了三種不同的方法,即空間融合、強(qiáng)度融合和信道融合。在空間融合中,將側(cè)面人臉和耳朵圖像并排連接起來(lái)。在信道融合中,將圖像沿著通道串聯(lián)起來(lái)。在強(qiáng)度融合中,平均化輪廓面部和耳朵圖像的像素強(qiáng)度值。具體詳情如下圖所示:
3.2.4 特征融合
對(duì)于基于特征的融合策略,作者訓(xùn)練了兩個(gè)獨(dú)立的 CNN 模型,其中一個(gè)以側(cè)面人臉圖像為輸入,另一個(gè)以耳朵圖像為輸入。當(dāng)這些網(wǎng)絡(luò)的表示部分(卷積部分)被分開(kāi)訓(xùn)練時(shí),最后一個(gè)卷積層的輸出被連接并饋送給分類(lèi)器部分。具體詳情如下圖所示:
3.2.5?分?jǐn)?shù)融合
對(duì)于基于分?jǐn)?shù)的融合,作者用相關(guān)模型對(duì)每個(gè)側(cè)面人臉圖像和耳朵圖像進(jìn)行了測(cè)試。然后,對(duì)于屬于同一主題的每個(gè)側(cè)面人臉和耳朵圖像,根據(jù)不同的置信度計(jì)算方法獲得概率得分并測(cè)量每個(gè)模型的置信度。之后,選擇了具有最大可信度的模型的預(yù)測(cè)。具體詳情如下圖所示:
3.4 實(shí)驗(yàn)結(jié)果
如下表所示顯示了基于不同融合方法的年齡和性別分類(lèi)結(jié)果。第一列分類(lèi)模型。第二列為融合方法,其中 A、B 和 C 分別對(duì)應(yīng)于數(shù)據(jù)、特征和分?jǐn)?shù)融合方法。在方法 A 中,A-1、A-2 和 A-3 分別是信道融合、空間融合和強(qiáng)度融合。
在 C 中,C1、C2、C3、C4 和 C5 代表不同的置信度計(jì)算方法。實(shí)驗(yàn)結(jié)果表明,VGG-16 模型采用 A-2 融合方法,即空間融合,取得了最佳的年齡分類(lèi)效果。
如下表所示,將本文提出的方法與以前的工作進(jìn)行比較。第一部分是性別分類(lèi)結(jié)果,第二部分是年齡分類(lèi)結(jié)果。根據(jù)研究結(jié)果,該論文所提出的方法在年齡和性別分類(lèi)方面取得了最高的分類(lèi)準(zhǔn)確率。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的论文盘点:性别年龄分类器详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: win10怎么把次电脑放在桌面 Win1
- 下一篇: 《使命召唤:黑色行动 6》上市预告片公布