【图像分类】从数据集和经典网络开始
歡迎大家來到圖像分類專欄,本篇簡單介紹數據集和圖像分類中的經典網絡的進展。
作者?| 郭冰洋
編輯? 言有三
1 簡介
一場完美的交響樂演出,指揮家需要充分結合每位演奏者和樂器的特點,根據演奏曲目把控節奏,才能將曼妙的音符傳送到所有聽眾的耳中。
如果將圖像分類看作一場盛大的交響樂演出,一幅幅圖像數據便是其中身懷絕技的演奏家,他們各有千秋,不分高下。而這場演出如果沒有指揮的存在,恐怕再多的樂器,也無法奏出曼妙的曲目。神經網絡 ,便是圖像分類中統籌全局的指揮者。正是在他的巧妙連接下,每張圖片都展現出自己最獨特的一面,從而構成了令人賞心悅目的華美樂章。
圖像數據作為分類系統的輸入,對最終的結果起著至關重要的作用,而適當的網絡結構,才能充分發揮數據的最大性能。
本篇文章提煉出用于圖像分類的數據集及其適用方向,涵蓋人物、醫學、動物、工業等多個領域,同時基于業界最權威的分類評價數據集——ImageNet,分析近年來圖像分類中經典網絡所取得的進展。
2 數據集
俗話說:巧婦難為無米之炊。數據作為驅動深度學習的源動力之一,更是圖像分類任務的根基,直白來說,任何領域的分類研究都離不開數據。
不論學界還是工業界,確定特定的研究方向后,必須搭建相關的高質量數據集才可以進行進一步的研究,同時也能以更統一的標準對模型性能進行評判。
本文根據應用場景的不同,匯總了9個相關領域的數據集,并根據數據集自身特點,注明其容量、類別和適用的分類任務,以供大家參考使用。
拋開上文中列舉的領域相關性,圖像分類的數據集又可以分為初級版、進階版和高級版。
初級版適合初入圖像處理領域的同學,這一類數據集主要以MNIST、Cifar 10為代表,可以幫助新手迅速了解神經網絡的構成,同時掌握深度學習和圖像處理的相關基礎知識。
進階版適合已經有一定基礎的同學,需要通過更多的實操來強化對不同結構和知識的理解,并實現調參、數據處理、網絡結構替換等更高一層的任務,Cifar 100、表情分類相關的數據集則是其中代表。
高級版適用于經過多個任務歷練并需要根據實際需求和科研方向來選擇數據集的同學,這就涉及到多標簽分類、細粒度分類和少樣本分類等更復雜的任務,此時需要選擇MS COCO、ImageNet等更高層級的數據集,同時還有可能同時利用這些數據集,從中選取合適的圖像并結合爬蟲或實際拍攝以搭建滿足任務需求的數據集。
3 經典網絡結構
ImageNet作為圖像分類領域最權威的數據集,由Stanford的李飛飛團隊在2009年CVPR會議上公布,隨后的幾年里均會開展基于ImageNet的圖像分類競賽。ImageNet競賽的評價標準分為Top-1、Top-5兩種,這也是圖像分類的通用指標。其中Top-1是指對一張圖片進行預測,只有預測概率最大的是正確答案時,才認為該圖片預測正確,同理Top-5是指對一張圖像進行預測,預測概率前五名中,只要有一個符合標注,即認為該圖片預測正確。
ImageNet競賽一經開展便成為世界各大高校、科研機構、科技公司的角斗場,每年均有諸多團隊提出令人耳目一新的網絡結構和相關算法。ImageNet競賽也見證了圖像分類由傳統算法走向深度學習的過程,更見證了其所取得的巨大進步。
本文剩余篇幅將介紹幾個經典的網絡結構,回顧近年來圖像分類領域取得的研究進展。
1、AlexNet
2012年,Imagenet比賽冠軍— Alexnet直接刷新了ImageNet的識別率,奠定了深度學習在圖像處理領域的優勢地位。AlexNet作為真正意義上的深度網絡,提出卷積+池化堆疊的網絡結構,是深度學習領域內第一個有重大工程意義的網絡設計。
其特點如下[1]:
(1) 使用層疊的卷積層,即卷積層+卷積層+池化層來提取圖像的特征
(2) 使用了LRN歸一化層,對局部神經元的活動創建競爭機制,抑制反饋較小的神經元放大反應大的神經元,增強了模型的泛化能力
(3) 使用Dropout抑制過擬合
(4) 使用數據增強抑制過擬合
(5) 使用Relu替換之前的sigmoid的作為激活函數,其收斂更快,同時解決了Sigmoid在網絡較深時出現的梯度彌散問題
2、VGGNet
2014年ImageNet競賽上,VGGNet在AlexNet的基礎架構上增加網絡層數和深度,進一步提升了模型的準確率,探索了網絡深度與性能之間的關系,證明了增加網絡的深度能夠在一定程度上影響最終的性能,這也引發了人們對網絡深度和寬度的大范圍研究[2,3]。
3、GoogleNet
GoogleNet作為與VGGNet同年誕生的網絡,力壓VGGNet獲得當年的冠軍,并提出了著名的Inception模塊,將分支的思想成功引進深度學習網絡結構。
Inception模塊共有 4個分支,每個分支承擔不同的功能:分支1對輸入進行1x1卷積可以跨通道組織信息,提高網絡的表達能力; 分支2使用了1×1卷積和3×3卷積的組合,進行兩次特征變換; 分支3采用1×1卷積和5×5卷積的組合,同樣進行兩次特征變換; 分支4則在3×3最大池化后直接使用1×1卷積。
通過多個卷積核提取圖像不同尺度的信息,最后進行融合,可以得到圖像更好的表征[4]。
4、ResNet
隨著網絡深度的增加,帶來了許多問題,如梯度消散、梯度爆炸等,人們通過更好的優化方法,更好的初始化策略,BN層,Relu等各種激活函數在不斷改善這些問題,但并沒有真正有效的解決[5]。
ResnNet提出殘差結構,增加一個恒等映射,將輸出表述為輸入和輸入的一個非線性變換的線性疊加,通過跨層連接的方式緩解深層網絡結構中的梯度消失問題,使得網絡模型深度在很大范圍內不受限制 ,對后續卷積神經網絡的發展產生了深遠的意義。
5、SENet
隨著網絡結構的不斷完善和發展,人們已經從深度和寬度等多個空間維度提出改進方案,SENet則創新性地從特征通道之間的關系進行改進,通過額外的分支來得到每個通道的權重,自適應地校正原各通道激活值響應,以提升有用通道響應并抑制對當前任務用處不大的通道響應,不僅在一定程度上減少了計算量,防止了模型訓練的過擬合,同時更有利于對圖像特征的描述。
4 總結
隨著深度學習的迅速發展,圖像分類領域也搭上了這班飛速前行的列車,并大大提高了行業標準。
經典網絡在ImageNet數據集上取得了非常優異的成績,5個經典網絡的準確率和參數量如上圖所示,不難看出在Top-5評價指標下,已由AlexNet取得的85%的精度被SENet提升至97.75%,且在網絡參數上也沒有顯著的爆炸現象。
如此優異的成績不禁讓許多人認為圖像分類已經達到了算法的極限,卻并不知道在Top-1評價指標下,仍然有巨大的提升空間。
通過上圖不難發現,在更加嚴格也更加符合人類認知的Top-1指標下,經典網絡所取得的成績并不盡如人意,目前最高的準確率約在85%左右,仍然存在巨大的提升空間。因此,我們要懷著一顆敬畏之心,不斷地向最優的目標前行,才能實現更廣泛的應用。
參考文獻:
[1] 【模型解讀】從LeNet到VGG,看卷積+池化串聯的網絡結構
[2]?【AI不惑境】網絡深度對深度學習模型性能有什么影響?
[3]?【AI不惑境】網絡的寬度如何影響深度學習模型的性能?
[4]?【模型解讀】GoogLeNet中的inception結構,你看懂了嗎
[5]?【AI不惑境】殘差網絡的前世今生與原理
有三AI夏季劃
有三AI夏季劃進行中,歡迎了解并加入,系統性成長為中級CV算法工程師。
轉載文章請后臺聯系
侵權必究
往期精選
【技術綜述】你真的了解圖像分類嗎?
【技術綜述】多標簽圖像分類綜述
【圖像分類】分類專欄正式上線啦!初入CV、AI你需要一份指南針!
總結
以上是生活随笔為你收集整理的【图像分类】从数据集和经典网络开始的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像分类】 基于Pytorch的多类别
- 下一篇: 【Python进阶】你真的明白NumPy