當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AlexNet 和 VGG-Net的区别

發布時間：2023/12/18 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 AlexNet 和 VGG-Net的区别小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文：http://www.ithao123.cn/content-8359874.html

摘要－今年的 CVPR 非常的火爆，總共有2800多人參與，相比去年增加了700多人，這與deep learning的異軍突起是不無關系的。CVPR 2015 基本是 “the year of deep learning”，有大概70%的文章是關于deep learning的。

今年的 CVPR 非常的火爆，總共有2800多人參與，相比去年增加了700多人，這與deep learning的異軍突起是不無關系的。CVPR 2015 基本是 “the year of deep learning”，有大概70%的文章是關于deep learning的。大會請來了2位 keynote speakers: 計算機學家 Yann LuCun (NYU， Facebook) 和心理學家、神經學家 Jack Gallan (Berkeley)。 Yann是公認的 Convolutional Neural Network (CNN) 之父，而Jack是為數不多的神經學領域看好deep learning的科學家，他用實驗顯示了ConvNets不同層和 visual cortex (視覺皮層) 不同層它們之間的相關性。

顯然，deep learning在工程和科學領域都引起了不小的轟動，不過既然CVPR是一個工程領域會議，我們就先聊聊deep learning在工程領域過去2年的進展。

AlexNet和VGG-Net也成為約定俗成的術語

在過去的十年里，SVM，SIFT，HOG 已成為計算機視覺學者人人皆知的名詞，每個計算機視覺學者直接把它們當作專有名詞寫進文章，而不需要加以解釋，甚至到后來也不用注明出處。今年的 CVPR, 由于過去2年 deep learning 在 computer vision 的很多問題上取得了state-of-the-art 的結果，使得這2種 deep architectures: AlexNet & VGG-Net, 成為一個約定俗成的專有名詞，大家開始在文中廣泛的使用它們，就如大家以前廣泛使用 HOG，SVM一樣。

AlexNet和VGG-Net 的起源與network結構

AlexNet 是一種典型的 convolutional neural network，它由5層 convolutional layer，2層 fully connected layer，和最后一層 label layer (1000個node, 每個node代表ImageNet中的一個類別) 組成。2012年，deep learning的大牛教授 Geoffrey Hinton (University of Toronto, Google) 的學生Alex Krizhevsky 設計了一個8層的CNN，并把它用于ImageNet的image classification，直接把當時最好算法的錯誤率差不多減半。這引起了computer vision community 的強烈關注。這篇文章的出現也是 deep learning 開始被 computer vision community 接受的關鍵轉折點。如是后來大家把這個8層的CNN命名為AlexNet。

VGG-Net同樣也是一種CNN，它來自 Andrew Zisserman 教授的組 (Oxford)，VGG-Net 在2014年的 ILSVRC localization and classification 兩個問題上分別取得了第一名和第二名，VGG-Net不同于AlexNet的地方是：VGG-Net使用更多的層，通常有16－19層，而AlexNet只有8層。另外一個不同的地方是：VGG-Net的所有 convolutional layer 使用同樣大小的 convolutional filter，大小為 3 x 3。

AlexNet和VGG-Net 中的 feature

Deep learning 實際上是一種 feature engineering 的方法。不論是AlexNet還是VGG-Net，倒數第二層都可以很好的描述image全局特征，所以它們通常用來當作 input image 新的 feature，用來做 image classification（最后一層N個node的softmax層，代表了N個類別）。那么, AlexNet 和 VGG-Net 的 intermediate layer（中間層）呢？他們是否也可以作為特征來使用？答案是肯定的。這些 intermediate convolutional layer 描述了影像的 local feature (局部特征)，而最后的幾層（倒數第二、第三層） fully connected layer，描述了影像的 global feature (全局特征)。如果一個 deep architecture 只有 convolutional layer, 那么 input image 可以任意大小，可是一旦在convolutional layer 上面疊加上 fully connected layer，input image大小就需要固定了。今年CVPR有好多文章使用 convolutionally filtered intermediate layer 作為 local feature，典型的代表有 Jitendra Malik (Berkeley) 組的 Hypercolumns for Object Segmentation and Fine-grained Localization，Xiaoou Tang (CUHK) 組的 Action Recognition With Trajectory-Pooled Deep-Convolutional Descriptors。

總結

以上是生活随笔為你收集整理的AlexNet 和 VGG-Net的区别的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： git 未能顺利结束（退出码1）
下一篇： Matlab 字符串比较