當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：MobileNet v2

發布時間：2025/3/21 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：MobileNet v2 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原論文：MobileNetV2: Inverted Residuals and Linear Bottlenecks

要解決什么問題？

用了什么方法解決？

效果如何？

作者在論文中給出了一系列任務下的實驗結果：ImageNet圖像分類、目標檢測、語義分割等，MobileNet v2均取得了比MobileNet v1更好的效果。
就目標檢測來說，由MobileNet v2擴展構建的網絡，其性能相比于其他架構如：Faster-RCNN、RFCN等還是遜色不少，但是考慮到模型的實時性和計算量，MobileNet v2在各項任務的表現相比于同一量級的模型是state-of-the-art的。

還存在什么問題？

社區對其的評價普遍都挺高，但也有一些人說自己復現（基于TensorFlow的）無法達到論文中的精度。網上也有挺多開源的復現代碼（基于Pytorch），用的時候還是自己復現一下再下定論吧。

基本思想就是：講一個普通的卷積操作拆分成兩個卷積操作。第一層為depthwise卷積，分別對每個輸入通道進行卷積；第二層是pointwise卷積，實質就是 $\times 1$ 卷積，主要是用來將前面depthwise輸出的特征組合起來構建新的特征。

文中，經過激活層后的張量被稱為manifold of interest（看到網上將其翻譯為興趣流形，總覺得有點不到位，所以后面都直接用英文代替）。
在manifold of interest（經過ReLU后的張量）非0的情況下，ReLU只是一個線性變換。
ReLU只有在input manifold處于輸入空間的子空間的情況下，才能保留input manifold的全部信息。
- 換句話說，只要使用了ReLU，就不可避免地要損失該通道內的一部分信息。
- 文中還給了一個示例，將input先映射到高維空間然后接一個ReLU后再還原回原來的維度。
- 示意圖如下，可以看出映射的維度越高，還原的效果越好，保留的原始信息越多。

普通的residual block與inverted residual block之間的對比：
- 每個長方體的厚度象征著通道數。
- a為傳統的residual block。結構為： $\times 1$ 卷積（降維）+ReLU–> $\times 3$ 卷積+ReLU–> $\times 1$ 卷積（升維）+ReLU。
- b為反轉的residual block(inverted residual block)。結構為： $\times 1$ 卷積（升維）+ReLU–> $\times 3$ depthwise separable卷積+ReLU–> $\times 1$ 卷積（降維）（注意，這里是不帶ReLU的，即前面提到的linear bottleneck）。

以上是生活随笔為你收集整理的论文笔记：MobileNet v2的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。