论文阅读:Multi-scale orderless pooling of deep convolutional activation features
2014年ECCV
Motivation
以往的圖像分類,關注的信息可能更容易被干擾。比如下圖中的(a),groundtruth應該是滑雪(ski),但是由于一些其他信息的干擾,導致紅框中框出來的部分被分類為shovel,籃框中被認為是阿爾卑斯山,那么這篇論文就是基于這樣一個motivation,試圖關注圖像中更細節的信息。
Basic Idea
Multi-scale體現在對于同一張輸入圖片,作者做了三個尺度上的變化,第一個,level one就是原圖經過CNN后,提取全連接層的特征,得到一個4096維的向量。第二個和第三個是對圖像做了不同尺度的scale,第二個level每個patch的大小是128*128,第三level和第二個level做的操作是一樣的,區別就是他的每個patch大小是64*64。
Framework
我自己畫了一個非常low的framework圖,對于一張輸入圖像,首先做一個multi-scale,也就是將它分成若干不同大小的patch,然后將其送到一個CNN中訓練,并提取全連接層的特征,再經過一個ReLU變化將所有的值轉化為非負,經過K近鄰和VLAD pooling后,送到線性SVM中訓練并得到結果。再整個過程中,對于每一個patch得到的4096維的全連接層輸出,使用了PCA降維至500,論文中使用了100 k-means 中心,所以將得到一個50000維的向量,但是對于大規模應用來說,這一維度仍然很高,所以作者又再次使用PCA將50000的向量降維至4096維。
Performance
測試過程中考慮到了四種情況的變換:平移,縮放,翻轉和旋轉。如下圖,第一行第一列是原圖,第一行是不同尺度下的scale,第二行是平移,第三行是翻轉和旋轉。
與CNN相比,多種變換下的分類準確率:
注意到在翻轉變換(d)中,水平翻轉后的分類準確率可以達到與原圖相一致,這是因為在CNN中的data層采用了mirror進行了數據增廣,因此對水平翻轉具有很好的識別率。
論文中還做了其他很多實驗,除了在SUN397和MIT Indoor Scenes數據庫上做了Image classification,還在ILSVRC2012/2013上做了Image retrieval。總的來說結果還不錯,不過思想很簡單,包裝的也蠻玄乎的。
總結
以上是生活随笔為你收集整理的论文阅读:Multi-scale orderless pooling of deep convolutional activation features的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 无法引入同级目录的方法_再
- 下一篇: Python 脚本错误:Indentat