【知识星球】为什么图像分类任务要从256*256中裁剪出224*224
歡迎大家來到《知識星球》專欄,這里是AI1000問小專題。
作者&編輯 | 言有三
1 圖像分類任務輸入尺寸相關的問題
有關于經典的圖像分類任務中的輸入圖像尺寸問題,很多同學都有疑問,我們之前已經回答過為什么圖像分類網絡輸入大小是224*224,可以查看往期解答,【AI-1000問】為什么深度學習圖像分類的輸入多是224*224。
今天再來回答一個與之相關的,為什么很多模型將輸入縮放到256*256然后裁剪成224*224呢?
有三AI1000問-模型篇
為什么要從256*256中裁剪出224*224
大家都知道,很多模型的訓練是先將圖像resize到256*256,然后再隨機裁剪成224*224大小,為什么是這么做呢?
作者/編輯 言有三
首先要回顧一下為什么分類任務的輸入圖像大小常常是224*224。
分類任務輸出特征圖如果尺寸太小,那么信息就丟失太嚴重,如果尺寸太大,信息的抽象層次不夠高,計算量也更大,7*7的大小是一個很好的平衡。圖像從大分辨率降低到小分辨率,降低倍數通常是2的指數次方,所以圖像的輸入一定是7*2的指數次方。以ImageNet為代表的大多數分類數據集,圖像的長寬在300分辨率左右。
所以要找一個7*2的指數次方,并且在300左右的分辨率作為輸入,其中7*2的4次方=7*16=112,7*2的5次方等于7*32=224,7*2的6次方=448,與300最接近的就是224了。
接下來我們再思考為什么通常是將圖像resize到256*256。
首先我們要知道crop的目標是用于做數據增強。
當我們描述一個數據集的大小,通常是以數量級來衡量,而數據增強也比例外,我們的目標是將數據集增長為原來的幾個數量級以上,即擴充10,100,1000倍等。
輸入為N*N的大圖,crop輸出為M*M的小圖,可以實現(xiàn)(N-M)*(N-M)的數據集擴充倍數。對應擴充10,100,1000,10000倍,N-M約為3,10,32,100,因為最終結果圖是224*224,所以原圖就應該是227*227,234*234,256*256,324*324,很明顯從256*256這個尺度進行裁剪,能夠保證主體不至于太小或者太大,如前面圖中紅色框。
那不使用256*256使用其他的尺寸如何呢?在比賽刷榜中,經常使用多尺度模型測試,即使用不同尺度的輸入圖進行裁剪然后進行結果融合,筆者曾經在Place365數據集上訓練過ResNet和DPN模型,下面是不同尺度的測試結果。
不同尺度的結果會有差異,但是通常都不大,因此除非模型特殊,不必太糾結與這個問題,畢竟256等于2^8,2的指數次冪,多么經典又快意。
2 更多AI1000問
更多的問題,可以移步知識星球閱讀,也可以主動提出需求,合適的問題會被添加進本系列!
有三AI知識星球的內容非常多,大家可以預覽一些內容如下。
以上所有內容
加入有三AI知識星球即可獲取
來日方長
點擊加入
不見不散
更多精彩
每日更新
轉載文章請后臺聯(lián)系
侵權必究
往期精選
有三AI知識星球官宣,BAT等大咖等你來撩
揭秘7大AI學習板塊,這個星球推薦你擁有
有三AI 1000問回歸,備戰(zhàn)秋招,更多,更快,更好,等你來戰(zhàn)!
如何系統(tǒng)性掌握深度學習模型設計和優(yōu)化
【知識星球】做作業(yè)還能贏獎金,傳統(tǒng)圖像/機器學習/深度學習盡在不言
【知識星球】顏值,自拍,美學三大任務簡介和數據集下載
【知識星球】數據集板塊重磅發(fā)布,海量數據集介紹與下載
【知識星球】貓貓狗狗與深度學習那些事兒
【知識星球】超3萬字的網絡結構解讀,學習必備
【知識星球】視頻分類/行為識別網絡和數據集上新
【知識星球】3D網絡結構解讀系列上新
【知識星球】動態(tài)推理網絡結構上新,不是所有的網絡都是不變的
【知識星球】Attention網絡結構上新,聚焦才能贏
【知識星球】幾個人像分割數據集簡介和下載
【知識星球】總有些骨骼輕奇,姿態(tài)妖嬈的模型結構設計,不知道你知不知道,反正我知道一些
【知識星球】從SVM對偶問題,到疲勞駕駛檢測,到實用工業(yè)級別的模型壓縮技巧
總結
以上是生活随笔為你收集整理的【知识星球】为什么图像分类任务要从256*256中裁剪出224*224的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【每周NLP论文推荐】 NLP中命名实体
- 下一篇: 【知识星球】ElementAI提出超复杂