MixPath:基于权重共享的神经网络搜索统一方法
?PaperWeekly 原創(chuàng) ·?作者|陸順
學校|中科院計算所碩士
研究方向|神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索
論文標題:MixPath: A Unified Approach for One-Shot Neural Architecture Search
論文鏈接:https://arxiv.org/abs/2001.05887
代碼鏈接:https://github.com/xiaomi-automl/MixPath
本方法拓展了現(xiàn)有神經(jīng)網(wǎng)絡(luò)搜索中的權(quán)重共享(One-Shot)路線,打破了只能搜單路徑模型的限制,支持多路徑搜索空間。方法采用多路徑激活訓練一個超網(wǎng)(supernet)的方式,從而對多路徑子網(wǎng)進行性能評估,已有的單路徑方法? SPOS、FairNAS 因此成為該方法的特例。
本文證明了多路徑超網(wǎng)在多路激活下的特征幅度關(guān)系,推測其可能導致了多路徑超網(wǎng)訓練不穩(wěn)定性。基于此,本文提出使用影子批正則化(Shadow BN, SBN)來對多路徑激活的特征進行“如影隨形”的正則化,實驗證明其能夠有效緩解訓練不穩(wěn)定性。
本文進一步用實驗證明 Shadow BN 可以提高多路徑超網(wǎng)對多路徑子網(wǎng)的排序能力(ranking),而且作用于訓練過程的 Shadow BN 可以與訓練后的 BN 校準相結(jié)合,能夠進一步提升超網(wǎng)的排序能力,在 NAS-Bench-101 子集上達到的 Kendall Tau 值為 0.597。
該方法搜索出來的輕量級模型,準確率達到業(yè)界領(lǐng)先水平,其中 MixPath-B 在 ImageNet 上達到 77.2%。
研究動機
多路徑模型可以更好地平衡性能和計算消耗(Inception,ResNeXt)。當前不含先驗的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法,缺乏一種和 FairDARTS 多路徑方式對偶的搜索方式(Fig 2)。
在分兩階段的權(quán)重共享方法中,訓練超網(wǎng)是為了保證其對子模型的排序能力,即能夠分辨子模型的優(yōu)劣。
使用傳統(tǒng)的單個 BN 訓練多路徑超網(wǎng),訓練過程并不穩(wěn)定,模型排序能力也比較弱(Fig.3.b 藍綠兩種方法預測出的準確率區(qū)間在 0-0.2),因而需要一種方法能夠提高多路徑超網(wǎng)的訓練穩(wěn)定性和排序能力。
方法
通過分析 Supernet 訓練過程中特征圖的相似度及模長(Fig.4),作者推測使用 Shadow BN 來跟蹤不同路徑組合情況時的特征分布,使得多次激活之間特征變化不至于相差過大,盡然改善超網(wǎng)的訓練過程。
本文提出的采用 Shadow BN 的多路徑搜索方式如 Fig1 所示。作者采用了 MobilenetV2 的結(jié)構(gòu)塊(block),每個 block 中可以選擇 depthwise conv 的數(shù)量以及卷積核的大小。
下圖中間為 m=2 的示意圖,即可選一條或兩條路徑,若選擇一條路徑則對應 SBN1(所有的單路徑都經(jīng)過 SBN1),若選擇兩條路徑則可從 4 種操作中不重復地選擇兩種,輸出疊加后,此時對應 SBN2(所有的雙路徑對應 SBN2)。
同理若 m=3 或者 m=4,則最多可選 3 條或 4 條路徑,分別對應 SBN3 和 SBN4。
下圖右是 SBN1(紅) 和 SBN2(綠) 需要跟蹤的特征均值和方差示意圖,作者根據(jù)理論分析出雙路徑的特征分布均值大約是單路徑的兩倍,方差大約是單路徑的四倍。顯然,單個 BN (黑)無法跟蹤這兩種分布。
FairNAS 指出單路徑超網(wǎng)的不同路徑輸出的特征圖是相似的,作者因此定義了一種零階條件,即給定任意輸入 x,對于兩種不同的操作 y=f(x) 和 z=g(x),輸出特征圖 y≈z。此時,二者均值 E(y)≈E(z),方差 Var(y)≈Var(z)。
在雙路徑激活情形下,其輸出特征圖為 y+z,均值為 E(y+z)=E(y)+E(z)≈2E(y),方差? Var(y+z)≈Var(2y)=4Var(y),證明如下。
本文通過實驗對上述證明進行了驗證,如 Fig.5 所示,SBN2 學到的均值大約是 SBN1 的兩倍,方差大約是 SBN1 的四倍,可以看出是基本符合上述推導的。
不同數(shù)量組合操作的輸出,他們之間的均值和方差確實發(fā)生了變化,因此使用單個 BN 無法對呈多種分布的特征進行正則化。
同時由于相同數(shù)量不同組合操作的輸出仍滿足相似性,例如 y+z 和 u+v ,只需對應一個BN 即可,否則 BN 的數(shù)量會指數(shù)型增長,反而不利于訓練。
進一步地,可以看出無論是否使用 Shadow BN,輸出特征圖的余弦相似度都是較高的如 Fig 4a 所示,他們之間的夾角雖然很小,但是模長(圖 b 中的藍線)呈比例關(guān)系,差別明顯。
當不使用 SBN 時,不同數(shù)量組合的操作在經(jīng)過單個 BN后,模長仍然是不一致的;而當使用 SBN 時,不同數(shù)量組合的操作經(jīng)過 SBN 后,模長變得十分接近。這就使得超網(wǎng)每個 Block 中不同組合的輸出是接近穩(wěn)定的,從而使得超網(wǎng)的訓練能夠穩(wěn)定下來。
實驗
使用本文的方法在 NAS-Bench-101 的子集(以適應 MixPath 搜索空間)上進行驗證,測試 ranking 如 Fig 6b,可見 SBN 和 BN 校準操作并用可以最大限度提升超網(wǎng)的排序能力:
使用本文方法在 CIFAR-10 進行搜索,將所得模型單獨訓練后進行對比;同時將 ImageNet 上搜索所得模型遷移到 CIFAR-10,top-1 準確率達到了 98.1%。
使用本文方法在 ImageNet 進行搜索,將所得模型單獨訓練后的對比,其中 MixPath-B 準確率最高可達 77.2%:
搜索所得多路徑模型的結(jié)構(gòu)示意圖如 Fig 7:
使用本文方法搜索所得模型遷移到目標檢測任務上的對比:
消融實驗
對比使用指數(shù)個 BN(即任意一種不同組合操作都對應一個 BN),效果不如 SBN(線性)。雖然指數(shù)個 BN 會更準確地捕捉分布的變化,但此時 BN 的參數(shù)更多,使得校準時更難以匹配均值和方差, 反而導致 ranking 能力降低。
用 SBN 訓練的 Supernet 采樣子模型比不用 SBN 的分布更好,隨機采樣 1000 個模型的預測準確率分布(激活 m=1,2,3,4個路徑):
使用 NSGA-II 搜索策略和隨機搜索策略的對比:
組件分析:同等訓練環(huán)境和模型大小約束下,不使用 SBN 訓練 Supernet 所得單模型在 CIFAR-10 上的準確率最高為 97.12%,使用 SBN 訓練 Supernet 所得單模型準確率最高為 97.35%。
思考
為什么使用 SBN 能夠穩(wěn)定訓練同時提升排序能力:余弦相似度并不是訓練穩(wěn)定的唯一條件,還需要保證特征分布的一致性,使用 SBN 能夠?qū)Χ嗦窂较碌奶卣鞣植歼M行正則化,從而促進穩(wěn)定訓練。
當訓練穩(wěn)定后,各個子網(wǎng)絡(luò)能獲得更合適的權(quán)重,從而能夠更好地代表單模型的真實精度。
為什么 SBN 能和后校準 BN 疊加能提升排序能力:根據(jù)前述分析可知,不同路徑組合的特征均值和方差是并不是完全滿足上述推導關(guān)系,從 Fig 5 也能看出是大部分滿足上述結(jié)論。
所以通過后校準 BN,能夠彌補單個 SBN 對多種組合(比如 y+z 和 u+v )近似估計的偏差,通過重新調(diào)整 BN 的參數(shù),從而使得二者能夠共同提升排序能力。
點擊以下標題查看更多往期內(nèi)容:?
小米AI實驗室AutoML團隊最新成果FairNAS
小米AutoML團隊發(fā)布可伸縮超網(wǎng)SCARLET
NAS+目標檢測:AI設(shè)計的目標檢測模型長啥樣?
基于元學習和AutoML的模型壓縮新方法
Fair DARTS:公平的可微分神經(jīng)網(wǎng)絡(luò)搜索
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的MixPath:基于权重共享的神经网络搜索统一方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安卓版 Arc Search 开启公测:
- 下一篇: 微软发布 Visual Studio C