读后感与机翻《AOGNets》
本文是在研究朱松純團(tuán)隊(duì)中大量使用的“與或圖”概念而找到的一篇學(xué)習(xí)論文,下述論文并非朱松純團(tuán)隊(duì)的,而是北卡州立大學(xué)一個(gè)博士生發(fā)明的,其實(shí)驗(yàn)室專(zhuān)門(mén)研究可解釋性深度學(xué)習(xí)。
?
讀后感
-
作者干了什么事?
- 業(yè)界第一個(gè)將圖像語(yǔ)法(與或圖)和深度學(xué)習(xí)相結(jié)合,創(chuàng)造出一種新型網(wǎng)絡(luò)結(jié)構(gòu):Deep Grammer Model,該結(jié)構(gòu)在目標(biāo)分類(lèi)和目標(biāo)檢測(cè)數(shù)據(jù)集上,獲得堪比ResNet的效果。
-
怎么實(shí)現(xiàn)的?
- (細(xì)節(jié)暫時(shí)還沒(méi)看,下一步結(jié)合源碼詳細(xì)研究下)
-
是否有落地的價(jià)值?
- 無(wú)論是精度還是速度,似乎很有開(kāi)展遷移測(cè)試的價(jià)值。
?
《AOGNets: Compositional Grammatical Architectures for Deep Learning》,
基于語(yǔ)法模型(與或圖語(yǔ)法)的深度學(xué)習(xí),CVPR2019,https://github.com/iVMCL/AOGNet-v2
?
摘要
神經(jīng)結(jié)構(gòu)是提高深度神經(jīng)網(wǎng)絡(luò)(DNNs)性能的基礎(chǔ)。這篇文章介紹了深層的語(yǔ)法結(jié)構(gòu),利用了兩個(gè)世界的最好:語(yǔ)法模型和DNNs。所提出的結(jié)構(gòu)原則地結(jié)合了前者的可組合性和可重構(gòu)性,以及后者的可學(xué)習(xí)性和豐富的特征。在本文中,我們利用和或語(yǔ)法(AOG)[55, 75, 74]作為網(wǎng)絡(luò)生成器,并將生成的網(wǎng)絡(luò)稱(chēng)為AOGNets。一個(gè)AOGNet由許多階段組成,每個(gè)階段都由許多AOG構(gòu)建塊組成。一個(gè)AOG構(gòu)建塊將它的輸入fea- ture map沿著特征通道分成N組,然后把它當(dāng)作一個(gè)包含N個(gè)單詞的句子。然后在自底向上的句子分析中共同實(shí)現(xiàn)了短語(yǔ)結(jié)構(gòu)語(yǔ)法和依賴語(yǔ)法,以更好地解釋句子的特征和重用。它為最先進(jìn)的DNNs開(kāi)發(fā)的最佳實(shí)踐提供了一個(gè)統(tǒng)一的框架。在實(shí)驗(yàn)中,對(duì)AOGNet進(jìn)行了CIFAR-10、CIFAR-100和ImageNet-1K分類(lèi)基準(zhǔn)測(cè)試和MS- COCO目標(biāo)檢測(cè)和分割基準(zhǔn)測(cè)試。在ci遠(yuǎn)-10、ci遠(yuǎn)-100和ImageNet-1K中,AOGNet的性能優(yōu)于ResNet[23]及其大多數(shù)變異螞蟻、ResNeXt[66]和基于注意的變體SENet[27]、DenseNet[29]、DualPathNet[7]。AOGNet還通過(guò)網(wǎng)絡(luò)分析[4]得到了最佳模型可解釋性評(píng)分。AOGNet在對(duì)抗性防御中顯示出了更好的潛力。在MS-COCO中,AOGNet獲得比Mask R-CNN[22]中的ResNet和ResNeXt脊骨更好的表現(xiàn)。
1 介紹
1.1?動(dòng)機(jī)和目的
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(DNNs)[38,33]在許多視覺(jué)任務(wù)中顯著提高了預(yù)測(cè)精度,并在圖像分類(lèi)任務(wù)中獲得了超人的性能[23,58,29,7]。這些進(jìn)展主要是通過(guò)共同解決兩個(gè)問(wèn)題的工程網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)的:通過(guò)深入或擴(kuò)展來(lái)增加代表性的能力,以及通過(guò)使用隨機(jī)梯度下降的反向傳播來(lái)保持優(yōu)化的可行性(例如,van- ishing和/或爆炸梯度問(wèn)題)。鑒于目前DNNs缺乏理論基礎(chǔ),這一戲劇性的成功并不一定說(shuō)明其足夠充分。不同的方法值得探索,以擴(kuò)大神經(jīng)結(jié)構(gòu)的范圍,尋求更好的DNNs。例如,Hinton最近指出了當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)關(guān)鍵缺陷:根據(jù)最近的神經(jīng)科學(xué)研究,這些人工網(wǎng)絡(luò)沒(méi)有包含足夠的層次結(jié)構(gòu)[25,53]。在本文中,我們感興趣的是語(yǔ)法引導(dǎo)的網(wǎng)絡(luò)生成器(圖1)。
圖1所示。說(shuō)明我們的AOG構(gòu)建塊語(yǔ)法指導(dǎo)網(wǎng)絡(luò)生成器。由此產(chǎn)生的網(wǎng)絡(luò)AOGNets在Ima- geNet中使用了40.3M參數(shù),獲得了80.18%的top-1精度,顯著優(yōu)于ResNet-152 (77.0%, 60.2M)、ResNeXt-101(79.6%, 8390萬(wàn))、DenseNet-Cosine-264 (79.6%, 73M)和DualPathNet-98(79.85%, 6160萬(wàn))。參見(jiàn)正文。(彩色觀看效果最佳)
神經(jīng)結(jié)構(gòu)設(shè)計(jì)和搜索可以作為乘積空間中包含兩個(gè)子空間的組合搜索問(wèn)題(圖2 (a)):
- 由所有有向無(wú)環(huán)圖(DAGs)組成的結(jié)構(gòu)空間,開(kāi)始節(jié)點(diǎn)表示輸入原始數(shù)據(jù),結(jié)束節(jié)點(diǎn)表示任務(wù)丟失函數(shù)。為獲得可行的補(bǔ)償,必須提供折扣。
- 一個(gè)DAG中包含所有可能的im- plementing節(jié)點(diǎn)的轉(zhuǎn)換函數(shù)的節(jié)點(diǎn)操作空間,如Convolu- tion+BatchNorm [31]+ReLU[33],及其在不同內(nèi)核大小和不同特征通道數(shù)下實(shí)現(xiàn)的瓶頸[23]。
圖2。舉例說(shuō)明(a)神經(jīng)結(jié)構(gòu)的空間,(b)基于構(gòu)造塊的設(shè)計(jì),(c) GoogLeNet [58], ResNet [23], ResNeXt [66], DenseNet[29]和DualPathNets[7]中流行的構(gòu)造塊的例子。詳情見(jiàn)正文。
結(jié)構(gòu)空間幾乎是無(wú)界的,給定結(jié)構(gòu)的節(jié)點(diǎn)操作空間也是組合的。神經(jīng)結(jié)構(gòu)的設(shè)計(jì)和搜索是一個(gè)具有挑戰(zhàn)性的問(wèn)題,由于搜索空間呈指數(shù)大,且目標(biāo)函數(shù)高度非凸。如圖2 (b)所示,為了減輕這種差異,模擬神經(jīng)結(jié)構(gòu)設(shè)計(jì)和搜索,以設(shè)計(jì)或搜索積木結(jié)構(gòu)。然后,DNN由預(yù)定義數(shù)量的階段組成,每個(gè)階段都有少量的構(gòu)建塊。在一定假設(shè)條件下,[1]的理論研究也為這種基于分段的設(shè)計(jì)提供了理論支持。圖2 (c)顯示了一些具有不同結(jié)構(gòu)的常用構(gòu)造塊的例子。兩個(gè)問(wèn)題自然出現(xiàn)了:
- 我們能否在一個(gè)簡(jiǎn)單而優(yōu)雅的框架中統(tǒng)一流行的構(gòu)建塊所使用的最佳實(shí)踐?更重要的是,我們能否以一種有原則的方式生成建筑塊,從而形成網(wǎng)絡(luò),從而有效地展開(kāi)空間(圖2 (a)) ?(如果可行)
- 在不增加模型復(fù)雜性和計(jì)算成本的情況下,統(tǒng)一的構(gòu)建塊/網(wǎng)絡(luò)生成器能否在精度、模型可解釋性和對(duì)抗魯棒性方面證明性能?如果是的話,其潛在的影響將是廣泛而深刻的,因?yàn)楸碚鲗W(xué)在許多實(shí)際應(yīng)用中都是如此。
為了解決上述問(wèn)題,我們首先需要在站在設(shè)計(jì)底層智慧更好的網(wǎng)絡(luò)體系結(jié)構(gòu):它通常在于找到網(wǎng)絡(luò)結(jié)構(gòu)能夠支持靈活多樣的信息流動(dòng)為探索新功能,重用現(xiàn)有的功能在以前的層和back-propagating學(xué)習(xí)信號(hào)(例如,漸變)。那么,我們需要開(kāi)發(fā)和制定哪些關(guān)鍵原則,以使我們能夠以一種比現(xiàn)有網(wǎng)絡(luò)更好的方式有效地展開(kāi)圖2 (a)中的結(jié)構(gòu)空間?組合性、可重構(gòu)性和橫向連通性是認(rèn)知科學(xué)、神經(jīng)科學(xué)和模式理論中眾所周知的原則[13,47,19,14,34,14]。它們是人類(lèi)學(xué)習(xí)豐富知識(shí)和適應(yīng)不同環(huán)境的非凡能力的基礎(chǔ),尤其是在視覺(jué)和語(yǔ)言方面。然而,它們還沒(méi)有完全明確地集成到DNNs中。
在本文中,我們提出了一種構(gòu)造語(yǔ)法結(jié)構(gòu),它可以實(shí)現(xiàn)構(gòu)造塊設(shè)計(jì)的組合性、可重組性和橫向連通性。我們使用and - or語(yǔ)法(AOG)[55, 75, 74],并建議采用AOG構(gòu)建塊來(lái)統(tǒng)一在現(xiàn)有流行構(gòu)建塊中開(kāi)發(fā)的最佳實(shí)踐。我們的方法深度集成了分層和組合語(yǔ)法以及DNNs,以便在深度表示學(xué)習(xí)中充分利用這兩個(gè)世界的優(yōu)點(diǎn)。
為什么語(yǔ)法?在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)中,語(yǔ)法模型是眾所周知的。圖像語(yǔ)法[75,10,74,13]是在深度神經(jīng)網(wǎng)絡(luò)最近重新流行之前計(jì)算機(jī)視覺(jué)的主要方法之一。隨著(DNN)最近的復(fù)蘇,一個(gè)基本的難題出現(xiàn)了,語(yǔ)法模型更明確的組成結(jié)構(gòu)和更好的分析和理論潛力,往往比他們的神經(jīng)網(wǎng)絡(luò)對(duì)手表現(xiàn)得更差。
正如大衛(wèi)·芒福德(David Mumford)所指出的那樣,語(yǔ)言語(yǔ)法只不過(guò)是更古老語(yǔ)法的最新延伸,所有智能動(dòng)物的大腦都內(nèi)置了這些語(yǔ)法,用來(lái)分析感官輸入,構(gòu)造它們的動(dòng)作,甚至形成它們的思維。[46]。我們提出的AOG構(gòu)建塊在分析感覺(jué)輸入方面表達(dá)能力很強(qiáng),彌補(bǔ)了文法和DNNs之間的性能差距。它還實(shí)現(xiàn)了靈活多樣的網(wǎng)絡(luò)結(jié)構(gòu),以滿足Hinton在DNNs[25]中提高結(jié)構(gòu)充大性的要求。
1.2?方法概述
我們首先總結(jié)現(xiàn)有構(gòu)建塊中的最佳實(shí)踐,然后簡(jiǎn)要概述我們提出的AOG構(gòu)建塊(圖1),以及它如何統(tǒng)一現(xiàn)有的構(gòu)建塊。
現(xiàn)有的構(gòu)建模塊通常不能完全實(shí)現(xiàn)這三個(gè)原則(組合性、可重構(gòu)性和橫向連接)。
- InceptionNets或GoogLeNets[58]采用了一種淺層前饋的分裂變換-聚合啟發(fā)式進(jìn)行特征探索,其靈感來(lái)自于網(wǎng)絡(luò)中的網(wǎng)絡(luò)設(shè)計(jì)[42]和[1]分期設(shè)計(jì)的理論研究。然而,過(guò)濾器的數(shù)量和大小是為每個(gè)單獨(dú)的轉(zhuǎn)換而定制的,模塊是逐步定制的。交錯(cuò)組卷積[71]具有類(lèi)似的精神,但使用更簡(jiǎn)單的方案。
- 受高速公路網(wǎng)[56]的啟發(fā),ResNets[23]提供了一種簡(jiǎn)單而有效的解決方案,使網(wǎng)絡(luò)能夠在不犧牲優(yōu)化可行性的情況下享受深入或擴(kuò)展的樂(lè)趣。從表示學(xué)習(xí)的角度來(lái)看,ResNet[23]中的跳轉(zhuǎn)連接有助于有效的特性重用。然而,他們沒(méi)有意識(shí)到在GoogLeNets中所做的拆分部分。
- ResNeXts在ResNets中添加了spit組件,并在轉(zhuǎn)換中使用組卷積解決了Inception模塊的缺點(diǎn)。
- Deep Pyramid ResNets[20]不像vanilla ResNets那樣在每個(gè)殘差單元下采樣時(shí)急劇增加特征通道,而是在構(gòu)建塊之間逐漸增加特征通道。
- DenseNets[29]明確區(qū)分了添加到網(wǎng)絡(luò)的信息和保存的信息。使用了與特征圖連接在一起的密集連接,這對(duì)于特征探索是有效的,但缺乏像ResNets中那樣的特征重用能力。
- 雙路徑網(wǎng)絡(luò)(DPN)[7]并行利用ResNet塊和DenseNet塊來(lái)平衡feature重用和feature exploration。
- Deep Layer Aggregation networks (DLA)[69]在堆疊構(gòu)建塊(如ResNet塊)時(shí)迭代和分層地聚合特征層次。
我們的AOG構(gòu)建塊是分層的,組成和可重新配置的橫向連接設(shè)計(jì)。如圖1所示,一個(gè)AOG構(gòu)建塊將其輸入的feature map沿著feature channels分成N組,并將其視為一個(gè)包含N個(gè)單詞的句子。然后共同實(shí)現(xiàn)了自下而上解析句子的短語(yǔ)結(jié)構(gòu)語(yǔ)法(垂直組合)[12,13,11,75,74,55]和依賴語(yǔ)法(圖1中粉紅色的水平連接)[21,75,14],以便更好地挖掘和重用特征:
- 短語(yǔ)結(jié)構(gòu)語(yǔ)法是[55,65]方法的一維特例。它也可以理解為自然語(yǔ)言處理中著名的Cocke- young - kasami (CYK)解析算法根據(jù)二進(jìn)制合成規(guī)則的修改版本。
- 依賴文法被集成以捕獲橫向連接,并提高表示的靈活性和功能。
在一個(gè)AOG構(gòu)建塊中,每個(gè)節(jié)點(diǎn)對(duì)其輸入應(yīng)用一些基本操作T(·)(例如,Conv-BN-ReLU),節(jié)點(diǎn)有三種類(lèi)型:
- 終端節(jié)點(diǎn)以輸入特征圖的一個(gè)按通道劃分的切片(即k-gram)作為輸入。
- and -node實(shí)現(xiàn)復(fù)合,它的輸入是通過(guò)連接其語(yǔ)法子節(jié)點(diǎn)的特征來(lái)計(jì)算的,如果存在橫向連接,則添加橫向連接。
- or節(jié)點(diǎn)表示備選組合,其輸入是其句法子節(jié)點(diǎn)的特征和如果存在橫向連接的元素智慧的總和。
我們的AOG構(gòu)建塊統(tǒng)一了在流行構(gòu)建塊中開(kāi)發(fā)的最佳實(shí)踐,
- 終端節(jié)點(diǎn)實(shí)現(xiàn)了在GoogLeNets[58]和ResNeXts[66]中所做的分裂轉(zhuǎn)換啟發(fā)式(或組卷積),但在多個(gè)級(jí)別上(包括重疊的組卷積)。它們還在多個(gè)級(jí)別上實(shí)現(xiàn)跳轉(zhuǎn)連接。與ResNets、densenet和DPNs中的基于級(jí)聯(lián)的疊加方案不同,termninel節(jié)點(diǎn)可以并行計(jì)算以提高效率。非終端節(jié)點(diǎn)實(shí)現(xiàn)聚合。
- and節(jié)點(diǎn)實(shí)現(xiàn)類(lèi)似densenet的聚合(即連接)[29],用于特性探索。
- or節(jié)點(diǎn)實(shí)現(xiàn)類(lèi)似resnet的聚合(例如,求和)[23]以實(shí)現(xiàn)特性重用。
- 這種層次性使得Deep Pyramid ResNets[20]中特征通道逐漸增加,也使得網(wǎng)絡(luò)的深度和寬度得到很好的平衡。
- 復(fù)合結(jié)構(gòu)提供了比DPN[7]和DLA更靈活的信息流[69]。
- 橫向連接在不引入額外參數(shù)的情況下,產(chǎn)生了特征多樣性,增加了節(jié)點(diǎn)沿路徑的有效深度。
我們堆疊AOG構(gòu)建塊,形成一個(gè)深層的AOG網(wǎng)絡(luò),稱(chēng)為AOGNet。圖3示出了一個(gè)三級(jí)AOGNet。我們的AOGNet利用了語(yǔ)法的兩個(gè)優(yōu)良特性:(1)基于原語(yǔ)字典和一組生成規(guī)則,有原則地構(gòu)造不同網(wǎng)絡(luò)結(jié)構(gòu)的靈活性和簡(jiǎn)便性;以及(ii)它們明確的層次結(jié)構(gòu)和組合結(jié)構(gòu)的高度表達(dá)力和簡(jiǎn)約緊湊。
圖3。3階段AOG網(wǎng)絡(luò)示意圖,第1、3階段為1個(gè)AOG構(gòu)建塊,第2階段為2個(gè)AOG構(gòu)建塊。注意,不同的階段可以使用不同的AOG構(gòu)建塊。為了簡(jiǎn)單起見(jiàn),我們展示了相同的一個(gè)。主干可以是普通卷積也可以是卷積+MaxPooling。(彩色觀看效果最佳)
2 相關(guān)工作和我們的貢獻(xiàn)
網(wǎng)絡(luò)架構(gòu)是提高DNNs性能的基礎(chǔ)。在本節(jié)中,我們主要關(guān)注手工構(gòu)建的架構(gòu)。神經(jīng)結(jié)構(gòu)搜索的相關(guān)工作可參考調(diào)查論文[9,68]。
手工制作的網(wǎng)絡(luò)架構(gòu)。在5層LeNet5[38]提出20多年后,8層AlexNet[33]在2012年ImageNet[52]上的突破性表現(xiàn)引發(fā)了最近神經(jīng)網(wǎng)絡(luò)的復(fù)蘇。AlexNet在操作員領(lǐng)域提出了兩種新的見(jiàn)解:直線單元(ReLu)和Dropout。從那時(shí)起,人們花了很多精力去學(xué)習(xí)更深入的類(lèi)似alexnet.com的網(wǎng)絡(luò),他們的直覺(jué)是越深越好。VGG網(wǎng)[5]提出了一個(gè)19層的網(wǎng)絡(luò),其思路是使用多個(gè)連續(xù)層的小濾波器(如33)通過(guò)一層大濾波器獲得接受場(chǎng),以及在卷積中采用較小的步長(zhǎng)來(lái)保存信息。network-in-network[42]中提出了一種特殊的情況11卷積,用于減小或擴(kuò)展連續(xù)層之間的特征維數(shù),并在許多網(wǎng)絡(luò)中得到了廣泛的應(yīng)用。VGG網(wǎng)絡(luò)還顯著增加了計(jì)算成本和內(nèi)存占用。
22層的GoogLeNet[59]引入了第一個(gè)inception模塊和一個(gè)11卷積實(shí)現(xiàn)的瓶頸方案來(lái)降低計(jì)算量。進(jìn)一步深層的主要障礙在于優(yōu)化中的梯度消失問(wèn)題,該問(wèn)題在高速公路網(wǎng)[56]中提出并由ResNets[23]推廣的一種新的結(jié)構(gòu)設(shè)計(jì)——短路徑或跳接解決,特別是與批量標(biāo)準(zhǔn)化(BN)[31]相結(jié)合時(shí)。在最近的文獻(xiàn)[23,58]中,超過(guò)100個(gè)層是流行的設(shè)計(jì),甚至在像ImageNet這樣的大規(guī)模數(shù)據(jù)集上訓(xùn)練了超過(guò)1000個(gè)層[30,72]。分形網(wǎng)絡(luò)[37]和深度融合網(wǎng)絡(luò)[63]提供了一種實(shí)現(xiàn)無(wú)殘差超深網(wǎng)絡(luò)訓(xùn)練的捷徑的替代方法。作為對(duì)更深層次的補(bǔ)充,寬度在resnet和基于起始的網(wǎng)絡(luò)中也很重要[70,66,71]。DenseNets[29]超越了ResNets中的一階跳躍連接,提出了一種密集連接的網(wǎng)絡(luò)架構(gòu)和連接方案,以實(shí)現(xiàn)特征的重用和挖掘;DPNs[7]提出了剩余和密集連接交替結(jié)合的方式,以實(shí)現(xiàn)更有效的特征挖掘和重用。DLA networks[69]進(jìn)一步發(fā)展了迭代和層次聚合模式,獲得了很好的性能。跳連接和密集連接都使順序結(jié)構(gòu)適應(yīng)于有向和無(wú)環(huán)圖(DAG)結(jié)構(gòu)的網(wǎng)絡(luò),這在較早的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[3,18]和ConvNets[67]中被探索過(guò)。
大部分工作集中在提高空間編碼和利用空間維數(shù)減少。壓縮和激發(fā)模塊[27]是最近提出的一種簡(jiǎn)單而有效的方法,專(zhuān)注于信道編碼。沙漏網(wǎng)絡(luò)[48]提出了沙漏模塊,包括子抽樣和上抽樣,以享受自底向上/自頂向下的重復(fù)特性探索。
我們的AOGNet是由直觀的簡(jiǎn)單但有原則的語(yǔ)法創(chuàng)建的。它與初始模塊[58]、深度融合網(wǎng)[63]和國(guó)防后偵局[69]具有相同的精神。
語(yǔ)法。[75]提出了圖像語(yǔ)法的一般框架。目標(biāo)檢測(cè)語(yǔ)法是目標(biāo)檢測(cè)的主要方法[10,74,55,41,39,40],最近已經(jīng)與DNNs相結(jié)合[60,61,6]。概率程序歸納[57,35,36]已成功地應(yīng)用于許多場(chǎng)合,但在諸如大規(guī)模圖像分類(lèi)和目標(biāo)檢測(cè)等困難的視覺(jué)理解任務(wù)中并沒(méi)有表現(xiàn)出良好的性能。最近,遞歸皮層網(wǎng)絡(luò)[14]被提出在學(xué)習(xí)中具有更好的數(shù)據(jù)效率,它采用了AND-OR語(yǔ)法框架[75],顯示了文法在開(kāi)發(fā)通用AI系統(tǒng)中的巨大潛力。
我們的貢獻(xiàn)。本文在深度表示學(xué)習(xí)領(lǐng)域做出了兩大貢獻(xiàn):
- 提出了用于深度學(xué)習(xí)的復(fù)合語(yǔ)法結(jié)構(gòu),并提出了深度和或語(yǔ)法網(wǎng)絡(luò)(AOGNets)。AOGNets以分層和組合的方式促進(jìn)了特性探索和特性重用。AOGNets統(tǒng)一了最先進(jìn)的DNNs(如GoogLeNets、ResNets、ResNeXts、DenseNets、DPN和DLA)開(kāi)發(fā)的最佳實(shí)踐。據(jù)我們所知,這是設(shè)計(jì)語(yǔ)法引導(dǎo)的網(wǎng)絡(luò)生成器的第一項(xiàng)工作。
- 它在CIFAR和ImageNet-1K分類(lèi)基準(zhǔn)測(cè)試和MS-COCO目標(biāo)檢測(cè)和分割基準(zhǔn)測(cè)試中取得了比許多先進(jìn)網(wǎng)絡(luò)更好的性能。它也獲得了更好的模型可解釋性,顯示了更大的潛力對(duì)抗性防御。
3 AOGNets
在本節(jié)中,我們首先介紹構(gòu)建我們的AOGNets結(jié)構(gòu)的細(xì)節(jié)。然后,為AOGNet中的節(jié)點(diǎn)定義節(jié)點(diǎn)操作函數(shù)。我們還提出了一種簡(jiǎn)化整個(gè)結(jié)構(gòu)的方法,該方法刪除了語(yǔ)法上對(duì)稱(chēng)的節(jié)點(diǎn)。
3.1?AOGNet的結(jié)構(gòu)
公式較多,見(jiàn)原文。
算法1:構(gòu)造一個(gè)AOG積木塊
?
3.2 AOGNet中的節(jié)點(diǎn)操作
公式較多,見(jiàn)原文。
3.3?簡(jiǎn)化AOG構(gòu)建塊
短語(yǔ)結(jié)構(gòu)語(yǔ)法是一種句法冗余的語(yǔ)法,它通過(guò)二元組合規(guī)則揭示了所有可能的構(gòu)象。在表示學(xué)習(xí)中,我們也希望增加網(wǎng)絡(luò)中不同階段的特征維數(shù)以獲得更好的表示能力,但盡量不顯著增加參數(shù)總數(shù)。為了平衡我們的AOG構(gòu)建塊的結(jié)構(gòu)復(fù)雜性和特性維度,我們建議通過(guò)刪除一些語(yǔ)法上冗余的節(jié)點(diǎn)來(lái)簡(jiǎn)化一個(gè)AOG構(gòu)建塊的結(jié)構(gòu)。如圖4所示,修剪算法很簡(jiǎn)單:給定一個(gè)完整結(jié)構(gòu)的AOG構(gòu)建塊,我們從一個(gè)空的簡(jiǎn)化塊開(kāi)始。我們首先將根或節(jié)點(diǎn)添加到簡(jiǎn)化的塊中。然后,我們遵循整個(gè)結(jié)構(gòu)塊中節(jié)點(diǎn)的BFS順序。對(duì)于遇到的每個(gè)or節(jié)點(diǎn),我們只保留簡(jiǎn)化塊中當(dāng)前子節(jié)點(diǎn)集合中沒(méi)有語(yǔ)法上對(duì)稱(chēng)的左-右對(duì)應(yīng)項(xiàng)的子節(jié)點(diǎn)。對(duì)于遇到的節(jié)點(diǎn)和終端節(jié)點(diǎn),我們將它們添加到簡(jiǎn)化塊中。修剪算法可以集成到算法1中。例如,考慮圖4左邊的根or節(jié)點(diǎn)的四個(gè)子節(jié)點(diǎn),第四個(gè)子節(jié)點(diǎn)被刪除,因?yàn)樗c第二個(gè)對(duì)稱(chēng)。
圖4。說(shuō)明通過(guò)修剪語(yǔ)法上對(duì)稱(chēng)的or節(jié)點(diǎn)的子節(jié)點(diǎn)來(lái)簡(jiǎn)化AOG構(gòu)建塊。左:一個(gè)完整結(jié)構(gòu)的AOG積木塊,由10個(gè)終端節(jié)點(diǎn)、10個(gè)和節(jié)點(diǎn)、10個(gè)或節(jié)點(diǎn)組成。要修剪的節(jié)點(diǎn)和邊用黃色標(biāo)出。右:簡(jiǎn)化的AOG積木塊,由8個(gè)終端節(jié)點(diǎn)、5個(gè)和節(jié)點(diǎn)、8個(gè)或節(jié)點(diǎn)組成。(彩色觀看效果最佳)
4 實(shí)驗(yàn)
我們的AOGNet在CIFAR-10和CIFAR- 100[32]、ImageNet-1K[52]分類(lèi)基準(zhǔn)和MS-COCO目標(biāo)檢測(cè)和分割基準(zhǔn)[43]中進(jìn)行了測(cè)試。
4.1?實(shí)現(xiàn)設(shè)置和詳細(xì)信息
公式較多,見(jiàn)原文。
4.2?ImageNet 1K中的圖像分類(lèi)
ILSVRC 2012分類(lèi)數(shù)據(jù)集[52]由大約120萬(wàn)張用于訓(xùn)練的圖像和50000張用于驗(yàn)證的圖像組成,來(lái)自1000個(gè)類(lèi)。我們采用與[23,29]相同的數(shù)據(jù)增強(qiáng)方案(隨機(jī)裁剪和水平翻轉(zhuǎn))來(lái)訓(xùn)練圖像,并在測(cè)試時(shí)使用尺寸為224 224的單次裁剪。根據(jù)通用協(xié)議,我們?cè)u(píng)估驗(yàn)證集上的top-1和top-5分類(lèi)錯(cuò)誤率。
模型參數(shù)。我們測(cè)試了三種具有不同模型復(fù)雜性的AOGNets。相比之下,我們使用模型尺寸作為AOGNet的名稱(chēng)標(biāo)簽(例如,AOGNet- 12M表示AOGNet有1200萬(wàn)個(gè)參數(shù)左右)。莖(見(jiàn)圖3)使用三個(gè)Conv3x3-BN層(第一層是stride 2),然后是一個(gè)2倍最大的pooling層,使用stride 2。這三個(gè)AOGNets都使用四個(gè)階段。在一個(gè)階段中,我們使用相同的AOG構(gòu)建塊,而不同的階段可能使用不同的塊。然后Nn指定一個(gè)階段,其中N是原始大小(算法1),N是塊的數(shù)量。過(guò)濾器通道由一個(gè)5元組定義,用于指定4個(gè)階段的輸入和輸出維度。三種AOGNet的詳細(xì)規(guī)格為:AOGNet- 12m使用(22、41、43、21)的分級(jí),帶有過(guò)濾通道(32,128,256、512,936);AOGNet- 40m使用(22、41、44、21)的分級(jí),帶有過(guò)濾通道(60,240、448,968、1440);AOGNet- 60M使用(22、42、45、21)的分級(jí),帶有過(guò)濾通道(64,256,512、1160、1400)。
訓(xùn)練設(shè)置。濾波器權(quán)值采用隨機(jī)參數(shù)初始化。對(duì)于批處理標(biāo)準(zhǔn)化(BN)層,我們使用0初始化所有偏移量參數(shù)。我們使用1來(lái)初始化所有的尺度參數(shù),除了每個(gè)T()中的最后一個(gè)BN層,在這里我們將尺度參數(shù)初始化為0,就像在[17]中所做的那樣。在最后兩個(gè)階段,我們使用Dropout[33],其下降率為0.1。我們?cè)谂嘤?xùn)中使用8個(gè)gpu (NVIDIA V100)。批處理大小是128每個(gè)GPU(總共1024)。初始學(xué)習(xí)率為0.4,使用余弦學(xué)習(xí)率調(diào)度器[44],權(quán)值衰減0.0004,動(dòng)量0.9。我們用SGD對(duì)AOGNet進(jìn)行120個(gè)epoch的訓(xùn)練,其中包括5個(gè)epoch的[17]后的線性熱身。
結(jié)果和分析:AOGNets獲得了最好的準(zhǔn)確性和模型可解釋性。表1顯示了結(jié)果,圖5顯示了前1的錯(cuò)誤率和訓(xùn)練損失。在模型尺寸比較的模型中,我們的AOGNets在top-1和top-5的準(zhǔn)確率方面是最好的。我們的小型AOGNet-12M的表現(xiàn)分別比ResNets [23] (44.5M和60.2M)高出1.32%和0.72%。我們注意到,我們的AOGNets使用與ResNets相同的瓶頸操作功能,因此改進(jìn)必須由AOG構(gòu)建塊結(jié)構(gòu)做出貢獻(xiàn)。我們的AOGNet-40M在性能上比其他所有方法都要好,其中包括ResNeXt- 101 [66]+SE [27] (48.9M),是實(shí)際應(yīng)用中最強(qiáng)大、應(yīng)用最廣泛的組合。AOGNet-40M的性能也優(yōu)于第二名DPN-98 [7] (61.6M),說(shuō)明我們的AOG構(gòu)建塊中的DenseNet-和resnet聚合的層次化和組分集成比DPN[7]中的級(jí)聯(lián)集成更有效。我們的AOGNet-60M達(dá)到了最好的效果。我們的AOGNet-60M的失敗次數(shù)略高于DPN-98,部分原因是DPN使用ResNeXt操作(即group conv.)。在我們正在進(jìn)行的實(shí)驗(yàn)中,我們正在測(cè)試使用ResNeXt節(jié)點(diǎn)操作的AOGNets。
表1。使用單模型和單作物測(cè)試的ImageNet-1K驗(yàn)證集的前1和前5的錯(cuò)誤率(%)。
圖5。ImageNet中三個(gè)AOGNets的top-1錯(cuò)誤率和訓(xùn)練損失的圖。(彩色和放大效果最佳)
在開(kāi)發(fā)基于深度學(xué)習(xí)的人工智能系統(tǒng)[8]中,模型可解釋性被認(rèn)為是一個(gè)關(guān)鍵問(wèn)題。我們使用網(wǎng)絡(luò)剖析度量[4]來(lái)比較最后一個(gè)卷積層中唯一檢測(cè)器(即濾波器核)的數(shù)量。在對(duì)比中,我們的AOGNet獲得了最好的分?jǐn)?shù)(圖6),說(shuō)明了該AOG構(gòu)建塊在獲得最佳精度性能的同時(shí),在通過(guò)設(shè)計(jì)誘導(dǎo)模型可解釋性方面具有很大的潛力。
圖6。利用[4]網(wǎng)絡(luò)解剖方法對(duì)ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行模型可解釋性比較。
對(duì)抗的穩(wěn)健性是許多DNNs[2]所面臨的另一個(gè)關(guān)鍵問(wèn)題。我們進(jìn)行了一個(gè)簡(jiǎn)單的實(shí)驗(yàn)來(lái)共同削減不同DNNs的開(kāi)箱即用的對(duì)抗魯棒性。表2顯示了結(jié)果。在常規(guī)條件下,我們的AOGNets表現(xiàn)出更好的對(duì)抗能力,特別是當(dāng)攝動(dòng)能量控制在相對(duì)較低(即?= 0.1)。我們將在以后的工作中通過(guò)不同的攻擊和對(duì)抗性的訓(xùn)練來(lái)研究這個(gè)問(wèn)題。
表2。使用1步FGSM[16]和傻瓜工具箱[51]在白盒對(duì)敵攻擊下的最高精度比較。
手機(jī)設(shè)置。我們?cè)诘湫偷囊苿?dòng)設(shè)置[26]下訓(xùn)練一個(gè)AOGNet-4M。表3給出了比較結(jié)果。我們獲得性能par的流行網(wǎng)絡(luò)專(zhuān)門(mén)為移動(dòng)平臺(tái),如mobilenet[26,54]和shufflenet[73]。我們的AOGNet也超過(guò)了自動(dòng)搜索網(wǎng)絡(luò)NASNet[76](它在搜索中使用了大約800個(gè)gpu)。我們注意到,我們使用了相同的AOGNet結(jié)構(gòu),因此顯示了我們的AOGNets有前途的設(shè)備不可知功能。這對(duì)于在不同的平臺(tái)上部署DNNs是非常重要和有用的,因?yàn)椴恍枰~外的手工制作或搜索神經(jīng)結(jié)構(gòu)。如果大型模型共享完全相同的結(jié)構(gòu),這對(duì)于從大型模型中提取小型模型也有潛在的用處。
表3。移動(dòng)設(shè)置下ImageNet-1K驗(yàn)證設(shè)置的前1和前5的錯(cuò)誤率(%)。
4.3 COCO中的目標(biāo)檢測(cè)和分割
MS-COCO是[43]中廣泛使用的對(duì)象檢測(cè)和分割基準(zhǔn)之一。它由80個(gè)對(duì)象類(lèi)別組成。我們?cè)贑OCO train2017集合中訓(xùn)練AOGNet,在COCO val2017集合中評(píng)估。我們報(bào)告了用于包圍盒檢測(cè)(APbb)和實(shí)例分割(即掩模預(yù)測(cè)(APm))的平均精度(AP)、AP50和AP75的COCO標(biāo)準(zhǔn)度量標(biāo)準(zhǔn)。我們?cè)贛ask-RCNN系統(tǒng)[22]上進(jìn)行實(shí)驗(yàn),使用最先進(jìn)的實(shí)現(xiàn),maskrcnn-benchmark[45]。我們使用ImageNet-1K上預(yù)訓(xùn)練的AOGNets作為骨架。在對(duì)目標(biāo)檢測(cè)和分割進(jìn)行微調(diào)時(shí),我們凍結(jié)了所有的BN參數(shù),就像對(duì)ResNet[23]和ResNeXt[66]骨干所做的那樣。我們保持所有其他方面不變。我們測(cè)試了C4和FPN設(shè)置。
結(jié)果。表4給出了比較結(jié)果。我們的AOGNets獲得了比ResNet[23]和ResNeXt[66]脊柱更好的結(jié)果,模型尺寸更小,推理時(shí)間類(lèi)似或稍好。實(shí)驗(yàn)結(jié)果表明,我們的AOGNets學(xué)習(xí)更好的特征在目標(biāo)檢測(cè)和分割任務(wù)的有效性。
表4。Mask-RCNN結(jié)果coco val2017使用1x訓(xùn)練計(jì)劃。ResNets和ResNeXts的結(jié)果由maskrcnn基準(zhǔn)報(bào)告。
4.4 在CIFAR數(shù)據(jù)集上的實(shí)驗(yàn)
CIFAR-10和CIFAR-100數(shù)據(jù)集[32]分別用C10和C100表示,由10個(gè)類(lèi)和100個(gè)類(lèi)繪制的32 32幅彩色圖像組成。訓(xùn)練集和測(cè)試集分別包含50000張圖像和10000張圖像。在訓(xùn)練數(shù)據(jù)的準(zhǔn)備中,我們采用了廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)方案——隨機(jī)裁剪和鏡像。
在隨機(jī)參數(shù)初始化條件下,用隨機(jī)梯度下降(SGD)訓(xùn)練了300個(gè)epoch的AOGNets。前端(見(jiàn)圖3)使用單一卷積層。初始學(xué)習(xí)率設(shè)置為0.1,分別在150和225 epoch時(shí)除以10。對(duì)于CIFAR-10,我們選擇批量大小64,權(quán)重衰減0.0001,而對(duì)于CIFAR-100,我們選擇批量大小128,重量衰減0.00001。動(dòng)量設(shè)定為0.9。
結(jié)果和分析。我們?cè)?span style="color:#f33b45;">表5中總結(jié)了結(jié)果。通過(guò)更小的模型尺寸和更低的計(jì)算復(fù)雜度(FLOPs),我們的AOGNets獲得更好的性能比ResNets[23]和一些變體,ResNeXts[66]和DenseNets[29]一致在兩個(gè)數(shù)據(jù)集。我們的小型AOGNet (0.78M)的表現(xiàn)已經(jīng)超過(guò)ResNet [23] (10.2M)和WideResNet [70] (11.0M)。由于使用了相同的節(jié)點(diǎn)操作,因此改進(jìn)必須來(lái)自于AOG構(gòu)建塊結(jié)構(gòu)。與densenet相比,我們的AOGNets在C100上有了更多的改進(jìn),并且對(duì)于類(lèi)似的型號(hào)尺寸使用了不到一半的延遲。延遲減少的原因是densenet在每個(gè)稠密塊之后采用了向下采樣,而我們的AOGNets在終端節(jié)點(diǎn)上進(jìn)行子采樣。
表5所示。兩個(gè)CIFAR數(shù)據(jù)集[32]的錯(cuò)誤率(%)。參數(shù)使用的單位是百萬(wàn)。DenseNet中的k為增長(zhǎng)率。
4.5?消融研究
我們進(jìn)行了一項(xiàng)消融研究,調(diào)查(i) RS:去除修剪后的AOG建筑塊中ORnodes的對(duì)稱(chēng)子節(jié)點(diǎn),以及(ii) LC:增加橫向連接的影響。如表6所示,RS和LC這兩個(gè)組件提高了性能。結(jié)果與我們的設(shè)計(jì)直覺(jué)和原則一致。RS分量降低了結(jié)構(gòu)復(fù)雜性,促進(jìn)了更高的特征維數(shù),LC分量增加了側(cè)向流動(dòng)節(jié)點(diǎn)的有效深度。
表6所示。利用5次運(yùn)行的平均錯(cuò)誤率對(duì)我們的AOGNets進(jìn)行消融研究。在前兩行中,AOGNets使用完整的結(jié)構(gòu),最后兩行使用修剪后的結(jié)構(gòu)。相應(yīng)地指定節(jié)點(diǎn)操作的特征維數(shù),以保持模型大小的可比性。
5?結(jié)論與討論
本文提出了一種語(yǔ)法引導(dǎo)的網(wǎng)絡(luò)生成器,它可以有效地構(gòu)建用于深度學(xué)習(xí)的語(yǔ)法結(jié)構(gòu)。它提出了深度和或語(yǔ)法網(wǎng)絡(luò)(AOGNets)。AOG包括一個(gè)短語(yǔ)結(jié)構(gòu)語(yǔ)法和一個(gè)依賴語(yǔ)法。一個(gè)AOGNet由許多階段組成,每個(gè)階段都由許多AOG構(gòu)建塊組成。我們的AOG構(gòu)建塊利用了最好的語(yǔ)法模型和DNNs進(jìn)行深度學(xué)習(xí)。AOGNet獲得國(guó)家最先進(jìn)的表現(xiàn)。在CIFAR-10/100[32]和ImageNet- 1K[52]中,在公平比較下,AOGNet獲得了比所有先進(jìn)網(wǎng)絡(luò)更好的性能。AOGNet還利用網(wǎng)絡(luò)剖分[4]得到了最佳模型可解釋性評(píng)分。AOGNet在對(duì)抗性防御中顯示出了更好的潛力。在MS-COCO[43]中,AOGNet的性能優(yōu)于Mask R-CNN[22]中的ResNet和ResNeXt backbones。
討論。希望本文能對(duì)學(xué)習(xí)語(yǔ)法引導(dǎo)的網(wǎng)絡(luò)生成器進(jìn)行進(jìn)一步的探索。AOG可以很容易地?cái)U(kuò)展為k-分支分裂規(guī)則;2.?其他類(lèi)型的邊緣也可以很容易地在AOG中引入,比如密集的橫向連接和自上而下的連接。節(jié)點(diǎn)操作還可以擴(kuò)展以利用語(yǔ)法指導(dǎo)的轉(zhuǎn)換。對(duì)于AOG結(jié)構(gòu),需要研究更好的參數(shù)初始化方法。
ZIZHU
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的读后感与机翻《AOGNets》的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 运算放大器使用的一些经验
- 下一篇: 《STM32从零开始学习历程》——USA