神经网络测试时间计算机,卷积神经网络的时代到此结束了?
全文共1958字,預(yù)計(jì)學(xué)習(xí)時(shí)長(zhǎng)5分鐘
圖源:unsplash
近十年來(lái),卷積神經(jīng)網(wǎng)絡(luò)一直在全球計(jì)算機(jī)視覺(jué)研究領(lǐng)域發(fā)揮著主導(dǎo)作用。但研究者們正在提出一種新方法,想要利用轉(zhuǎn)換器的功能賦予圖像更深層的意義。
轉(zhuǎn)換器最初是為自然語(yǔ)言處理任務(wù)而設(shè)計(jì)的,主攻神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯。后來(lái),谷歌研究院的阿列克謝·多索維斯基(Alexey Dosovitskiy)、盧卡斯·拜爾(Lucas Beyer)等人撰寫(xiě)了一篇題目為《一幅圖像值得16x16個(gè)字符:大規(guī)模用于圖像識(shí)別的轉(zhuǎn)換器》的論文,提出了一種名為視覺(jué)轉(zhuǎn)換器(ViT)的架構(gòu),該架構(gòu)可通過(guò)轉(zhuǎn)換器處理圖像數(shù)據(jù)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)存在的問(wèn)題
在深入研究視覺(jué)轉(zhuǎn)換器的運(yùn)行方式之前,厘清卷積神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)和根本缺陷很有必要。首先,卷積神經(jīng)網(wǎng)絡(luò)無(wú)法編碼相對(duì)空間信息。也就是說(shuō),它僅關(guān)注于檢測(cè)某些特征,而忽略了相對(duì)空間位置。
上面兩幅圖像都會(huì)被識(shí)別為人臉,因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)只關(guān)注輸入圖像中是否存在某些特征,而忽略了它們相對(duì)于彼此的位置。
卷積神經(jīng)網(wǎng)絡(luò)的另一個(gè)主要缺陷是池化層。池化層會(huì)丟失很多有用的信息,比如最活躍的特征檢測(cè)器的準(zhǔn)確位置。換句話(huà)說(shuō),它能檢測(cè)到某些特征,但卻無(wú)法傳達(dá)其在圖像中的準(zhǔn)確位置。
轉(zhuǎn)換器簡(jiǎn)介
從本質(zhì)上說(shuō),轉(zhuǎn)換器應(yīng)用了自我注意的概念。這個(gè)概念可以分為兩部分:自我和注意。注意指的僅僅是可訓(xùn)練的權(quán)重,它可以模擬輸入句子中各部分的重要程度。
從以上示例中,大家可以發(fā)現(xiàn),轉(zhuǎn)換器中的注意單元正在比較單詞“it”與句子中包括“it”在內(nèi)的其他所有單詞的位置。不同的顏色代表著同時(shí)獨(dú)立運(yùn)行的多個(gè)注意單元,目的是發(fā)現(xiàn)這些聯(lián)系中的不同模式。
一旦通過(guò)上述比較計(jì)算出一個(gè)分?jǐn)?shù),它們就會(huì)經(jīng)由結(jié)構(gòu)簡(jiǎn)單的前饋神經(jīng)元層發(fā)送出去,最后進(jìn)行規(guī)范化處理。在訓(xùn)練期間,轉(zhuǎn)換器學(xué)習(xí)了這些注意向量。
模型架構(gòu)
和常規(guī)轉(zhuǎn)換器通過(guò)單詞了解句子一樣,視覺(jué)轉(zhuǎn)換器通過(guò)像素獲得類(lèi)似的圖像效果。不過(guò),這里有一個(gè)問(wèn)題。與文字不同,單一像素本身并不傳達(dá)任何含義,這也是我們選擇使用卷積過(guò)濾器的原因之一(它可對(duì)一組像素進(jìn)行操作)。
它們將整個(gè)圖像分成小塊圖像或單詞。所有小塊圖像都通過(guò)線(xiàn)性投影矩陣展平,同它們?cè)趫D像中的位置一起送入轉(zhuǎn)換器(如上圖所示)。在這一過(guò)程中,研究人員們選擇了大小為16x16的小塊圖像,所以才有了這樣詩(shī)意的研究題目。
現(xiàn)在,這些嵌入的小塊圖像通過(guò)多方面自我注意的交替層、多層感知器(結(jié)構(gòu)簡(jiǎn)單的前饋神經(jīng)元層)和類(lèi)似于常規(guī)轉(zhuǎn)換器中的層規(guī)范化,分類(lèi)頭安裝在轉(zhuǎn)換器編碼器的末端,從而預(yù)測(cè)最終分類(lèi)。像其他的卷積模型一樣,人們可以使用預(yù)先訓(xùn)練好的編碼器庫(kù)和一個(gè)自定義MLP層來(lái)微調(diào)模型,以適應(yīng)其分類(lèi)任務(wù)。
重點(diǎn)
論文作者在ImageNet、CIFAR-10/100和JFT-300M(谷歌的私有數(shù)據(jù)集,擁有3億張高分辨率圖像)等各種標(biāo)注數(shù)據(jù)集上訓(xùn)練了該模型。在準(zhǔn)確性方面,他們的模型幾乎和其他先進(jìn)的卷積模型一樣準(zhǔn)確(在很多情況下甚至更準(zhǔn)確),但訓(xùn)練時(shí)間大大減少了(減少了大約75%),而且使用的硬件資源也更少。
視覺(jué)轉(zhuǎn)換器的另一個(gè)優(yōu)點(diǎn)是能夠很早地了解到更高層級(jí)的關(guān)系,原因是它使用了全球注意而非局部注意。人們甚至在一開(kāi)始就可以注意到那些相對(duì)于卷積神經(jīng)網(wǎng)絡(luò)很遙遠(yuǎn)的事物。除了在訓(xùn)練過(guò)程中保持高效以外,視覺(jué)轉(zhuǎn)換器還會(huì)隨著訓(xùn)練數(shù)據(jù)的增多而表現(xiàn)愈佳。
圖源:unsplash
難道這意味著卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)過(guò)時(shí),而視覺(jué)轉(zhuǎn)換器成為了新常態(tài)嗎?
當(dāng)然不是!雖然卷積神經(jīng)網(wǎng)絡(luò)存在不足,但它在處理對(duì)象檢測(cè)和圖像分類(lèi)等任務(wù)方面仍然十分高效。作為最先進(jìn)的卷積架構(gòu),ResNet和EfficientNet仍然占據(jù)著處理此類(lèi)任務(wù)的主導(dǎo)地位。然而,轉(zhuǎn)換器在自然語(yǔ)言處理任務(wù)(比如語(yǔ)言翻譯)方面取得了突破,在計(jì)算機(jī)視覺(jué)領(lǐng)域顯示出了不小的潛力。
在這個(gè)不斷發(fā)展的研究領(lǐng)域,未來(lái)會(huì)發(fā)生什么?只有時(shí)間會(huì)告訴我們答案。
留言點(diǎn)贊關(guān)注
我們一起分享AI學(xué)習(xí)與發(fā)展的干貨
如轉(zhuǎn)載,請(qǐng)后臺(tái)留言,遵守轉(zhuǎn)載規(guī)范
舉報(bào)/反饋
與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的神经网络测试时间计算机,卷积神经网络的时代到此结束了?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 计算机里多媒体的名词解释,多媒体技术中的
- 下一篇: 北理工计算机博士怎么样,北京理工大学在职