CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer
?作者?|?機(jī)器之心編輯部
來(lái)源?|?機(jī)器之心
來(lái)自華為諾亞方舟實(shí)驗(yàn)室、北京大學(xué)、悉尼大學(xué)的研究者提出了一種受量子力學(xué)啟發(fā)的視覺(jué) MLP 新架構(gòu)。
近年來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域的新型架構(gòu)層出不窮,包括視覺(jué) Transformer、MLP 等,它們?cè)诤芏嗳蝿?wù)上都取得了超越 CNN 的性能,受到廣泛關(guān)注。其中,視覺(jué) MLP 具有極其簡(jiǎn)單的架構(gòu),它僅由多層感知器(MLP)堆疊而成。與 CNN 和 Transformer 相比,這些簡(jiǎn)潔的 MLP 架構(gòu)引入了更少的歸納偏置,具有更強(qiáng)的泛化性能。?
然而,現(xiàn)有視覺(jué) MLP 架構(gòu)的性能依然弱于 CNN 和 Transformer。來(lái)自華為諾亞方舟實(shí)驗(yàn)室、北京大學(xué)、悉尼大學(xué)的研究者提出了一種受量子力學(xué)啟發(fā)的視覺(jué) MLP 架構(gòu),在 ImageNet 分類、COCO 檢測(cè)、ADE20K 分割等多個(gè)任務(wù)上取得了 SOTA 性能。
論文鏈接:
https://arxiv.org/abs/2111.12294
PyTorch代碼:
https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorch
MindSpore代碼:
https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp
Wave-MLP
該研究受量子力學(xué)中波粒二象性的啟發(fā),將 MLP 中每個(gè)圖像塊 (Token) 表示成波函數(shù)的形式,從而提出了一個(gè)新型的視覺(jué) MLP 架構(gòu)——Wave-MLP,在性能上大幅超越了現(xiàn)有 MLP 架構(gòu)以及 Transformer。?
量子力學(xué)是描述微觀粒子運(yùn)動(dòng)規(guī)律的物理學(xué)分支,經(jīng)典力學(xué)可被視為量子力學(xué)的特例。量子力學(xué)的一個(gè)基本屬性是波粒二象性,即所有的個(gè)體(比如電子、光子、原子等)都可以同時(shí)使用粒子的術(shù)語(yǔ)和波的術(shù)語(yǔ)來(lái)描述。一個(gè)波通常包括幅值和相位兩個(gè)屬性,幅值表示一個(gè)波可能達(dá)到的最大強(qiáng)度,相位指示著當(dāng)前處在一個(gè)周期的哪個(gè)位置。將一個(gè)經(jīng)典意義上的粒子用波(比如,德布羅意波)的形式來(lái)表示,可以更完備地描述微觀粒子的運(yùn)動(dòng)狀態(tài)。?
那么,對(duì)于視覺(jué) MLP 中的圖像塊,能不能也把它表示成波的形式呢?該研究用幅值表達(dá)每個(gè) Token 所包含的實(shí)際信息,用相位來(lái)表示這個(gè) Token 當(dāng)前所處的狀態(tài)。在聚集不同 Token 信息的時(shí)候,不同 Token 之間的相位差會(huì)調(diào)制它們之間的聚合過(guò)程(如圖 3 示)。考慮到來(lái)自不同輸入圖像的 Token 包含不同的語(yǔ)義內(nèi)容,該研究使用一個(gè)簡(jiǎn)單的全連接模塊來(lái)動(dòng)態(tài)估計(jì)每個(gè) Token 的相位。對(duì)于同時(shí)帶有幅度和相位信息的 Token,作者提出了一個(gè)相位感知 Token 混合模塊(PATM,如下圖 1 所示)來(lái)聚合它們的信息。交替堆疊 PATM 模塊和 MLP 模塊構(gòu)成了整個(gè) Wave-MLP 架構(gòu)。
?圖1.?Wave-MLP 架構(gòu)中的一個(gè)單元
相比現(xiàn)有的視覺(jué) Transformer 和 MLP 架構(gòu),Wave-MLP 有著明顯的性能優(yōu)勢(shì)(如下圖 2 所示)。在 ImageNet,Wave-MLP-S 模型上以 4.5G FLOPs 實(shí)現(xiàn)了 82.6% 的 top-1 準(zhǔn)確率,比相似計(jì)算代價(jià)的 Swin-T 高 1.3 個(gè)點(diǎn)。此外,Wave-MLP 也可以推廣到目標(biāo)檢測(cè)和語(yǔ)義分割等下游任務(wù),展現(xiàn)出強(qiáng)大的泛化性能。
?圖2.?Wave-MLP 與現(xiàn)有視覺(jué) Transformer、MLP 架構(gòu)的比較
1.1?用波表示 Token
在 Wave-MLP 中,Token 被表示為同時(shí)具有幅值和相位信息的波 :
其中 是滿足 的虛數(shù)單位, 表示絕對(duì)值運(yùn)算, 是逐元素乘法。幅值 是實(shí)值的特征,表示每個(gè) Token 所包含的內(nèi)容。 表示相位,即 Token 在一個(gè)波周期內(nèi)的當(dāng)前位置。
兩個(gè) Token 之間的相位差對(duì)它們的聚合過(guò)程有很大影響 (如下圖 3 所示)。當(dāng)兩個(gè) token 具有相同的相位時(shí),它們會(huì)相互增強(qiáng),得到幅值更大的波(圖 3(b));當(dāng)兩個(gè) token 相位相反時(shí),他們合成的波將相互減弱。在其他情況下,它們之間的相互作用更加復(fù)雜,但仍取決于相位差(圖 3(a))。經(jīng)典方法中使用實(shí)值表示 token 的,這實(shí)際上是上式的一個(gè)特例。
圖3. 兩個(gè)具有不同相位的波的聚合過(guò)程。左側(cè)表示兩個(gè)波在復(fù)數(shù)域中的疊加,右側(cè)表示它們?cè)趯?shí)軸上的投影隨著相位的變化。虛線表示兩個(gè)初始相位不同的波,實(shí)線是他們的疊加。
1.2 相位感知的 Token 聚合
公式(1)中包含幅值和相位兩項(xiàng),幅值 類似于實(shí)值特征,可以采用標(biāo)準(zhǔn)的 Channel-FC 生成:
對(duì)于相位,可以使用多種方式來(lái)估計(jì)。為了使得相位可以捕獲每個(gè)輸入的特定屬性,該研究使用一個(gè)可學(xué)的估計(jì)模塊來(lái)生成相位 。在獲得幅值 和相位 之后,可以根據(jù)公式(1)得到 Token 的波函數(shù)表示圖片。同時(shí),公式(1)可以采用歐拉公式展開(kāi)成連個(gè)實(shí)值向量拼接的形式:
表示不同的 Token 波函數(shù)會(huì)通過(guò)一個(gè) Token-FC 聚合起來(lái),得到復(fù)數(shù)域的輸出:
類似于量子計(jì)算中的測(cè)量過(guò)程,復(fù)數(shù)域的需要映射到實(shí)數(shù)域里才能得到有意義的輸出值。將實(shí)部和虛部做按照一定的權(quán)重進(jìn)行求和,得到模塊的輸出:
在視覺(jué) MLP 中,該研究構(gòu)建了一個(gè)相位感知模塊(PATM,圖 1)來(lái)完成 Token 聚合的過(guò)程。交替堆疊 PATM 模塊和 channel-mixing MLP 組建了整個(gè) WaveMLP 架構(gòu)。
實(shí)驗(yàn)結(jié)果
該研究在大規(guī)模的分類數(shù)據(jù)集 ImageNet, 目標(biāo)檢測(cè)數(shù)據(jù)集 COCO 和語(yǔ)義分割數(shù)據(jù)集 ADE20K 上都進(jìn)行了大量實(shí)驗(yàn)。?
ImageNet 上圖像分類的結(jié)果如表 1,表 2 所示:相比于現(xiàn)有的 Vision MLP 架構(gòu)和 Transformer 架構(gòu),WaveMLP 都取得了明顯的性能優(yōu)勢(shì)。
在下游目標(biāo)檢測(cè)、語(yǔ)義分割等任務(wù)中,Wave-MLP 同樣表現(xiàn)出更優(yōu)的性能。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 消防兵考上军校毕业去哪里?
- 下一篇: 直播间的定海神针清屏怎么设置?