霸榜多个CV任务!开源仅两天,已收获2.1k star
本文轉載自機器之心。
屠榜各大 CV 任務的微軟 Swin Transformer,近日開源了代碼和預訓練模型。
自 2017 年 6 月谷歌提出 Transformer 以來,它便逐漸成為了自然語言處理領域的主流模型。最近一段時間,Transformer 更是開啟了自己的跨界之旅,開始在計算機視覺領域大展身手,涌現出了多個基于 Transformer 的新模型,如谷歌用于圖像分類的 ViT 以及復旦、牛津、騰訊等機構的 SETR 等。由此,「Transformer 是萬能的嗎?」也一度成為機器學習社區的熱門話題。
不久前,微軟亞研的研究者提出了一種通過移動窗口(shifted windows)計算的分層視覺 Transformer,他們稱之為 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下兩點改進:其一,引入 CNN 中常用的層次化構建方式構建分層 Transformer;其二,引入局部性(locality)思想,對無重合的窗口區域內進行自注意力計算。
論文鏈接:https://arxiv.org/pdf/2103.14030.pdf
首先來看 Swin Transformer 的整體工作流,下圖 3a 為 Swin Transformer 的整體架構,圖 3b 為兩個連續的 Swin Transformer 塊。
該研究的亮點在于利用移動窗口對分層 Transformer 的表征進行計算。通過將自注意力計算限制在不重疊的局部串口,同時允許跨窗口連接。這種分層結構可以靈活地在不同尺度上建模,并具有圖像大小的線性計算復雜度。下圖 2 為在 Swin Transformer 架構中利用移動窗口計算自注意力的工作流:
模型本身具有的特性使其在一系列視覺任務上都實現了頗具競爭力的性能表現。其中,在 ImageNet-1K 數據集上實現了 86.4% 的圖像分類準確率、在 COCO test-dev 數據集上實現了 58.7% 的目標檢測 box AP 和 51.1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 兩個數據集上,Swin-L(Swin Transformer 的變體)在目標檢測和實例分割任務中均實現了 SOTA。
此外,在 ADE20K val 和 ADE20K 數據集上,Swin-L 也在語義分割任務中實現了 SOTA。
開源代碼和預訓練模型
Swin Transformer 論文公開沒多久之后,微軟官方于近日在 GitHub 上開源了代碼和預訓練模型,涵蓋圖像分類、目標檢測以及語義分割任務。上線僅僅兩天,該項目已收獲 2100星。
項目地址:https://github.com/microsoft/Swin-Transformer
首先圖像分類任務,Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ImageNet-1K 和 ImageNet-22K 數據集上的準確率結果如下:
其次目標檢測任務:Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 COCO 目標檢測(2017 val)數據集上的結果如下:
最后語義分割任務:Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ADE20K 語義分割(val)數據集上的結果如下。目前,Swin-L 取得了 53.50% 的 SOTA 驗證 mIoU 分數。
本文僅做學術分享,如有侵權,請聯系刪文。
下載1
在「3D視覺工坊」公眾號后臺回復:3D視覺,即可下載 3D視覺相關資料干貨,涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點云后處理、多視圖幾何等方向。
下載2
在「3D視覺工坊」公眾號后臺回復:3D視覺github資源匯總,即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點云處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基于點云的3D檢測、6D姿態估計源碼匯總等。
下載3
在「3D視覺工坊」公眾號后臺回復:相機標定,即可下載獨家相機標定學習課件與視頻網址;后臺回復:立體匹配,即可下載獨家立體匹配學習課件與視頻網址。
重磅!3DCVer-學術論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創投稿也請聯系。
▲長按加微信群或投稿
▲長按關注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領域的知識點匯總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業為一體的鐵桿粉絲聚集區,近3000星球成員為創造更好的AI世界共同進步,知識星球入口:
學習3D視覺核心技術,掃描查看介紹,3天內無條件退款
?圈里有高質量教程資料、可答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結
以上是生活随笔為你收集整理的霸榜多个CV任务!开源仅两天,已收获2.1k star的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 算法模型---时间序列模型
- 下一篇: M.2固态硬盘安装WIN10系统后频繁重