AI算法又整新活,去海边跳一支舞!
大家好,我是K同學啊!
昨天逛某知名網站的時候,發(fā)現了一個有趣的算法,分享給大家
一張任意背景的圖片,實現任意切換背景,感受一下:
放個視頻,感受更強烈:
MODNet算法展示!
MODNet
MODNet是一個僅需RGB圖片輸入的實時人像摳圖模型。
模型學習分為三個部分:語義估計(Semantic Estimation)、細節(jié)預測(Detail Prediction)和語義細節(jié)融合(Semantic-Detail Fusion)。
語義估計(Semantic Estimation):與現有的多模型方法類似,MODNet的第一步是在輸入圖像中定位人。不同之處在于,這里只能通過編碼器來提取高級語義。MODNet的低分辨率分支,它有兩個主要優(yōu)勢。首先,語義估計變得更加有效,因為它不再由包含解碼器的單獨模型來完成。其次,高級表示(I)有助于后續(xù)分支和聯(lián)合優(yōu)化。我們可以應用任意的CNN骨干toS。為了促進實時交互,我們采用了MobileNetV2[35]架構,這是一種為移動設備開發(fā)的獨立模型。
細節(jié)預測(Detail Prediction):使用了高分辨率分支 D 處理前景肖像周圍的過渡區(qū)域,它采用 I、S(I) 和來自 Sas 輸入的低級特征。重用低級特征的目的是減少D的計算開銷。此外,作者在以下三個方面進行就進一步簡化:
- D包含比S更少的卷積層;
- 為D中的卷積層選擇了一個小的通道數;
- 我們不保持整個D的原始輸入分辨率。在實踐中,D由12個卷積層組成,其最大通道數為64。特征圖分辨率在第一層下采樣到1/4,在后兩層恢復。此設置對細節(jié)預測的影響可以忽略不計。
都想要的
- 論文地址:https://github.com/ZHKKKe/MODNet
- 項目地址:https://arxiv.org/pdf/2011.11961.pdf
如果你懶得去看論文也不想敲代碼,請看下面,作者早已洞悉大家的急迫上手的心情,代碼直接給我們準備好了,只需點一個「運行」按鈕即可。
- 圖像:https://colab.research.google.com/drive/1GANpbKT06aEFiW-Ssx0DQnnEADcXwQG6?usp=sharing
- 視頻:https://colab.research.google.com/drive/1Pt3KDSc2q7WxFvekCnCLD8P0gBEbxm6J?usp=sharing
把發(fā)絲都能給扣出來,就很厲害了
最后再送大家一本,幫助大家拿到 BAT 等一線大廠 offer 的數據結構刷題筆記,是谷歌和阿里的大佬寫的,對于算法薄弱或者需要提高的同學都十分受用(提取碼:9go2 ):
谷歌和阿里大佬的Leetcode刷題筆記
以及我整理的7K+本開源電子書,總有一本可以幫到你 💖(提取碼:4eg0)
7K+本開源電子書
視頻來源:https://www.bilibili.com/video/BV1T64y1f7r4?from=search&seid=2466061107466395687
總結
以上是生活随笔為你收集整理的AI算法又整新活,去海边跳一支舞!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 进度条模块tqdm介绍
- 下一篇: 深度学习100例-卷积神经网络(LeNe