揭秘阿里巴巴神奇的人物抠图算法内幕
(歡迎關注“我愛計算機視覺”公眾號,一個有價值有深度的公眾號~)
電商環境中,商品的圖片展示比文字展示對顧客購買有更直觀的吸引力,尤其在購買衣服時。阿里巴巴的百萬賣家各個都是ps大師,想必大家都領教過^_^。
傳統的方法需要富有經驗的設計師交互式地摳圖,效率低下,阿里巴巴的視覺研究團隊希望使用技術手段幫助賣家一鍵完成非幕布的自然場景人物摳圖。
發表于ACMMM2018會議的論文《Semantic Human Mating》,揭示了阿里巴巴在這方面的數據庫制作和算法設計。
論文稱,這是第一個能夠完全自動化精細摳圖的工作。(其實前幾天52CV君介紹了一篇SIGGRAPH2018的論文語義軟分割也是類似算法,而且開源了,詳見:SIGGRAPH2018黑科技:開源語義軟分割改進圖像編輯)
下圖展示了摳圖的應用,計算圖像的alpha mate,可以方便將其與其他背景圖像合成。
數學上表達這個合成的過程很簡單:
F是前景即人物圖像,B是背景圖像。
數據庫制作HUMAN MATTING DATASET
要解決這個問題,首先需要有大規模數據庫,學術界研究Matting的數據庫往往都很小,難以訓練出較滿意的結果。
這一步,某寶賣家立大功了!為科研做出了杰出貢獻!
論文從某電商平臺(嗯,論文中沒明說)收集了188K幅由賣家手動摳出來的含有alpha mate的圖像,花了1200個小時(50個24小時)從中小心翼翼選擇了35311幅高質量含人物的圖像,并結合DIM數據集(含有202幅前景圖,與自然圖像合成20200幅圖像),組成了含有52511幅圖像的超大規模的Human Matting Dataset。
human matting dataset數據源組成
human matting dataset與其他同類數據庫的比較:
部分數據庫中圖像示例:
網絡架構
該文使用結合語義分割的端到端的深度學習神經網絡預測alpha mate。
網絡結構如下:
該網絡(SHM)主要分為三大部分,T-Net,M-Net,Fusion Module。
T-Net為語義分割模塊,使用PSPNet,輸入是原始圖像,其輸出結果是含有前景、背景、未知區域三種類別圖像的三色圖(trimap)。語義分割是一種粗略的前景提取。
注:在傳統Matting的場景中,三色圖trimap是由用戶手動標注的,可以理解為對圖像“完全正確的粗略分割”。
M-Net是細節提取和alpha mate生成網絡,使用類VGG16的網絡結構,其輸入是原始圖像和T-Net輸出的三色圖。
Fusion Module是對T-Net輸出的三色圖中前景和M-Net輸出的alpha mate的加權融合模塊,目的是結合語義分割和細節提取進一步提精alpha mate。
網絡訓練的時候,T-Net和M-Net事先單獨預訓練,然后整個大網絡端到端訓練。
實驗結果
因為以往算法都需要人工交互得到的三色圖trimap來比較Matting的性能,而本文算法是完全自動的。為便于比較,作者設計了兩個實驗。
(將alpha mate與groundtruth相比較的具體評價標準不再贅述,感興趣的讀者請閱讀原論文參考文獻21)
1.將T-Net生成的三色圖作為傳統算法的三色圖輸入,比較算法生成的alpha mate質量。
結果如下:
該論文的全自動的SHM算法取得了明顯的優勢!
2.將手動標注的三色圖作為傳統算法的三色圖輸入,比較算法生成的alpha mate質量。
結果如下:
這一輪比較中該論文的全自動的SHM算法盡管不是最好的結果,但已經取得了與有人工交互參與的最好結果相匹敵的性能。
下面是算法在測試圖像上生成的結果示例圖像:
作者然后進一步研究了算法中各部分對性能的影響,發現各部分均有貢獻,其中“end-to-end”的訓練獲得最大的算法性能增益。
算法各部分輸出結果可視化:
a為原圖,b為T-Net生成的三色圖,c為M-net輸出的alpha mate值,d為最終融合模塊預測的結果。
下面是SHM算法在實際自然圖像中摳像并合成新背景的圖像:
52CV君認為自然場景的人物摳圖還是蠻有意義的,用在移動視頻直播換背景等將大有可為。
這篇論文挺有價值,但更有價值的是某寶賣家給阿里貢獻的這個數據集!希望官方能夠提供下載就好了。
論文地址:
https://arxiv.org/abs/1809.01354v1
論文下載:
在“我愛計算機視覺”公眾號對話界面回復“SHM”,即可收到論文的百度云下載地址。
更多精彩推薦:
KDD2018 阿里巴巴論文揭示自家大規模視覺搜索算法
阿里巴巴提出Auto-Context R-CNN算法,刷出Faster RCNN目標檢測新高度
SIGGRAPH2018黑科技:開源語義軟分割改進圖像編輯
(歡迎關注“我愛計算機視覺”公眾號,一個有價值有深度的公眾號~)
【本文由“我愛計算機視覺”發布,2018年09月06日】
總結
以上是生活随笔為你收集整理的揭秘阿里巴巴神奇的人物抠图算法内幕的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R语言中写SQL语句
- 下一篇: 速卖通AliExpress绑定连连跨境支