CVPR 2019 | 微软亚洲研究院7篇精选论文解读
編者按:計算機視覺頂會 CVPR 2019 于 6 月 15-21 日在加州長灘舉行。微軟亞洲研究院共有 21 篇論文入選本屆 CVPR,覆蓋了姿態估計、對象檢測、目標跟蹤、圖像編輯、3D 形狀生成、高效 CNN 等多個計算機視覺領域的熱門話題,本篇文章選擇了其中 7 篇進行介紹。我們主辦的線下 CVPR 分享會也進行到了第三屆,錯過的小伙伴可以看這里。
上下文強化的語義分割
Context-Reinforced Semantic Segmentation
Yizhou Zhou, Xiaoyan Sun, Zheng-Jun Zha, Wenjun Zeng
GitHub 地址:https://github.com/scenarios/CiSS-Net
圖像語義分割任務的主要目標是對給定自然圖像進行像素級別的語義分類,從而得到細粒度的場景語義描述。該任務在自動駕駛,醫學圖像分析等應用扮演著重要角色。
在語義分割任務中,許多工作已經表明了環境上下文(context)的重要性。其中的一個方向是利用既有的分割預測結果來進行由粗到細(coarse-to-fine)的語義分割。例如,通過條件隨機場(conditional random field)直接對分割結果進行后處理,或者利用循環結構(recurrent architecture)迭代地將前步所得的分割預測作為當前步驟的輸入進行再預測。
本文重點探究了如何自適應地利用存在于分割預測圖(predicted segmentation map)中的上下文信息。實際上,由于分割預測圖中不可避免地存在著如錯分區域這樣的不可預知的噪聲,且無法人為定義分割預測圖中哪些信息最有利于幫助分割網絡得到更好分割結果,我們認為需要學習一個獨立的模塊來負責顯式地從分割預測圖中提取出有效子集作為上下文信息。通過將上下文的提取表述為馬爾可夫決策過程,我們可以在不引入新的監督信號的情況下,使用強化學習對該模塊進行優化以顯示地選擇對分割預測具有正面作用的上下文信息。
如上圖所示,我們迭代地進行分割預測。在第n次迭代中,分割網絡(Segment Net)不僅會參考圖像的特征圖,還會考慮到編碼過后的上下文C^n,這里所用到的上下文則是由上下文網絡(Context Net)從第n-1 次迭代的分割預測圖中提取出來的。由于所提取的上下文信息會對之后所有步驟的分割預測產生影響,并且沒有相應的標注來指導上下文網絡該提取什么樣的信息,所以我們將提取上下文視為行動(action),將圖像和上一步迭代的分割預測圖視為環境(environment),構建出一個馬爾可夫決策過程,并通過最大化未來分割的準確率,來間接的指導網絡選擇最有長期益處的上下文信息。我們使用了 A3C(asynchronous advantage actor-critic)算法來端到端地優化上述過程。實驗結果表明通過這種 context-reinforced 的方式選取出來的上下文信息,相對于基準線(baseline)最高可以帶來 3.9% 的性能提升。
如上圖所示,我們用白色代表在分割預測圖中沒有被選擇作為上下文的區域。可以觀察到,雖然仍然無法定義什么是真正有用的環境上下文,但這些被自適應選擇地區域在某種程度上符合人類預期,即上下文網絡更傾向于選擇那些有場景代表性的語義信息作為上下文。
三角測量學習網絡:從單目到立體圖像的 3D 對象檢測
Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
Zengyi Qin, Jinglu Wang, Yan Lu
論文地址:https://arxiv.org/abs/1906.01193
3D 對象檢測旨在定位 3D 空間中特定類別的對象的三維邊界框。當提供有源 3D 掃描數據時,檢測任務相對容易。但主動掃描數據成本很高,且可擴展性受到限制。我們解決了被動圖像數據的 3D 檢測問題,這些數據只需要低成本的硬件,適應不同規模的對象,并具有效果較好的語義特征。
由于從 2D 圖像到 3D 幾何圖形的二義性映射,單個 RGB 圖像的單目 3D 檢測非常難,添加更多輸入圖可以為 3D 推理提供更多信息。多視圖幾何通過先找到點的密集對應關系,然后三角測量估計它們的 3D 位置。幾何方法處理利用點的局部特征,而不考慮對象級別的語義線索。
具有成對圖像的立體數據更適合于 3D 檢測,因為左圖像和右圖像之間的差異可以揭示空間方差,尤其是在深度維度。雖然研究者們已經對基于深度學習的立體匹配進行了大量的工作,但他們主要關注的是像素級而不是對象級。我們通過適當地放置 3D 錨點并將區域提議網絡(RPN)擴展到 3D,可以僅使用單目圖像獲得不錯的結果。
在本文中,我們提出立體三角測量學習網絡(TLNet)的立體圖像三維物體檢測,它無需計算像素級深度圖,就可以很容易地集成到基礎單目檢測器中。這一工作的關鍵思想是使用 3D 錨箱在一對立體圖像上構建其二投影的對象級幾何對應,網絡從中學習三角測量錨附近的目標對象。在 TLNet 中,我們引入了一種有效的特征重新加權策略,通過測量左右一致性來增強信息特征通道。重新加權方案過濾了來自噪聲和不匹配信道的信號來促進學習過程,使網絡能夠更多地關注對象的關鍵部分。我們首先提出了一個基礎單目 3D 檢測器,如下圖所示。
3D 檢測器概述
結合 TLNet,我們證明了在多種情況下,3D 物體探測都有顯著改進。另外,我們也對 TLNet 中的特征重新加權策略進行了定量分析,以更好地理解其效果。總之,我們的貢獻在三方面:
(1)一種可靠的基礎 3D 檢測器,僅以單目圖像為輸入,具有與目前最先進的立體檢測器相當的性能。
(2)三角測量學習網絡,利用立體圖像的幾何相關性定位目標 3D 對象,表現優于基礎模型。
(3)一種功能重新加權策略,可增強特定視圖的 RoI 功能的信息通道,通過將網絡注意力聚焦于對象的關鍵部分而有益于三角測量學習。
SPM 跟蹤器:用于實時視覺對象跟蹤的串并聯匹配
SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking
Guangting Wang, Chong Luo, Zhiwei Xiong, and Wenjun Zeng
論文地址:https://arxiv.org/abs/1904.04452
視覺物體跟蹤(Visual Object Tracking,VOT)是視頻分析任務中的一個基礎而經典的問題。在一段視頻里,對于指定的物體,跟蹤任務要求算法能持續地給出該物體在后續幀的位置(通常由一個矩形框所表示)。
VOT 任務的關鍵是“能跟住”、“不跟錯”。首先,由于姿態變化、相機角度、光照改變等諸多原因,物體的外觀在一段視頻里是不斷變化的。“能跟住”就要求算法在物體的任何外觀變化下都能準確地找到物體。其次,目標物體并不總是單獨出現的,相似物體的存在會對結果產生比較大的干擾。例如在一群人的畫面中跟住某一個人時,我們就希望算法具有區分不同個體的能力,即“不跟錯”。在實踐中我們發現,“能跟住”和“不跟錯”兩個要求很難在一個模型中同時被滿足。一方面,我們希望模型能夠對物體的外觀變化不敏感;另一方面,我們又要求模型能區分相似物體外觀上的區別。這兩者本身就有矛盾的地方。
為了解決這個問題,我們創新性地提出了串并聯匹配(Series-Parallel Matching)的結構。整個結構分為兩個部分,我們稱之為“粗匹配”與“細匹配”。
“粗匹配”的任務是找出圖中所有和跟蹤目標相似的物體,即“能跟住”。這個部分我們采用了 SiamRPN 框架。不同的是,為了讓模型盡可能地對物體外觀變化魯棒,我們把同一個類別的物體當作正樣本對去訓練模型。可視化的結果表明,這種訓練方式能夠使得模型在物體外觀變化很大的情況下,仍然準確地找出物體。
“粗匹配”會生成一些候選的框給到“細匹配”模型。這一部分的任務是區分這些相似的物體,即“不跟錯”。為了讓模型更具有鑒別力,我們采用了關聯網絡去學習跟蹤目標與候選框之間的距離度量。實驗結果表明,這個結構比之前的交叉相關方法更加有效。
這兩個部分通過串并聯的方式結合在一起,得到最后的跟蹤結果。它們共享同樣的卷積特征,所以處理速度非常快,能夠達到 120 FPS,遠超實時性的要求。我們在 OTB / VOT / LaSOT 等多個測試集上均取得了當時最好的實時跟蹤結果,進一步驗證了模型的有效性。
使用多投影 GAN 從未注釋的圖像集合中合成 3D 形狀
Synthesizing 3D Shapes from Unannotated Image Collections using Multi-projection Generative Adversarial Networks
Xiao Li, Yue Dong, Pieter Peers, Xin Tong
論文地址:https://arxiv.org/abs/1906.03841
三維形體生成是計算機視覺的一個重要問題,傳統方法或利用已有的大規模三維形體數據集進行訓練,或利用已知視點信息的同一物體的多張多視點照片重建物體的三維形體。然而在大量實際應用場景中,仍然難以獲取大量高質量的三維形體數據和具有已知視點信息的同一物體的多視點圖像。針對這一問題,我們提出了一種利用未知視點信息、不存在圖像間對應關系的二維圖像集合進行三維形體生成的方法。
由于這種無標注的二維圖像不存在圖像間的對應關系,對于某一特定物體而言,我們不具有其多視點的樣本。然而我們注意到,大量二維圖像作為一個整體,表達了三維形體在不同視點下二維投影圖像的統計分布,因此,我們可以利用生成對抗神經網絡(GAN)的方法來學習這一統計分布,將單一物體的多視點重建問題轉化為利用生成網絡學習并產生在多視點下符合條件的二維圖像統計分布的問題。
另一方面,由于這種無標注的二維圖像沒有對應的視點信息,我們依然無法獲得針對某一視點的二維圖像的統計信息。為了解決這一問題,我們需要訓練對應的神經網絡來預測圖像的視點信息。然而,訓練視點預測網絡需要視點標注信息或三維形體數據來生成訓練數據。為了跳出這一互相依賴的情況,我們提出了一種聯合交替訓練三維形體生成與視點信息預測的方法,同時解決了二維圖像視點信息預測和三維形體生成的問題。
在實際應用中,我們的方法僅需要某一類物體在多個視點下的輪廓圖像,不需要對視點信息、視點分布、圖像之間的對應關系等的假設,即可產生一個可以生成該類物體的不同幾何形體的生成網絡。同時,我們的訓練過程還會相應地得到一個針對該類物體輪廓圖像的視角預測網絡。
我們在公開的二維輪廓數據集(Caltech-UCSD Bird, Pix3D-Car)上進行了測試,獲得了良好的形體生成和視角預測的效果。我們也在 ShapeNet 數據集上進行了合成數據測試,并對算法各個模塊的作用進行了詳細的實驗分析。
最后,這一基于多個低維投影來訓練高維數據生成網絡的方法還可以被推廣到其他高維數據的生成上,我們將該方法擴展到材質紋理生成,利用大量在不同光照下的材質圖像,我們可以訓練神經網絡,生成某一特定類型材料的不同紋理材質。
采用有條件的 GAN 編輯蒙版導向的肖像
Mask-Guided Portrait Editing with Conditional GANs
Shuyang Gu, Jianmin Bao, Hao Yang, Dong Chen, Fang Wen, Lu Yuan
論文地址:https://arxiv.org/pdf/1905.10346.pdf
肖像編輯是計算機視覺領域的一個熱門且實用的問題。前人在這方面的工作存在以下問題:或專注于特定的任務(如將閉上的眼睛睜開),或需要大量標注的表情數據(成本昂貴),或生成的人臉質量不高等。我們在論文“Mask-Guided Portrait Editing with Conditional GANs”中提出了一種通用、高質量、可控的人臉肖像編輯方法。
以下是我們的算法總體框架圖:
我們的網絡主要分為三個部分: Local Embedding Sub-Network, Mask-Guided Generative Sub-Network, Background Fusing Sub-Network。
其中,Local Embedding Sub-Network 將人臉的五個區域(左眼,右眼,皮膚,嘴唇,頭發)分別進行局部特征編碼,用L_local 約束在編碼解碼的過程中盡可能保留局部特征。Mask-Guided Generative Sub-Network 將局部特征的編碼根據空間位置融合在 target mask 上,生成沒有背景的肖像圖。Background Fusing Sub-Network 將這個前景肖像圖和 target mask 的背景融合,生成最終的結果。對于最終的結果,我們用L_GD 的 GAN 約束其滿足人臉的分布,用L_GP 約束其對應到原始的 target mask,當 source image 和 target image 是同一張圖時,我們用L_global 約束重建的圖片應當和輸入完全一致。
我們進行了對比實驗來分別驗證三個子網絡的有效性。具體到人臉肖像編輯的任務上,一方面,我們可以通過修改 mask 來編輯人臉(下圖左),另一方面,我們可以將局部編碼遷移到目標人臉(下圖右)來使得輸入的人臉具有其他的特征。人臉圖像編輯、人臉交換、渲染人臉實驗證明了該方法具有通用、高質量、可控的特點。此外,由于該方法具有從人臉分割圖片到人臉一對多的特性,將其用于人臉圖像分割的數據增強也能得到更好的結果。論文也展示了該方法在極端條件下的結果,來證明其具有很好的魯棒性。
肖像編輯的實驗結果
用于高質量圖像補全任務的金字塔式上下文編碼網絡
Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo
論文地址:https://arxiv.org/abs/1904.07475
圖像補全(image inpainting)要求算法根據圖像自身或圖像庫信息來補全待修復圖像的缺失區域,使得修復后的圖像看起來非常自然,難以和未受損的圖像區分開。根據恐怖谷理論,只要填補內容和未受損區域有細微的不協調,就會非常顯眼。因此高質量的圖像補全不僅要求生成的內容語義合理,還要求生成的圖像紋理足夠清晰真實。
目前最好的圖像補全的方法主要分為兩類:一類是經典的紋理合成方法,核心是從圖像的未受損區域采樣相似像素塊填充待補全區域。另一類是基于神經網絡的生成模型,該方法將圖像編碼成高維隱空間的特征,再從這個特征解碼成一張修復后的全圖。然而,這兩種方法在保證語義合理和紋理清晰的要求上都有其局限性。
不同方法在人臉上的實驗結果
通過大量的實驗研究和觀察討論,我們提出了以高層語義特征為指導、從深到淺逐層次多次補全的構想,從而讓網絡在保證語義一致性的同時,為缺失區域生成更豐富清晰的紋理細節,也由此誕生了金字塔式上下文編碼網絡(Pyramid-Context Encoder Network, PEN-Net)。
PEN-Net 是以 U-Net 網絡為主干結構搭建的。根據觀察,低層特征具有更豐富的紋理細節,高層特征具有更抽象的語義,高層特征可逐層次指導低層特征的補全,PEN-Net 的核心是將高層特征圖上通過注意力機制計算出的受損區域和未受損區域的區域相似度,應用于下一層低層特征圖上的特征補全,補全后的特征圖繼續指導下一層特征圖缺失區域的補全,直到最淺層的像素層。在這個過程中,網絡進行了多次的不同層次的特征補全。最終,解碼網絡將補全后的特征以及具有高層語義的特征結合,生成最后的補全圖像,使得補全圖像不僅語義合理,補全內容還具有更清晰豐富的紋理細節。
金字塔式上下文編碼網絡(Pyramid-Context Encoder Network, PEN-Net)
SeerNet: 通過低比特量化預測卷積神經網絡特征圖的稀疏性
SeerNet: Predicting Convolutional Neural Network Feature-Map Sparsity through Low-Bit Quantization
Shijie Cao, Lingxiao Ma, Wencong Xiao, Chen Zhang, Yunxin Liu, Lintao Zhang, Lanshun Nie, Zhi Yang
論文地址:https://www.microsoft.com/en-us/research/uploads/prod/2019/05/CVPR2019_final.pdf
深度神經網絡在圖像、語音、語言等領域取得重大突破,很大程度上依賴于更大更深層的網絡得以實現。模型大小和計算量的不斷增長使得利用最昂貴最高性能的設備(例如 TPU、GPU)也難以滿足模型推理的低延遲、高吞吐和高能效的需求。?
事實上,現在的神經網絡模型都構建在密集矩陣的運算之上,無論是對 GPU 還是 TPU 而言,都造成了大量的計算力和帶寬的浪費。許多算法研究人員已經意識到神經網絡存在大量的稀疏性,通過合理的減枝,許多神經網絡都能夠在減少計算量的基礎上維持模型精度。此外,許多超大型、極稀疏的神經網絡也在萌芽,例如 Geoffrey Hinton 提出的 Mixture-of-Experts 模型。?
該論文關注的是卷積神經網絡中輸出特征圖的稀疏性。例如,在卷積神經網絡中,每個卷積層后通常會連接 ReLU 層或者 Max-pooling 層。經過 ReLU 或 Max-pooling 層后,卷積層的大部分輸出被置為零或丟棄。從計算的角度考慮,如果能夠省略零值輸出和丟棄輸出所對應的先導卷積計算,則可以大大減少卷積層的計算量。?
該論文提出 SeerNet。“Seer”是“預見者/先知”的意思。文如其名,我們利用極低比特網絡以極低的代價預測輸出特征稀疏性,通過稀疏的高精度計算加速神經網絡計算。SeerNet 可以直接應用于預訓練好的模型,無需對原始模型做任何修改或重訓練。
下圖概述了本文的核心思想。對于每層卷積神經網絡,首先使用量化后的低比特(例如 4 比特,2 比特,1 比特)網絡預測輸出特征的稀疏分布,然后利用稀疏分布信息引導原始精度的模型推理,即只進行有效輸出(非零輸出)所對應的卷積計算。?
通過針對硬件優化的稀疏算法設計,本文基于 CPU 在卷積層上取得了最高 5.79x 的加速,在端到端的模型推理中取得了 1.2x-1.4x 的加速。同時,由于新型的 AI 硬件對混合精度的計算提供了更好的支持,SeerNet 會有更大的用武之地,例如 NVIDIA 最新發布的 Turing 架構支持 16/8/4-bit 混合精度張量計算單元,Xilinx 和 Altera 的 FPGA 提供了任意精度整數計算的支持。這些硬件平臺對低比特操作的支持可以降低預測過程的額外開銷,同時,定制的算法和體系結構可以最大化地加速稀疏計算。?
SeerNet 在 ResNet 和 VGG 的不同層取得的稀疏性和加速?
微軟亞洲研究院全部被接受論文列表如下:
- A Skeleton-bridged Deep Learning Approach for Generating Meshes of Complex Topologies from Single RGB Images
- Context-Reinforced Semantic Segmentation
- Deep Exemplar-based Video Colorization
- Deep High-Resolution Representation Learning for Human Pose Estimation
- Deep Incremental Hashing Network for Efficient Image Retrieval
- Deeper and Wider Siamese Networks for Real-Time Visual Tracking
- Deformable ConvNets v2: More Deformable, Better Results
- Densely Semantically Aligned Person Re-Identification
- Face Parsing with RoI Tanh-warping
- Group Sampling Networks for Scale Invariant Face Detection
- Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
- Learning Trilinear Attention Sampling Network for Fine-grained Image Recognition
- Mask-Guided Portrait Editing with Conditional GANs
- Relational Knowledge Distillation
- S4Net: Single Stage Salient-Instance Segmentation
- SeerNet: Predicting Convolutional Neural Network Feature-Map Sparsity through Low-Bit Quantization
- Single Image Reflection Removal Exploiting Network Enhancement and Missaligned Training Data
- SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking
- Structured Knowledge Distillation for Semantic Segmentation
- Synthesizing 3D Shapes from Unannotated Image Collections using Multi-projection Generative Adversarial Networks
- Triangulation Learning Network: from Monocular to Stereo 3D Object Detection
總結
以上是生活随笔為你收集整理的CVPR 2019 | 微软亚洲研究院7篇精选论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信团队严打微信外挂 Xposed也不能
- 下一篇: ofo运营主体牵涉合同纠纷 但名下已无可