CVPR2018 ——(GAN)延时摄影视频的生成
CVPR2018即將開始,陸陸續續很多優秀的作品被大家知曉。今天我們來說說又去的科研成果,也希望閱讀您對此感興趣~
在戶外拍攝一張照片之后,我們可以預測照片里面接下來發生的事情嗎?比如,云彩會怎么移動?
今天我說的這個技術了不起了!其通過展示一個兩階段的生成對抗網來生成逼真的延時攝影視頻對這個問題進行了回答。
給定第一幀圖像,用提出的模型可預測未來的視頻幀。在其兩階段模型里面,第一個階段生成具有逼真內容的延時攝影視頻;第二個階段對第一個階段的結果進行優化,主要體現在增加動態的運動信息,使之與真實的延時攝影視頻更加接近。為了使最終生成的視頻具有生動的運動信息,該技術還引入格拉姆矩陣來更加精確地描述運動信息。并且建立了一個大規模的延時攝影視頻數據集,并且在這個數據集上面測試了其方法。通過使用該模型,可以生成分辨率為128x128,多達32幀的逼真的延時攝影視頻。定性和定量實驗都證明該方法相比已有最好模型的優越性。
復仇者聯盟3:無限戰爭
主演:小羅伯特·唐尼 / 克里斯·海姆斯沃斯 / 馬克·魯法洛
貓眼電影演出 廣告 購買接下來我們一起開始學習,詳細對該技術進行剖析,使得該領域研究的小伙伴更加深刻,對未來的研究和創新打下基礎~
通過現有模型的性能表明,在單個模型的同時生成具有真實內容的視頻,不同幀間的生動的運動動力學是非常重要的。原因之一可能是單個模型的表示能力在滿足可能相互矛盾的兩個目標方面受到限制。為此,本次說的技術將視頻生成的建模分為內容建模和運動建模,并提出了一種多階段動態生成對抗性網絡(MD-GAN)模型來生成真實的未來視頻。第一階段的目標是在給定輸入幀的情況下,生成具有盡可能真實的內容細節的未來幀;第二階段具體涉及運動建模,即使相鄰幀之間的物體運動更加生動,同時保持內容逼真。
具體來說,則就是開發了一個名為Base-Net的生成性對抗性網絡,在第一階段生成內容。生成器和判別器都由三維卷積和反卷積組成,用于建模時空模式。這個階段的對抗性損失鼓勵生成器制作類似于真實發行的視頻。為了保留更多的內容細節,在生成器中使用了類似3D U-Net的體系結構,而不是普通的編碼器-解碼器結構。跳過連接用于將編碼器和解碼器中的對應特征映射鏈接起來,以便解碼器能夠在編碼器中重用特征,從而減少信息損失。
這樣,該模型可以在未來的每一幀中生成更好的內容細節,這些細節在視覺上比普通的編碼器-解碼器結構(如“C. Vondrick, H. Pirsiavash, and A. Torralba.?Generating videos with scene dynamics”中的模型)所產生的內容更令人愉悅。
Base-Net可以生成包含具體細節的框架,但可能無法對幀間的運動轉換進行建模。于是,為了生成具有生動運動的未來幀,第二階段MD-GAN以第一階段的輸出作為輸入,并與另一個生成的對抗性網絡改進時間轉換,同時保留現實的內容細節,我們稱之為“Refine-Net”。提出了一種對抗性排名損失來訓練這個網絡,以鼓勵生成的視頻更接近真實的視頻,同時更遠離輸入視頻(從第一階段)的運動。為此,引入Gram矩陣對連續幀間的動態變換進行建模。在下圖中給出了一些由傳統方法和該技術方法生成的示例幀。本次技術模型產生的圖像幀比最先進的圖像幀更清晰,并且在視覺上幾乎和真實的圖像幀一樣逼真。
上圖中,從上往下一次是:?VGAN, RNN-GAN,本次技術的第一階段和第二階段示例幀結果。
本次還建立了一個大規模的延時視頻數據集,稱為天空場景,以評估模型的未來預測。該數據集包括白天、夜幕、星空和極光場景。MD-GAN在這個數據集上進行訓練,并根據天空場景的靜態圖像預測未來的幀。我們可以制作128×128真實感視頻,其分辨率遠遠高于最先進的模型。與以往只生成一幀的工作不同,該模型通過一次生成32幀,進一步防止了錯誤積累和信息丟失。
階段I: Base-Net
如上圖所示,Base-Net是由生成器G1和判別器D1組成的生成對抗網絡。以圖像x∈R 3×H×W為起始幀,復制T次,得到靜態視頻X∈R 3×TxH×W。通過三維卷積和三維反卷積層轉發X,生成器G1輸出T幀的視頻Y1∈R 3×TxH×W,即Y1=G1(X)。
對于生成器G1,采用了一種編解碼結構,這也適用于VGAN。然而,這種普通的編解碼結構在產生良好的結果方面遇到了問題,因為來自編碼器的特性可能沒有被充分利用。因此,使用類似于3D U-Net的體系結構來代替,這樣編碼器中的特征就可以被充分利用來生成Y1。如上圖所示,通過引入編碼器和解碼器的特征映射之間的skip連接來實現這種U-Net體系結構。skip連接在底層和頂層的特征之間建立信息“高速公路”,這樣功能就可以被重用。這樣,生成的視頻更有可能包含豐富的內容細節,這似乎是一個簡單的修改,但它在提高視頻質量方面發揮了關鍵作用。
判別器D1然后以視頻Y1和真實視頻Y作為輸入,并試圖區分它們。x是Y的第一幀。D1與G1的編碼器部分共享相同的結構,除了最后一層是具有Sigmoid激活函數的單個節點之外。
為了訓練GAN-Based的模型,對Base-Net的對抗性損失定義為:
此外,在實驗中觀察到,在像素空間中直接結合對抗性損失和L1損失,使生成的視頻與真實視頻之間的距離最小化,可以獲得令人滿意的性能。因此,將content 損失定義為:
最后,第一階段的Base-Net目標函數如下:
這種對抗性訓練允許Base-Net制作包含真實內容細節的視頻。然而,考慮到未來的不確定性,GAN的學習能力有限,單個GAN模型可能無法捕捉真實視頻中正確的運動模式。因此,產生的視頻的運動動力學可能不夠現實。為了解決這個問題,在第二階段通過另一種名為refine-net的GAN模型進一步處理了第一階段的輸出,以補償其生動的運動動力學,并生成更真實的視頻。
階段II: Refine-Net
Refine-Net的生成器G2與Base-Net中的G1類似。在訓練模型時,發現很難在使用skip連接來保持真實的內容細節的同時產生生動的運動。
換句話說,skip連接主要是內容生成的貢獻,但對運動生成可能沒有幫助。因此,從G2中刪除了一些skip連接,如上圖所示。Refine-Net的判別器D2也是一個具有3D卷積的CNN,與Base-Net中的D1具有相同的結構。采用對抗性訓練來更新G2和D2。然而,天真地使用vanilla adversarial loss會導致身份映射,因為G2的輸入Y1是G1的最佳結果,G1的結構與G2非常相似。只要G2學習身份映射,輸出Y2就不會得到改善。
為了迫使網絡學習有效的時間變換,提出了一種對抗性排名損失來驅動網絡生成更接近真實視頻的視頻,同時又遠離輸入視頻(從第一階段開始的Y1)。排名損失被定義為Lrank(Y1;Y2;Y),稍后將詳細描述輸入Y1、輸出Y2和真相視頻Y。要構建這樣的排序損失,應該利用能夠很好地表示幀間動態的有效特征。基于這種特征表示,可以方便地計算視頻之間的距離。
使用Gram矩陣作為運動特征表示來幫助G2學習視頻幀間的動態。給定輸入視頻,首先用判別器D2提取視頻的特征。然后,利用這些特性計算出跨幀的Gram矩陣,從而合并豐富的時間信息。
為了充分利用視頻表示,采用了[1]和[2]中引入的對比損失的一個變體來計算視頻之間的距離。對l層特征的對抗性排名損失被定義為:
[1]?E. Hoffer and N. Ailon. Deep metric learning using triplet network. In International Workshop on Similarity-Based Pattern Recognition, pages 84–92. Springer, 2015.
[2]?X. Liang, H. Zhang, and E. P. Xing. Generative semantic manipulation with contrasting gan. arXiv preprint arXiv:1708.00315, 2017.
從判別器D2的多個卷積層中提取輸入Y1、輸出Y2和真實視頻Y的特征,并分別計算它們的Gram矩陣。最后的對抗性排名損失是:
類似于第一階段的目標,還結合像素方向的L1距離來捕捉低層次的細節。Refine-Net的總體目標是:
具體算法如下:
實驗
總結
本次的技術主要提出了一種MD-GAN模型,它可以由粗到細的方式產生分辨率高達128×128的真實感延時視頻。在第一階段,模型通過Base-Net生成尖銳的內容細節和粗糙的運動動力學,以3D U-Net為生成器。在第二階段,Refine-Net提高了運動質量,一個對抗性的排名損失,其中結合了格拉姆矩陣,給出有效地建模的運動模式。實驗表明,模型比現有的最先進的模型有更好的性能,并且在許多情況下可以生成與真實世界的視頻一樣逼真的視頻。
如果想加入我們“計算機視覺戰隊”,請掃二維碼加入學習群,我們一起學習進步,探索領域中更深奧更有趣的知識!
后來的我們
主演:井柏然 / 周冬雨 / 田壯壯
貓眼電影演出 廣告 購買Reward
people gave a reward
長按二維碼向我轉賬
受蘋果公司新規定影響,微信 iOS 版的贊賞功能被關閉,可通過二維碼轉賬支持公眾號。
Views總結
以上是生活随笔為你收集整理的CVPR2018 ——(GAN)延时摄影视频的生成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 罗技c930e摄像头描述符
- 下一篇: 6.#闲谈|小编一手腾讯课堂送花脚本 j