大谷新作!AI还原「王之霸气」朱元璋,杜甫倾情献唱奥特曼主题曲
來源:b站
編輯:雅新、白峰
AI 復活「歷史人物系」來一波 !
兵馬俑、杜甫、朱元璋、林黛玉都來湊熱鬧了。
還記得 AI 復原的 100 年前老北京和上海時裝秀的原聲錄像嗎?近日,B站 up 主 @大谷 Spitzer 再次用 AI「畫筆」復原了塵封多年的歷史。
杜甫「天眼」一開,沒有吟詩,而是唱起了奧特曼主題曲《奇跡再現》,還挺有節奏。
杜甫抖起來,真沒年輕人什么事了。
黎明悄悄劃過天邊,就像陽光穿過黑夜。
秦始皇兵馬俑被譽為世界第八大奇跡。每個兵馬俑的表情都是千奇百態,幾千年過去了,我們很難想象出他們在秦朝的樣子。
今天,大谷讓這些兵俑重新煥發了生機,穿越前年來和你對話。
去過兵馬俑后,大家都會對這些泥塑真人古跡的感到震撼。再看用 AI 復原后的兵馬俑,竟變成了有血有肉的大叔。
明朝開國皇帝朱元璋復原后這一傲嬌的表情,我瞬間收藏了。
網友表示,明太祖真是「英氣逼人」。
天生抑郁體制的林黛玉圖像復原后,讓人瞬間眼前一亮。柳葉眉,櫻桃唇,鵝蛋臉,一顰一笑,讓人心生歡喜。
還有蔣兆和老先生的水墨畫《老伴》,老爺爺和老奶奶的對話場景活靈活現。
AI 復原《于闐歌舞圖》,新疆的菇涼就是美!
這些活靈活現的人物究竟是如何復活的?
大谷很熱心地分享了自己用到的 AI 模型,全是開源的 GitHub 項目。
只要沉下心來研究大谷的教程,你也能讓杜甫舞動起來。
風格轉換第一步
ArtBreeder 的是一個在線工具,可以讓用戶使用生成對抗性網絡(GAN)來操縱人物肖像和風景。要做的很簡單,登錄 ArtBreeder 網站,輸入自己想要風格化的圖像,使用滑塊進行調整就能完成,十分方便。
徐悲鴻經風格調整后的圖像
如果想要特定風格的,就需要 StyleGAN 了,StyleGAN2 是 StyleGAN 的升級版,可以更加精細的進行風格遷移。
StyleGAN2 重新定義了無條件圖像建模,無論是在現有的分布質量指標還是感知圖像質量方面都達到了 SOTA。StyleGAN2 對上一代的 StyleGAN 方法進行了改進,并對模型結構和訓練方法進行了調整,讓圖像的生成質量更好。
StyleGAN2 訓練的速度更快,新生成的圖像受偽影的影響更小,多圖像的混搭風格更好,插值更加平滑,因此看起來過渡比較平滑。
First-Order-Model,讓靜態人物動起來
得到特定風格的圖片之后,如何讓靜態的人物動起來?
大谷使用了一個基于 First-Order-Model 的動態轉換模型,該模型只需要輸入一個動態視頻和杜甫的靜態圖片,就可以讓杜甫模仿出視頻中人物的動作。
這個模型可以根據驅動視頻的運動,對源圖像中的對象進行動畫處理,以生成視頻序列,而無需使用任何注釋或有關特定對象的先驗信息。
模型采用自監督的方法將外觀和運動信息分離,使用了視頻中對象的關鍵點及其局部仿射變換進行特征表示。
First-Order-Model 模型由兩個主要模塊組成:運動估計模塊和圖像生成模塊。運動估計模塊的目的是預測密集的運動場。我們假設存在一個抽象的參考框架,然后獨立地估計了兩種轉換:從參考到源以及從參考到驅動,這樣的設計使模型能夠獨立處理源幀和驅動幀。
視頻不清晰不連貫?插幀、超分辨率一鍵搞定
模型直接生成的視頻可能在動作不夠連貫,這時就需要一個視頻插幀的步驟,讓動態圖像顯得更自然,大谷同樣采用了一個開源視頻幀插值模型 DAIN。
DAIN 的全稱是深度感知視頻幀插值,模型通過探索深度信息來顯式地檢測遮擋。該項目開發了一個深度感知流動投影層,優選取樣更近的物體,以合成中間流插補視頻幀。
此前在另一個視頻中,大谷還使用了一個超分辨率工具 ESRGAN。
當 First-Order-Model 生成的視頻分辨率低,而 DAIN 插值后效果又不好,就可以考慮使用 ESRGAN 加一個超分辨率的后處理。
ESRGAN:ESRGAN 改進自 SRGAN ,主要用來做視頻超分辨率。與 SRGAN 的深層模型越來越難以訓練相反,更深層次的 ESRGAN 模型通過簡單的訓練就能達到卓越的性能,核心點在于平衡視覺質量和峰值信噪比的網絡插值策略。
大谷老師的B站粉絲數已經將近 9 萬了,如果你也想成為一個超人氣 AI 明星,趕緊撿起你的 Python 吧!
總結
以上是生活随笔為你收集整理的大谷新作!AI还原「王之霸气」朱元璋,杜甫倾情献唱奥特曼主题曲的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 花落弦断下一句是什么啊?
- 下一篇: 东莞市南湖公园要门票吗