AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
來源丨機器之心
作者丨陳萍、小舟
AI會是未來的「造物者」嗎?
近來,視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本,現在一個新視覺合成模型 Nüwa(女媧)也火了。
相比于 GauGAN,「女媧」的生成模式更加多樣,不僅有文本涂鴉生成圖像,還能從文本生成視頻。
隨著 VQ-VAE 這種離散化 VAE 方案的出現,高效和大規模的預訓練被逐漸應用于視覺合成任務,例如 DALL-E(圖像)、GODIVA(視頻)。這些模型雖然取得了巨大的成功,但仍然存在一些局限性——它們分別處理圖像和視頻,專注于生成其中一種,這限制了模型從圖像和視頻數據中受益。相比之下,「女媧」是一個統一的多模態預訓練模型,在 8 種包含圖像和視頻處理的下游視覺任務上具有出色的合成效果。
論文地址:https://arxiv.org/pdf/2111.12417.pdf
GitHub 地址:https://github.com/microsoft/NUWA
模型概覽
該研究提出了一個通用的 3D transformer——編碼器 - 解碼器框架(如下圖所示),同時涵蓋了語言、圖像和視頻,可用于多種視覺合成任務。該框架由以文本或視覺草圖作為輸入的自適應編碼器和由 8 個視覺合成任務共享的解碼器組成。?
「女媧」整體架構圖。
該框架還包含一種 3D Nearby Attention (3DNA) 機制,以考慮空間和時間上的局部特征。3DNA 不僅降低了計算復雜度,還提高了生成結果的視覺質量。與幾個強大的基線相比,「女媧」在文本到圖像生成、文本到視頻生成、視頻預測等方面都得到了 SOTA 結果。此外,「女媧」還顯示出驚人的零樣本學習能力。
「女媧」的 8 種跨模態合成模式分別是:
文本轉圖像:
涂鴉轉圖像:
圖像補全:
?
根據文本編輯圖像:
文本轉視頻:
?
視頻預測:
涂鴉轉視頻:
根據文本編輯視頻:
實驗結果
還研究通過多項實驗評估了合成結果。
首先研究者將「女媧」在三個數據集上進行預訓練:用于文本 - 圖像 (T2I) 生成的 Conceptual Captions,包括 2.9M 文本 - 圖像對;用于視頻預測 (V2V) 的 Moments in Time,包括 727K 視頻;用于文本 - 視頻 (T2V) 生成的 VATEX 數據集,包括 241K 文本 - 視頻對。
與 SOTA 方法比較
文本 - 圖像 (T2I) 微調:該研究比較了「女媧」在 MSCOCO 數據集上的性能,如表 1 和圖 3 所示:在表 1 中,「女媧」明顯優于 CogView,其中 FID-0 為 12.9,CLIPSIM 為 0.3429 。盡管 XMC-GAN 的 FID-0 為 9.3,優于「女媧」,但「女媧」能生成更逼真的圖像,如圖 3 所示。特別是在最后一個例子中,「女媧」生成的男孩臉更清晰,并且男孩旁邊的氣球也很逼真。
文本 - 視頻 (T2V) 微調:該研究在 Kinetics 數據集上評估了「女媧」,結果如表 2 和圖 4 所示。在表 2 中,「女媧」在所有指標上實現了最好的性能。
在圖 4 中,該研究還展示了「女媧」強大的零樣本生成能力,可以生成沒見過的圖像,例如:在游泳池里打高爾夫球,在海里奔跑:
視頻預測 (V2V) 微調:該研究在 BAIR Robot Pushing 數據集上對「女媧」和其他模型進行了比較,結果如表 3 所示:為了進行公平比較,所有模型都使用 64×64 分辨率。雖然只給出了一幀作為條件(Cond.),但「女媧」仍然將 SOTA FVD 得分從 94±2 降到 86.9 。
草圖 - 圖像 (S2I)微調:該研究在 MSCOCO stuff 上進行實驗,如圖 5 所示。與 Taming-Transformers 和 SPADE 相比,「女媧」生成了種類繁多的逼真汽車, 甚至巴士車窗的反射也清晰可見。
圖像補全 (I2I) 零樣本評估:給定塔樓的上部,與 Taming Transformers 模型進行比較,「女媧」可以生成對塔樓下半部分更豐富的想象,包括生成周圍建筑物、湖泊、花草、樹木、山脈等。
文本 - 指導圖像處理 (TI2I) 零樣本評估:「女媧」顯示了其強大的處理能力,可以生成高質量的文本一致性結果,而不會改變圖像的其他部分。
消融實驗
圖 5 顯示了文本 - 視頻 (T2V) 生成任務中多任務預訓練的有效性。該研究在具有挑戰性的數據集 MSR-VTT(具有自然描述和真實視頻) 上進行了實驗。「女媧」FID-vid 為 47.68,CLIPSIM 為 0.2439。
圖 9 顯示了文本指導視頻處理(TV2V)。第一行顯示了原始視頻幀,潛水員在潛水;第二行為潛水員正在向水面游;第三行顯示可以讓潛水員游到海底,如果我們想生成讓潛水員飛向天空的圖片?「女媧」可以實現,從圖中可以看出,潛水員像火箭一樣飛向天空。
本文僅做學術分享,如有侵權,請聯系刪文。
3D視覺精品課程推薦:
1.面向自動駕駛領域的多傳感器數據融合技術
2.面向自動駕駛領域的3D點云目標檢測全棧學習路線!(單模態+多模態/數據+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優化改進
4.國內首個面向工業級實戰的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優化
8.徹底剖析室內、室外激光SLAM關鍵算法原理、代碼和實戰(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結構光3D重建系統[理論+源碼+實踐]
10.單目深度估計方法:算法梳理與代碼實現
11.自動駕駛中的深度學習模型部署實戰
12.相機模型與標定(單目+雙目+魚眼)
重磅!3DCVer-學術論文寫作投稿?交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創投稿也請聯系。
▲長按加微信群或投稿
▲長按關注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領域的視頻課程(三維重建系列、三維點云系列、結構光系列、手眼標定、相機標定、激光/視覺SLAM、自動駕駛等)、知識點匯總、入門進階學習路線、最新paper分享、疑問解答五個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業為一體的鐵桿粉絲聚集區,近4000星球成員為創造更好的AI世界共同進步,知識星球入口:
學習3D視覺核心技術,掃描查看介紹,3天內無條件退款
?圈里有高質量教程資料、可答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結
以上是生活随笔為你收集整理的AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【松勤软件测试】作为一名软件测试工程师,
- 下一篇: python浏览器自动化测试仪器_【松勤