谷歌文生图巅峰之作 Imagen 2 登场,实测暴打 DALL・E 3 和 Midjourney
新智元報道
編輯:編輯部
【新智元導讀】卷瘋了卷瘋了,谷歌剛剛放出了文生圖 AI 模型的巔峰之作 Imagen 2,實測效果逼真細膩,生成的美女圖仿佛真人照片,對于提示的還原程度已經打敗了 DALL?E 3 和 Midjourney!最強文生圖大模型這是要易主了?
提問:下面這張圖,是 AI 生圖還是照片?
如果不是這么問,絕大多數人大概都不會想到,這居然不是一張照片。
是的,只要在谷歌最新 AI 生圖神器 Imagen 2 中輸入這樣的提示詞 ——
A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位 32 歲的年輕女性自然保護主義者,正在叢林中探險。她體格健壯,一頭短卷發,面帶親切的微笑
就能得到開頭那張無比逼真寫實、比照片還像照片的圖像了!
雖然圣誕節已經臨近,但谷歌還在卷個不停 —— 號稱 DALL?E 3 最強競品的文生圖模型 Imagen 2,終于重磅上線了。
剛用 Gemini 和 OpenAI 卷完 GPT-4,立馬又放出 Imagen 2 來卷 DALL?E 3 了,2023 年底的「卷王」稱號,谷歌是實至名歸。
可以說,Imagen 2 是目前文本轉圖像技術的巔峰之作,已經突破了 AI 生圖的界限。
在機器學習算法強大功能的加持下,Imagen 2 可以將文本描述轉換為生動清晰的高分辨率圖像。
Imagen 2 最與眾不同之處在于,它能夠以驚人的準確性,理解復雜抽象的概念,然后把這個概念可視化,細膩之程度令人驚嘆!
Imagen 2 的核心,還是復雜的神經網絡架構。經過微調的 Transformer 模型,在文本理解和圖像合成上,都表現出了無與倫比的性能。
現在,在文生圖領域,谷歌又樹立了新的標桿。
用自然語言就能生圖的模型,又多了一個
現在,除了 DALL?E 3 之外,我們又有了一個僅憑自然語言就能生圖的模型!
相比之下,Midjourney 必須用復雜、專業的提示詞,在易使用性上已經被兩位競爭者甩出了很遠。
僅憑簡單文本,就能生存多樣化的復雜圖像,這類 AI 生圖模型對于內容創作的影響是極其深遠的。
對于依賴視覺內容的行業來說,這徹底改變了游戲規則,大大減少了傳統內容制作所需的時間,內容創作者可以以前所未有的速度,制作高質量的視覺效果。
同時,Imagen 2 還具有無可比擬的圖像質量和多功能性。
Imagen 2 用到了谷歌最先進的文本到圖像擴散技術,生圖質量極高、效果逼真,而且和用戶的提示具有高度的一致性。
原因在于,它是使用訓練數據的自然分布來生成更逼真的圖像,而非采用預先編程的樣式。
水母在深藍色的背景下悠然漂浮
可以看到,Imagen 2 的圖像生成能力非常驚人。
無論是渲染錯綜復雜的風景、詳細的物體,還是奇幻的場景,生成的圖像都具有如此高的保真度,以至于它們可以與人類藝術家創作的圖像相媲美,甚至直接超越。
有網友表示,看到 Imagen 的這張橙子圖,真是讓我大吃一驚。燈光穿過橙子后的投影,和提示中描述的意境非常吻合!
有人用同樣的提示,讓 DALL?E 3 生成了同樣的橙子油畫圖,效果比起 Imagen 3 來說,的確弱了不少。
類似的,Midjourney 生成的橙子,在真實感和意境層面,也要差上一截。
詩中意境,一鍵逼真還原
以往的「文本到圖像」模型,通常是根據訓練數據集的圖像和標題中的詳細信息,來生成與用戶提示匹配的圖像的。
但是它們有一個 bug:對于每張圖像和配對的標題,在細節質量和準確性上可能會有很大差異。
為了幫助創建更高質量和更準確的圖像、更好地符合用戶的提示,Imagen 2 的訓練數據集中添加了更多描述,幫助 Imagen 2 學習不同的標題風格,并更好地理解廣泛的用戶提示。
這種圖像標題配對,就有助于 Imagen 2 更好地理解圖像和文字之間的關系,大大提高了它對上下文和細微差別的理解。
就比如,美國作家 Phillis Wheatley《晚間贊美詩》中的一句話「溪流潺潺,鳥兒啁啾,空中飄蕩著它們混合的音樂」。
詩中絕美的意境,Imagen 2 把要點全抓住了。
相比之下,Midjourney 似乎對于文學描述的內容把握還是欠缺一些,大概率會在圖中自動添加一個人物。不過整體畫面效果還是不錯的。
而到了 DALL?E 3 這里,它居然在圖像上加了幾行字,生成了一張「賀卡」?
在著名的小說《白鯨記》中,Herman Melville 曾寫下「想象一下大海的微妙之處,最可怕的地方在于生物如何在水下滑行,卻在大多數情況下不易察覺,并且詭譎地隱藏在最可愛的蔚藍色調下」。
Imagen 2 也是很懂「海洋文學」的特點。
相比之下,Midjourney 和 DALL?E 3 一到深海,就瞬間就克蘇魯了起來……
兒童文學大家 Frances Hodgson Burnett 所著的《秘密花園》中,對知更鳥有這樣一句描述:
知更鳥從纏繞的常春藤上飛到墻頭,張開嘴巴,唱出了一個響亮而甜美的顫音,只是為了炫耀自己。世界上就沒有什么東西能比它更惹人喜愛了 —— 它們幾乎總是這樣做。
快看,Imagen 2 生成的這幅畫,把常春藤、墻頭、唱歌等暗藏的細節,悉數呈現了出來。
同樣的提示詞,Midjourney 在真實感上還要差上幾分。
而 DALL?E 3 相比上面兩家,就更遜色了,尤其在植物和羽毛的細節上。
風格復刻,隨意變換,更懂人類美學
一直以來,圖像生成飽受詬病的問題之一,便是人物的手指生成。
這次,Imagen 2 的數據集和模型進步,在許多領域取得了改進。
其中就包括渲染逼真的手部和人臉,以及保持圖像不受干擾的視覺偽影。
同時,谷歌 DeepMind 根據人類對光線、取景、曝光、清晰度等特質的偏好,訓練了一個專門的「圖像美學模型」。
每張圖像都被給予一個美學分數,這有助于調節 Imagen 2 在其訓練數據集中賦予人類偏好的圖像更多的權重。
這樣一來,就提高了 Imagen 2 生成更高質量圖像的能力。
Imagen 2 的擴散技術提供了高度的靈活性,使得更容易控制和調整圖像的風格。
通過提供參考風格圖像并結合文本提示,可以訓練 Imagen 2 生成遵循相同風格的新圖像。
更強的「修復」和「擴圖」
此外,Imagen 2 還支持圖像編輯功能,如「修復」(inpainting)和「擴圖」(outpainting)。
通過提供參考圖像和圖像掩碼,我們可以用 inpainting 技術直接在原始圖像中生成新內容。
在下面這幅原始圖中,只要輸入「綠色墻上有一個架子,架子上放著幾本書和花瓶」,對應內容就在原圖中生成了!
新內容毫不突兀,完美融入原圖,渾然天成。
另外,我們還可以使用 outpainting 功能,給原始圖像擴圖。
夕陽下非洲大草原上長頸鹿和斑馬的雙人大頭貼,一下子就擴成了全身照。
全面加持企業級場景,logo 文案一鍵生成,中文也支持
現在,谷歌已經 Imagen 2 下放到開發者平臺 Vertex AI。
在 Vertex AI 平臺上,客戶可以使用直觀的工具來自定義和部署 Imagen 2,享受全面管理的基礎設施和內置的隱私與安全保護。
在谷歌 DeepMind 的技術加持下,Imagen 2 在圖像質量上實現了顯著提升,幫助開發者根據特定需求創造圖像,其中包括:
- 根據自然語言的提示生成高質量、逼真、高分辨率且精美的圖像;
- 支持多語言文本渲染,能夠在圖像中準確添加文本內容;
- 可以設計公司或產品的 Logo,并將其嵌入到圖像中;
- 提供視覺問題解答功能,可以從圖像中生成標注,或就圖像細節提出的問題給出具有信息性的文本回答。
高質量圖像:借助于改進的圖像和文本理解,以及多種創新的訓練和建模技術,Imagen 2 能夠生成精準、高品質且逼真的圖像。
文本渲染支持:可以根據提示內容,精準地渲染出正確的文本。
Imagen 2 可以在生成含有特定文字或短語的物體圖像時,確保輸出圖像中包含正確短語。
Logo 設計:Imagen 2 能為品牌、產品等生成多種創意和逼真的 Logo,比如徽章、字母甚至非常抽象的 Logo。
標注和問答:利用增強的圖像理解能力,Imagen 2 能夠創建詳細的長文標注,并對圖像內元素提出的問題給出詳細答案。
多語言提示:除了英語,Imagen 2 還支持其他 6 種語言(中文、印地語、日語、韓語、葡萄牙語、西班牙語),并計劃在 2024 年初增加更多語言。這項功能還包括提示與輸出之間的翻譯能力,比如,可以用西班牙語提示,但指定輸出為葡萄牙語。
圖像加水印,生成更安全
為了幫助降低文本到圖像生成技術的潛在風險和挑戰,谷歌從設計和開發到產品部署都設置了強大的護欄。
Imagen 2 集成了 SynthID—— 用于加水印和識別 AI 生成內容的尖端工具包。
這樣,Google Cloud 平臺的客戶可以直接在圖像中添加數字水印,同時不會降低圖像質量。
不過,即使在對圖像進行過濾、裁剪或使用有損壓縮方案保存后,SynthID 仍然可以檢測出。
除此之外,在向所有用戶推出之前,谷歌會進行強大的安全測試,以最大限度地降低傷害風險。
從一開始,谷歌團隊就投入對 Imagen 2 的數據安全訓練,并添加了技術護欄來限制有問題的輸出,如暴力、冒犯或色情內容。
同時,谷歌還對訓練數據、輸入提示和系統生成的輸出進行安全檢查。比如正在應用全面的安全過濾器,以避免生成名人圖像等有潛在問題的內容。
網友驚呼:真?最強文生圖模型來了!
Google DeepMind 研究副總裁兼深度學習主管 Oriol Vinyals 嘗試用 Imagen 2 為 Gemini 生成徽標。
另一位谷歌科學家用 Imagen 2 生成的圖像如下。
下面是一只網友實測生成的藍貓。
有網友認為,Imagen 2 是同類產品中最好的。就像 Gemini Ultra 一樣,看手和文字就足夠了。
不過,他還吐槽了谷歌不向所有人開放產品的問題。
「像往常一樣,谷歌宣布了一款大多數人無法使用的產品,這有什么意義?!」
參考資料:
https://deepmind.google/technologies/imagen-2/
https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。
總結
以上是生活随笔為你收集整理的谷歌文生图巅峰之作 Imagen 2 登场,实测暴打 DALL・E 3 和 Midjourney的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国工程院院士王子才教授逝世,曾研发空间
- 下一篇: 【技术贴】注册表修改Win7默认字体为X