當前位置：首頁 > 运维知识 > windows >内容正文

windows

谷歌文生图巅峰之作 Imagen 2 登场，实测暴打 DALL・E 3 和 Midjourney

發布時間：2023/12/15 windows 40 传统文化

生活随笔收集整理的這篇文章主要介紹了谷歌文生图巅峰之作 Imagen 2 登场，实测暴打 DALL・E 3 和 Midjourney 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

新智元報道

編輯：編輯部

【新智元導讀】卷瘋了卷瘋了，谷歌剛剛放出了文生圖 AI 模型的巔峰之作 Imagen 2，實測效果逼真細膩，生成的美女圖仿佛真人照片，對于提示的還原程度已經打敗了 DALL?E 3 和 Midjourney！最強文生圖大模型這是要易主了？

提問：下面這張圖，是 AI 生圖還是照片？

如果不是這么問，絕大多數人大概都不會想到，這居然不是一張照片。

是的，只要在谷歌最新 AI 生圖神器 Imagen 2 中輸入這樣的提示詞 ——

A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile
一位 32 歲的年輕女性自然保護主義者，正在叢林中探險。她體格健壯，一頭短卷發，面帶親切的微笑

就能得到開頭那張無比逼真寫實、比照片還像照片的圖像了！

雖然圣誕節已經臨近，但谷歌還在卷個不停 —— 號稱 DALL?E 3 最強競品的文生圖模型 Imagen 2，終于重磅上線了。

剛用 Gemini 和 OpenAI 卷完 GPT-4，立馬又放出 Imagen 2 來卷 DALL?E 3 了，2023 年底的「卷王」稱號，谷歌是實至名歸。

不僅手指逼真，而且拿筷子的姿勢也很標準

可以說，Imagen 2 是目前文本轉圖像技術的巔峰之作，已經突破了 AI 生圖的界限。

在機器學習算法強大功能的加持下，Imagen 2 可以將文本描述轉換為生動清晰的高分辨率圖像。

Imagen 2 最與眾不同之處在于，它能夠以驚人的準確性，理解復雜抽象的概念，然后把這個概念可視化，細膩之程度令人驚嘆！

Imagen 2 的核心，還是復雜的神經網絡架構。經過微調的 Transformer 模型，在文本理解和圖像合成上，都表現出了無與倫比的性能。

現在，在文生圖領域，谷歌又樹立了新的標桿。

用自然語言就能生圖的模型，又多了一個

現在，除了 DALL?E 3 之外，我們又有了一個僅憑自然語言就能生圖的模型！

相比之下，Midjourney 必須用復雜、專業的提示詞，在易使用性上已經被兩位競爭者甩出了很遠。

僅憑簡單文本，就能生存多樣化的復雜圖像，這類 AI 生圖模型對于內容創作的影響是極其深遠的。

對于依賴視覺內容的行業來說，這徹底改變了游戲規則，大大減少了傳統內容制作所需的時間，內容創作者可以以前所未有的速度，制作高質量的視覺效果。

同時，Imagen 2 還具有無可比擬的圖像質量和多功能性。

Imagen 2 用到了谷歌最先進的文本到圖像擴散技術，生圖質量極高、效果逼真，而且和用戶的提示具有高度的一致性。

原因在于，它是使用訓練數據的自然分布來生成更逼真的圖像，而非采用預先編程的樣式。

A jellyfish on a dark blue background

水母在深藍色的背景下悠然漂浮

可以看到，Imagen 2 的圖像生成能力非常驚人。

無論是渲染錯綜復雜的風景、詳細的物體，還是奇幻的場景，生成的圖像都具有如此高的保真度，以至于它們可以與人類藝術家創作的圖像相媲美，甚至直接超越。

Small canvas oil painting of an orange on a chopping board. Light is passing throughorange segments, casting an orange light across part of the chopping board. There is a blueand white cloth in the background. Caustics, bounce light, expressive brush strokes

一小幅油畫，描繪了擺放在砧板上的橙子。陽光穿過橙子的切片，柔和的橙色光線灑在砧板上。畫的背景是一塊藍白相間的布，畫面巧妙地捕捉了光的折射、反射效果，同時展示了畫家富有感情的筆觸

有網友表示，看到 Imagen 的這張橙子圖，真是讓我大吃一驚。燈光穿過橙子后的投影，和提示中描述的意境非常吻合！

有人用同樣的提示，讓 DALL?E 3 生成了同樣的橙子油畫圖，效果比起 Imagen 3 來說，的確弱了不少。

類似的，Midjourney 生成的橙子，在真實感和意境層面，也要差上一截。

詩中意境，一鍵逼真還原

以往的「文本到圖像」模型，通常是根據訓練數據集的圖像和標題中的詳細信息，來生成與用戶提示匹配的圖像的。

但是它們有一個 bug：對于每張圖像和配對的標題，在細節質量和準確性上可能會有很大差異。

為了幫助創建更高質量和更準確的圖像、更好地符合用戶的提示，Imagen 2 的訓練數據集中添加了更多描述，幫助 Imagen 2 學習不同的標題風格，并更好地理解廣泛的用戶提示。

這種圖像標題配對，就有助于 Imagen 2 更好地理解圖像和文字之間的關系，大大提高了它對上下文和細微差別的理解。

就比如，美國作家 Phillis Wheatley《晚間贊美詩》中的一句話「溪流潺潺，鳥兒啁啾，空中飄蕩著它們混合的音樂」。

詩中絕美的意境，Imagen 2 把要點全抓住了。

"Soft purl the streams, the birds renew their notes, And through the air their mingledmusic floats." (A Hymn to the Evening by Phillis Wheatley)

相比之下，Midjourney 似乎對于文學描述的內容把握還是欠缺一些，大概率會在圖中自動添加一個人物。不過整體畫面效果還是不錯的。

而到了 DALL?E 3 這里，它居然在圖像上加了幾行字，生成了一張「賀卡」？

在著名的小說《白鯨記》中，Herman Melville 曾寫下「想象一下大海的微妙之處，最可怕的地方在于生物如何在水下滑行，卻在大多數情況下不易察覺，并且詭譎地隱藏在最可愛的蔚藍色調下」。

Imagen 2 也是很懂「海洋文學」的特點。

"Consider the subtleness of the sea, how its most dreaded creatures glide underwater, unapparent for the most part, and treacherously hidden beneath the loveliest tints ofazure." (Moby-Dick by Herman Melville)

相比之下，Midjourney 和 DALL?E 3 一到深海，就瞬間就克蘇魯了起來……

Midjourney

DALL·E 3

兒童文學大家 Frances Hodgson Burnett 所著的《秘密花園》中，對知更鳥有這樣一句描述：

知更鳥從纏繞的常春藤上飛到墻頭，張開嘴巴，唱出了一個響亮而甜美的顫音，只是為了炫耀自己。世界上就沒有什么東西能比它更惹人喜愛了 —— 它們幾乎總是這樣做。

快看，Imagen 2 生成的這幅畫，把常春藤、墻頭、唱歌等暗藏的細節，悉數呈現了出來。

"The robin flew from his swinging spray of ivy on to the top of the wall and he openedhis beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite asadorably lovely as a robin when he shows off - and they are nearly always doing it." (TheSecret Garden by Frances Hodgson Burnett)

同樣的提示詞，Midjourney 在真實感上還要差上幾分。

而 DALL?E 3 相比上面兩家，就更遜色了，尤其在植物和羽毛的細節上。

風格復刻，隨意變換，更懂人類美學

一直以來，圖像生成飽受詬病的問題之一，便是人物的手指生成。

這次，Imagen 2 的數據集和模型進步，在許多領域取得了改進。

其中就包括渲染逼真的手部和人臉，以及保持圖像不受干擾的視覺偽影。

同時，谷歌 DeepMind 根據人類對光線、取景、曝光、清晰度等特質的偏好，訓練了一個專門的「圖像美學模型」。

每張圖像都被給予一個美學分數，這有助于調節 Imagen 2 在其訓練數據集中賦予人類偏好的圖像更多的權重。

這樣一來，就提高了 Imagen 2 生成更高質量圖像的能力。

使用提示「花」的 AI 生成的圖像，美學分數從低（左）到高（右）

Imagen 2 的擴散技術提供了高度的靈活性，使得更容易控制和調整圖像的風格。

通過提供參考風格圖像并結合文本提示，可以訓練 Imagen 2 生成遵循相同風格的新圖像。

通過使用參考圖像和文本提示，Imagen 2 可以更輕松地控制輸出樣式

更強的「修復」和「擴圖」

此外，Imagen 2 還支持圖像編輯功能，如「修復」（inpainting）和「擴圖」（outpainting）。

通過提供參考圖像和圖像掩碼，我們可以用 inpainting 技術直接在原始圖像中生成新內容。

在下面這幅原始圖中，只要輸入「綠色墻上有一個架子，架子上放著幾本書和花瓶」，對應內容就在原圖中生成了！

新內容毫不突兀，完美融入原圖，渾然天成。

另外，我們還可以使用 outpainting 功能，給原始圖像擴圖。

夕陽下非洲大草原上長頸鹿和斑馬的雙人大頭貼，一下子就擴成了全身照。

全面加持企業級場景，logo 文案一鍵生成，中文也支持

現在，谷歌已經 Imagen 2 下放到開發者平臺 Vertex AI。

在 Vertex AI 平臺上，客戶可以使用直觀的工具來自定義和部署 Imagen 2，享受全面管理的基礎設施和內置的隱私與安全保護。

在谷歌 DeepMind 的技術加持下，Imagen 2 在圖像質量上實現了顯著提升，幫助開發者根據特定需求創造圖像，其中包括：

- 根據自然語言的提示生成高質量、逼真、高分辨率且精美的圖像；

- 支持多語言文本渲染，能夠在圖像中準確添加文本內容；

- 可以設計公司或產品的 Logo，并將其嵌入到圖像中；

- 提供視覺問題解答功能，可以從圖像中生成標注，或就圖像細節提出的問題給出具有信息性的文本回答。

高質量圖像：借助于改進的圖像和文本理解，以及多種創新的訓練和建模技術，Imagen 2 能夠生成精準、高品質且逼真的圖像。

文本渲染支持：可以根據提示內容，精準地渲染出正確的文本。

Imagen 2 可以在生成含有特定文字或短語的物體圖像時，確保輸出圖像中包含正確短語。

Logo 設計：Imagen 2 能為品牌、產品等生成多種創意和逼真的 Logo，比如徽章、字母甚至非常抽象的 Logo。

標注和問答：利用增強的圖像理解能力，Imagen 2 能夠創建詳細的長文標注，并對圖像內元素提出的問題給出詳細答案。

多語言提示：除了英語，Imagen 2 還支持其他 6 種語言（中文、印地語、日語、韓語、葡萄牙語、西班牙語），并計劃在 2024 年初增加更多語言。這項功能還包括提示與輸出之間的翻譯能力，比如，可以用西班牙語提示，但指定輸出為葡萄牙語。

圖像加水印，生成更安全

為了幫助降低文本到圖像生成技術的潛在風險和挑戰，谷歌從設計和開發到產品部署都設置了強大的護欄。

Imagen 2 集成了 SynthID—— 用于加水印和識別 AI 生成內容的尖端工具包。

這樣，Google Cloud 平臺的客戶可以直接在圖像中添加數字水印，同時不會降低圖像質量。

不過，即使在對圖像進行過濾、裁剪或使用有損壓縮方案保存后，SynthID 仍然可以檢測出。

除此之外，在向所有用戶推出之前，谷歌會進行強大的安全測試，以最大限度地降低傷害風險。

從一開始，谷歌團隊就投入對 Imagen 2 的數據安全訓練，并添加了技術護欄來限制有問題的輸出，如暴力、冒犯或色情內容。

同時，谷歌還對訓練數據、輸入提示和系統生成的輸出進行安全檢查。比如正在應用全面的安全過濾器，以避免生成名人圖像等有潛在問題的內容。

網友驚呼：真?最強文生圖模型來了！

Google DeepMind 研究副總裁兼深度學習主管 Oriol Vinyals 嘗試用 Imagen 2 為 Gemini 生成徽標。

另一位谷歌科學家用 Imagen 2 生成的圖像如下。

下面是一只網友實測生成的藍貓。

有網友認為，Imagen 2 是同類產品中最好的。就像 Gemini Ultra 一樣，看手和文字就足夠了。

不過，他還吐槽了谷歌不向所有人開放產品的問題。

「像往常一樣，谷歌宣布了一款大多數人無法使用的產品，這有什么意義？！」

參考資料：

https://deepmind.google/technologies/imagen-2/
https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節省甄選時間，結果僅供參考，所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的谷歌文生图巅峰之作 Imagen 2 登场，实测暴打 DALL・E 3 和 Midjourney的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：中国工程院院士王子才教授逝世，曾研发空间
下一篇：【技术贴】注册表修改Win7默认字体为X