Midjourney 学会看图说话,输入图像秒出 prompt ,网友玩疯了
面對(duì)畫作總是詞窮?現(xiàn)在,Midjourney 推出了一個(gè)新的圖像工具,可以反向操作,只要輸入圖片,它就會(huì)給你輸出提示。
Midjourney V5 上線后,網(wǎng)友們用它生成了數(shù)不清的驚嘆作品。
在這個(gè) AI 作畫工具面前,人和人的差距,或許就體現(xiàn)在 prompt 上了。
去年在科羅拉多州博覽會(huì)藝術(shù)比賽上用 AI 打敗了人類的獲獎(jiǎng)?wù)撸?80 多個(gè)小時(shí),經(jīng)過(guò) 900 次迭代后,才用 Midjourney 完成了《太空歌劇院》這一藝術(shù)杰作。而 ta 直接拒絕分享出自己的 prompt。
是的,現(xiàn)在很多時(shí)候,一行完美又專業(yè)的 prompt,已經(jīng)價(jià)值千金。
而 Midjourney 仿佛深知我們的需求,最近,它上線了一個(gè)新功能 ——/describe,可以幫我們從圖像中反推 prompt。
從圖像反推 prompt
現(xiàn)在,如果你有一個(gè)想模仿的圖像,但你不知道要用什么樣的 prompt 去描述它,這時(shí)候,describe 就幫你大忙了。比如,下圖是新海誠(chéng)的《言葉之庭》(「言の葉の庭」)。
拖進(jìn)圖像后,Midjourney 生成了下面四種 prompt。
根據(jù)這四個(gè) prompt,Midjourney 又生成了類似風(fēng)格的四幅圖。
簡(jiǎn)直完美。
并且,Midjourney 提供的描述也可以激發(fā)出用戶的更多靈感。傳統(tǒng)的畫家可能會(huì)患有空白畫布綜合征,AI 藝術(shù)家有時(shí)也會(huì)詞窮,很難找到描述照片的詞語(yǔ)。
在 Midjourney 的 Discord 頻道上,從「/describe」就可以啟動(dòng)文本描述過(guò)程了。
Midjourney 提供了一個(gè)拖放區(qū),可以讓你拖入圖像。
然后按下回車鍵,就可以等待 prompt 了。
四個(gè)文本提示,包括描述性詞語(yǔ)、樣式詳細(xì)信息和縱橫比。寬高比在像素精確度方面與計(jì)算機(jī)類似,比如如果是一個(gè) 16:9 的圖像,它會(huì)輸出 504:283。
而四個(gè)文本提示生成后,你可以直接點(diǎn)擊按鈕,直接用它們生成圖像,當(dāng)然,在提交之前,你也可以選擇自己優(yōu)化提示。
作家的意外收獲?
更有趣的是,Midjourney 的這個(gè)新功能,竟然意外地讓作家們獲得了幫手。
如果找不到完美的形容詞來(lái)描繪一幅畫,只需要把圖像上傳到 Midjourney,文采斐然的句子就自動(dòng)蹦出來(lái)了。
而 Midjourney 返回的文本提示,真是讓人驚喜連連。其中包括「palewave」、「cranberrycore」和「icepunk」等流行語(yǔ),以及各種藝術(shù)家、攝影師和作者的姓名。
而提示中出現(xiàn)人名時(shí),甚至是可點(diǎn)擊的鏈接,可以打開谷歌搜索,如果點(diǎn)擊進(jìn)去,你或許會(huì)獲得更多的靈感來(lái)源。
比如,上傳 Ross Burgener 的一張絕佳的作品,Midjourney 會(huì)這樣描述:"極光在 LED 照明的冰屋上跳舞,給雪的顏色帶來(lái)了藍(lán)色調(diào)"。
它認(rèn)出了北極光,會(huì)在提示中給出建議 —— 可參考藝術(shù)家 Qlexis Gritchenko 和攝影師 Nathan Wirth。它采用的詞匯包括 「極地冰山」、「發(fā)光的天空」和「空靈的雕塑」。
網(wǎng)友們大喜,已玩瘋
現(xiàn)在,網(wǎng)友們已經(jīng)玩瘋了。
有網(wǎng)友利用 describe 功能,生成了許多穿白色蕾絲裙的美女。
有人輸入了一堆珠寶的圖像。
得到了如下的 prompt。
根據(jù)這些 prompt 生成的圖像如下。
輸入一個(gè)二次元萌妹。
輸出的 prompt,出圖效果很驚艷。
輸入一只氣質(zhì)憨憨的大捻角羚的照片。
生成的 prompt 如下。
輸出的 prompt 生成的大捻角羚,氣質(zhì)更為冷峻。
輸入一只海灘上的狗。
Prompt 生出了四只埋在坑里的狗。
輸入穿著燕尾服的動(dòng)漫人物。
生成如下 prompt。
生成四張動(dòng)漫人物。
是 RLHF?
可以看到,Midjourney 最近的進(jìn)步,可以用飛速形容。
英偉達(dá) AI 科學(xué)家 Jim Fan 猜測(cè),Midjourney 一直在根據(jù)人類反饋(「RLHF」)進(jìn)行大規(guī)模的強(qiáng)化學(xué)習(xí),并且,這可能是有史以來(lái)規(guī)模最大的文本到圖像強(qiáng)化學(xué)習(xí)。
當(dāng)用戶選擇放大圖像時(shí),是因?yàn)樗麄兏矚g它。如果不把這個(gè)過(guò)程當(dāng)作獎(jiǎng)勵(lì)信號(hào),那真是巨大的浪費(fèi)。這些數(shù)據(jù)收集起來(lái)很便宜,而且完全符合用戶群的需求。
擁有的用戶越多,可以做的 RLHF 就越好,然后獲得的用戶就越多。
他還給出了一個(gè)免責(zé)聲明,表示這就是自己的一個(gè)腦洞,自己并不認(rèn)識(shí) Midjourney 的人。
但他們一定已經(jīng)是這么做的,因?yàn)?UI 的格式看起來(lái)就像一個(gè)多項(xiàng)選擇題。
最后,要注意的是,同圖像生成一樣,describe 功能需要使用積分,所以需要謹(jǐn)慎地考慮。
而且現(xiàn)在,Midjourney 的免費(fèi)功能,已經(jīng)徹底關(guān)閉了。
參考資料:
-
https://the-decoder.com/midjourney-new-image-tool-works-in-reverse/
-
https://twitter.com/DrJimFan/status/1643279641065713665
本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)
總結(jié)
以上是生活随笔為你收集整理的Midjourney 学会看图说话,输入图像秒出 prompt ,网友玩疯了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ABAP和Java SpringBoot
- 下一篇: 推荐一个免费的屏幕取色器,鼠标放到的位置