Stability AI 连扔两个王炸,首个开源 RLHF 模型登基,DeepFloyd IF 像素级出图
開源先鋒 StabilityAI 一天扔了兩枚重磅炸彈:發布史上首個開源 RLHF 大語言模型,以及像素級圖像模型 DeepFloyd IF。開源社區狂喜!
最近,大名鼎鼎的 Stable Diffusion 背后的公司,一連整了兩個大活。
首先,Stability AI 重磅發布了世上首個基于 RLHF 的開源 LLM 聊天機器人 ——StableVicuna。
StableVicuna 基于 Vicuna-13B 模型實現,是第一個使用人類反饋訓練的大規模開源聊天機器人。
有網友經過實測后表示,StableVicuna 就是目前當之無愧的 13B LLM 之王!
對此,1x exited 創始人表示,這可以看作是自 ChatGPT 推出以來的第二個里程碑。
另外,Stability AI 發布了開源模型 DeepFloyd IF,這個文本到圖像的級聯像素擴散模型功能超強,可以巧妙地把文本集成到圖像中。
這個模型的革命性意義在于,它一連解決了文生圖領域的兩大難題:正確生成文字,正確理解空間關系!
秉持著開源的一貫傳統,DeepFloyd IF 在以后會完全開源。
Stailibity AI,果然是開源界當之無愧的扛把子。
StableVicuna
世上首個開源 RLHF LLM 聊天機器人 StableVicuna,由 Stability AI 震撼發布!
一位 Youtube 主播對 Stable Vicuna 進行了實測,Stable Vicuna 在每一次測試中,都擊敗了前任王者 Vicuna。
所以這位 Youtuber 激動地喊出:Stable Vicuna 就是目前最強大的 13B LLM 模型,是當之無愧的 LLM 模型之王!
StableVicuna 基于小羊駝 Vicuna-13B 模型實現,是 Vicuna-13B 的進一步指令微調和 RLHF 訓練的版本。
而 Vicuna-13B 是 LLaMA-13B 的一個指令微調模型。
從以下基準測試可以看出,StableVicuna 與類似規模的開源聊天機器人在整體性能上的比較。
StableVicuna 可以做基礎數學題。
可以寫代碼。
還能為你講解語法知識。
開源聊天機器人平替狂潮
Stability AI 想做這樣一個開源的聊天機器人,當然也是受了此前 LLaMa 權重泄露引爆的 ChatGPT 平替狂潮的影響。
從去年春天 Character.ai 的聊天機器人,到后來的 ChatGPT 和 Bard,都引發了大家對開源平替的強烈興趣。
這些聊天模型的成功,基本都歸功于這兩種訓練范式:指令微調和人類反饋強化學習 (RLHF)。
這期間,開發者一直在努力構建開源框架幫助訓練這些模型,比如 trlX、trl、DeepSpeed Chat 和 ColossalAI 等,然而,卻并沒有一個開源模型,能夠同時應用指令微調和 RLHF。
大多數模型都是在沒有 RLHF 的情況下進行指令微調的,因為這個過程十分復雜。
最近,Open Assistant、Anthropic 和 Stanford 都開始向公眾提供 RLHF 數據集。
Stability AI 把這些數據集與 trlX 提供的 RLHF 相結合,就得到了史上第一個大規模指令微調和 RLHF 模型 ——StableVicuna。
訓練過程
為了實現 StableVicuna 的強大性能,研究者利用 Vicuna 作為基礎模型,并遵循了一種典型的三級 RLHF 管線。
Vicuna 在 130 億參數 LLaMA 模型的基礎上,使用 Alpaca 進行調整后得到的。
他們混合了三個數據集,訓練出具有監督微調 (SFT) 的 Vicuna 基礎模型:
-
OpenAssistant Conversations Dataset (OASST1),一個人工生成的、人工注釋的助理式對話語料庫,包含 161,443 條消息,分布在 66,497 個對話樹中,使用 35 種不同的語言;
-
GPT4 All Prompt Generations,由 GPT-3.5 Turbo 生成的 437,605 個提示和響應的數據集;
-
Alpaca,這是由 OpenAI 的 text-davinci-003 引擎生成,包含 52,000 條指令和演示的數據集。
-
研究者使用 trlx,訓練了一個獎勵模型。在以下這些 RLHF 偏好數據集上,研究者得到了 SFT 模型,這是獎勵模型的基礎。
-
OpenAssistant Conversations Dataset (OASST1),包含 7213 個偏好樣本;
-
Anthropic HH-RLHF,一個關于 AI 助手有用性和無害性的偏好數據集,包含 160,800 個人類標簽;
-
斯坦福人類偏好 (SHP),這是一個數據集,包含 348,718 個人類對各種不同回答的集體偏好,包括 18 個從烹飪到哲學的不同學科領域。
最后,研究者使用了 trlX,進行近端策略優化 (Proximal Policy Optimization, PPO) 強化學習,對 SFT 模型進行了 RLHF 訓練,然后,StableVicuna 就誕生了!
據 Stability AI 稱,會進一步開發 StableVicuna,并且會很快在 Discord 上推出。
另外,Stability AI 還計劃給 StableVicuna 一個聊天界面,目前正在開發中。
相關演示已經可以在 HuggingFace 上查看了,開發者也可以在 Hugging Face 上下載模型的權重,作為原始 LLaMA 模型的增量。
但如果想使用 StableVicuna,還需要獲得原始 LLaMA 模型的訪問權限。
獲得權重增量和 LLaMA 權重后,使用 GitHub 存儲庫中提供的腳本將它們組合起來,就能得到 StableVicuna-13B 了。不過,也是不允許商用的。
DeepFloyd IF
在同一時間,Stability AI 還放出了一個大動作。
你敢信,AI 一直無法正確生成文字這個老大難問題,竟然被解決了?(基本上)
沒錯,下面這張「完美」的招牌,就是由 StabilityAI 全新推出的開源圖像生成模型 ——DeepFloyd IF 制作的。
除此之外,DeepFloyd IF 還能夠生成正確的空間關系。
模型剛一發布,網友們已經玩瘋了:
prompt: Robot holding a neon sign that says "I can spell".
不過,對于 prompt 中沒有明確說明的文字,DeepFloyd IF 大概率還是會出錯。
prompt:A neon sign of an American motel at night with the sign javilop
官方演示
順便一提,在硬件的需求上,如果想要實現模型所能支持的最大 1,024 x 1,024 像素輸出,建議使用 24GB 的顯存;如果只要 256 x 256 像素,16GB 的顯存即可。
是的,RTX 3060 16G 就能跑。
代碼實現:https://gist.github.com/ Stella2211 / ab17625d63aa03e38d82ddc8c1aae151
開源版谷歌 Imagen
2022 年 5 月,谷歌高調發布了自家的圖像生成模型 Imagen。
根據官方演示的效果,Imagen 不僅在質量上完勝 OpenAI 最強的 DALL-E 2,更重要的是 —— 它能夠正確地生成文本。
迄今為止,沒有任何一個開源模型能夠穩定地實現這一功能。
與其他生成式 AI 模型一樣,Imagen 也依賴于一個凍結的文本編碼器:先將文本提示轉換為嵌入,然后由擴散模型解碼成圖像。但不同的是,Imagen 并沒有使用多模態訓練的 CLIP,而是使用了大型 T5-XXL 語言模型。
這次,StabilityAI 推出的 DeepFloyd IF 復刻的正是這一架構。
甚至在測試中,DeepFloyd IF 憑借著 COCO 數據集上 6.66 的 zero-shot FID 分數,直接超越了谷歌的 Imagen,以及一眾競品(包括自家 Stable Diffusion)。
下一代圖像生成 AI 模型
具體來說,DeepFloyd IF 是一個模塊化、級聯的像素擴散模型。
模塊化:
DeepFloyd IF 由幾個神經模塊組成(可以解決獨立任務的神經網絡),它們在一個架構中相互協同工作。
級聯:
DeepFloyd IF 以多個模型級聯的方式實現高分辨率輸出:首先生成一個低分辨率的樣本,然后通過連續的超分辨率模型進行上采樣,最終得到高分辨率圖像。
擴散:
DeepFloyd IF 的基本模型和超分辨率模型都是擴散模型,其中使用馬爾可夫鏈的步驟將隨機噪聲注入到數據中,然后反轉該過程從噪聲中生成新的數據樣本。
像素:
DeepFloyd IF 在像素空間工作。與潛在擴散模型(如 Stable Diffusion)不同,擴散是在像素級別實現的,其中使用潛在表征。
上面這個流程圖展示的就是,DeepFloyd IF 三個階段的性能:
階段 1:
基本擴散模型將定性文本轉換為 64x64 圖像。DeepFloyd 團隊已經訓練了三個版本的基本模型,每個版本都有不同的參數:IF-I 400M、IF-I 900M 和 IF-I 4.3B。
階段 2:
為了「放大」圖像,團隊將兩個文本條件超分辨率模型(Efficient U-Net)應用于基本模型的輸出。其中之一將 64x64 圖像放大到 256x256 圖像。同樣,這個模型也有幾個版本:IF-II 400M 和 IF-II 1.2B。
階段 3:
應用第二個超分辨率擴散模型,生成生動的 1024x1024 圖像。最后的第三階段模型 IF-III 擁有 700M 參數。
值得注意的是,團隊還沒有正式發布第三階段的模型,但 DeepFloyd IF 的模塊化特性讓我們可以使用其他上采樣模型 —— 如 Stable Diffusion x4 Upscaler。
團隊表示,這項工作展示了更大的 UNet 架構在級聯擴散模型的第一階段的潛力,從而為文本到圖像合成展示了充滿希望的未來。
數據集訓練
DeepFloyd IF 是在一個定制的高質量 LAION-A 數據集上進行訓練的,該數據集包含 10 億(圖像,文本)對。
LAION-A 是 LAION-5B 數據集英文部分的一個子集,基于相似度哈希去重后獲得,對原始數據集進行了額外的清理和修改。DeepFloyd 的定制過濾器用于刪除水印、NSFW 和其他不適當的內容。
目前,DeepFloyd IF 模型的許可僅限于非商業目的的研究,在完成反饋的收集之后,DeepFloyd 和 StabilityAI 團隊將發布一個完全免費的商業版本。
參考資料:
-
https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
-
https://stability.ai/blog/deepfloyd-if-text-to-image-model
本文來自微信公眾號:新智元 (ID:AI_era)
總結
以上是生活随笔為你收集整理的Stability AI 连扔两个王炸,首个开源 RLHF 模型登基,DeepFloyd IF 像素级出图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SAP UI5里input field
- 下一篇: 历史上的今天:编程语言中null引用的十