120 亿参数 Stable LM 2 上线即开源:2 万亿 token 训练,碾压 Llama 2 70B
Stability AI 推出 Stable LM 2 12B 模型,作為其新模型系列的進一步升級,該模型基于七種語言的 2 萬億 Token 進行訓練,擁有更多參數和更強性能,據稱在某些基準下能超越 Llama 2 70B。
繼 16 億輕量級 Stable LM 2 推出之后,12B 參數的版本在今天亮相了。
見狀,不少網友紛紛喊話:干的漂亮!但,Stable Diffusion 3 啥時候出啊?
總得來說,Stable LM 2 12B 參數更多,性能更強。120 億參數版本包含了基礎模型和指令微調模型,并在七種多語言,高達 2 萬億 Token 數據集上完成訓練。
在基準測試中,其性能趕超 Llama 2 70B 等開源模型。
官博介紹,最新版本的模型兼顧了性能、效率、內存需求和速度,同時繼續采用了 Stable LM 2 1.6B 模型的框架。
通過這次更新,研究人員還為開發者提供了一個透明而強大的工具,以推動 AI 語言技術的創新。
雖然目前只支持 4K 的上下文窗口,但你先別急。
Stability AI 表示很快就會推出更長的版本,并且可以第一時間在 Hugging Face 上獲取。
120 億參數即可實現 SOTA
Stable LM 2 12B 是一個專為處理多種語言任務設計的高效開源模型,它能夠在大多數常見硬件上流暢運行。
值得一提的是,Stable LM 2 12B 可以處理通常只有大模型才能完成的各種任務。
比如混合專家模型(MoE),往往需要大量的計算和內存資源。
此外,指令微調版本在工具使用,以及函數調用展現出強大的能力,可以適用于各種用途,包括作為檢索 RAG 系統的核心部分。
性能評估
在性能方面,參與對比的有 Mixtral(MoE,總共 47B / 激活 13B)、Llama2(13B 和 70B)、Qwen 1.5(14B)、Gemma(8.5B)和 Mistral(7B)。
根據 Open LLM Leaderboard 和最新修正的 MT-Bench 基準測試的結果顯示,Stable LM 2 12B 在零樣本以及少樣本的任務上展現了出色的性能。
在這個新版本中,他們將 StableLM 2 系列模型擴展到了 12B 類別,提供了一個開放、透明的模型,在功率和精度方面絲毫不打折扣。
Stable LM 2 1.6B 技術報告
最初發布的 Stable LM 2 1.6B 已經在 Open LLM 排行榜上取得了領先地位,證明了其在同類產品中的卓越性能。
模型預訓練
訓練大模型(LLM)的第一階段主要是學習如何利用大量不同的數據源來預測序列中的下一個 token,這一階段也被稱之為訓練。
它使模型能夠構建適用于基本語言功能甚至更高級的生成和理解任務的通用內部表示。
訓練
研究人員按照標準的自回歸序列建模方法對 Stable LM 2 進行訓練,以預測下一個 token。
他們從零開始訓練模型,上下文長度為 4096,受益于 FlashAttention-2 的高效序列并行優化。
訓練以 BFloat16 混合精度進行,同時將 all-reduce 操作保持在 FP32 中。
數據
模型性能受訓練前數據設計決策的影響,包括源選擇和采樣權重。
訓練中所用的數據均為公開數據,大部分訓練數據由其他 LLM 訓練中使用的數據源組成,其中包括德語(DE)、西班牙語(ES)、法語(FR)、意大利語(IT)、荷蘭語(NL)和葡萄牙語(PT)的多語言數據。
仔細選擇不同數據域的混合比例至關重要,尤其是非英語數據和代碼數據。下圖展示了 Stable LM 2 預訓練數據集中各領域有效訓練詞塊的百分比。
分詞器
研究人員使用了 Arcade100k,這是一個從 OpenAI 的 tiktoken.cl100k_base 擴展而來的 BPE 標記器,其中包括用于代碼和數字拆分處理的特殊 token。
詞庫由 100,289 個 token 組成,在訓練過程中被填充為最接近的 64 的倍數(100,352),以滿足 NVIDIA A100 設備上推薦的 Tensor Core 對齊方式。
架構
該模型在設計上與 LLaMA 架構類似,下表顯示了一些關鍵的架構細節。
其中,與 LLaMA 的主要區別如下:
1. 位置嵌入
旋轉位置嵌入應用于頭嵌入尺寸的前 25%,以提高后續吞吐量
2. 歸一化
相對于 RMSNorm,LayerNorm 具有學習偏置項
3. 偏置
從前饋網絡和多頭自注意層中刪除了鍵、查詢和值預測以外的所有偏置項。
模型微調
有監督微調(SFT)
研究人員在 Hugging Face Hub 上公開的一些指令數據集上對預訓練模型進行微調。
尤其是使用了 UltraChat、WizardLM、SlimOrca、ShareGPT、Capybara、Deita 和 MetaMathQA 會話數據集,樣本總數為 826,938 個。
直接偏好優化(DPO)
直接偏好優化(Direct Preference Optimization,簡稱 DPO)是 Zephyr-7B、Neural-Chat-7B 和 Tulu-2-DPO-70B 等近期強模型的基本工具。
在應用 SFT 后,通過 DPO 對得到的模型進行微調。
在這個階段,他們使用 UltraFeedback 和 Intel Orca Pairs 這兩個數據集,并通過刪除了排名并列的配對、內容重復的配對以及所選回應得分低于 80% 的配對來過濾數據集。
實驗結果和基準測試
少樣本和零樣本評估
研究人員通過流行基準評估了 Stable LM 2 的少樣本和零樣本能力,并將結果與類似大小的開源預訓練模型進行了比較。下表列出了模型評估結果。
可以看出,Stable LM 2 1.6B (stablelm-2-1-6b)的性能明顯優于其他基礎模型。
同樣,經過指令微調的版本(stablelm-2-1-6b-dpo)比微軟的 Phi-1.5 平均提高了 2%,但在幾發準確率上卻落后于更大的 Phi-2.0。與谷歌的 Gemma 2B(2.5B 參數)相比,性能也有顯著提高。
多語種評估
通過在 ChatGPT 翻譯版本的 ARC、HS、TQA 和 MMLU 上進行評估,來評估在多語言環境下的知識和推理能力。
此外,還使用了機器翻譯的 LAMBADA 數據集測試了下一個單詞的預測能力。
下表為 zero-shot 測試結果,可以看出與規模是其兩倍的模型相比,Stable LM 2 的性能更加出眾。
MT 基準評估
他們還在流行的多輪基準 MT-Bench 上測試了模型的對話能力。
Stable LM 2 1.6B 顯示出具有競爭力的性能,與 MT-Bench 上的大型模型能力相當甚至更好。
雖然該模型落后于 Mistral 7B Instruct v0.2(比 Stable LM 2 大 4 倍多)等更強大的模型,但該模型提供了更好的聊天性能,并以較大優勢擊敗了 Phi-2、Gemma 2B 和 TinyLLaMA 1.1B 這兩個大模型。
參考資料:
https://stability.ai/news/introducing-stable-lm-2-12b
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。
總結
以上是生活随笔為你收集整理的120 亿参数 Stable LM 2 上线即开源:2 万亿 token 训练,碾压 Llama 2 70B的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OpenAI 创始大神手搓千行 C 代码
- 下一篇: 英伟达 CEO 黄仁勋换了件皮衣:蜥蜴压