270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG
作者|機器之心編輯部
?來源|機器之心
經歷「大煉模型」后,人工智能領域正進入「煉大模型」時代。自去年 OpenAI 發布英文領域超大規模預訓練語言模型 GPT-3 后,中文領域同類模型的訓練進程備受關注。今日,阿里達摩院發布了 270 億參數、1TB + 訓練數據的全球最大中文預訓練語言模型 PLUG,并以 80.614 的分數刷新了中文語言理解評測基準 CLUE 分類榜單歷史紀錄。
自 2018 年谷歌發布 BERT 以來,預訓練模型(Pre-trained Models, PTMs)逐漸成為自然語言處理領域的主流。2020 年 5 月,OpenAI 發布了擁有 1750 億參數量的預訓練模型 GPT-3。作為一個語言生成模型,GPT-3 不僅能夠生成流暢自然的文本,還能完成問答、翻譯、創作小說等一系列 NLP 任務,甚至進行簡單的算術運算,并且其性能在很多任務上都超越相關領域的專有模型,達到 SOTA 水平。
在這樣的發展態勢下,構建以中文為核心的超大規模預訓練模型及生態勢在必行。
4 月 19 日,阿里達摩院發布了中文社區最大規模預訓練語言模型 PLUG(Pre-training for Language Understanding and Generation)。該模型參數規模達 270 億,集語言理解與生成能力于一身,在小說創作、詩歌生成、智能問答等長文本生成領域表現突出,其目標是通過超大模型的能力,大幅提升中文 NLP 各類任務的表現,取得超越人類表現的性能。
從技術上來看,阿里達摩院的 PLUG 與 GPT-3 類似,有望廣泛應用于文本生成領域,成為「萬能寫作神器」。較 GPT-3 改進的是,PLUG 設計了一個簡潔的模型框架,集成了達摩院自研的語言理解及語言生成雙模型,通過構建輸入文本雙向理解能力,顯著提升了輸出文本的相關性。在語言理解任務上,PLUG 以 80.614 的分數刷新了 CLUE 分類榜單記錄;在語言生成任務上,PLUG 多項應用數據較業內最優水平提升了 8% 以上。
4 月 19 日,PLUG 刷新 CLUE 分類榜單紀錄,排名僅次于「人類」。
據了解,PLUG 采用了 1TB 以上高質量中文文本訓練數據,涵蓋新聞、小說、詩歌、問答等廣泛類型及領域,其模型訓練依托了阿里云 EFLOPS 高性能 AI 計算集群。接下來,PLUG 將擴大參數規模至 2000 億級,并進一步提升文本生成質量。
在超大規模預訓練模型領域,除了以中文為核心的 PLUG 外,達摩院、阿里云計算平臺團隊還聯合智源研究院、清華大學發布了面向認知的超大規模新型預訓練模型「文匯」,以及聯合清華大學發布了超大規模多模態預訓練模型「M6」。此外,達摩院宣布近期將開源阿里巴巴語言模型體系部分重要模型。
阿里達摩院語言技術實驗室負責人司羅表示:「達摩院 NLP 團隊將進一步攻克 NLP 領域科研難題,完善中文及跨語言人工智能基礎設施,讓 AI 沒有難懂的語言,并探索通用人工智能之路。」
270 億參數、1TB + 訓練數據,全球最大中文預訓練模型 PLUG
PLUG 超大規模預訓練中文理解 & 生成統一模型,是目前中文社區最大規模的純文本預訓練語言模型,集語言理解與生成能力于一身。旨在通過超大模型的能力,大幅度提升中文 NLP 在各大任務的表現,其性能超越人類。
?
相較于 Open AI 的 GPT-3 等其他大規模生成模型,PLUG 具備以下獨特優勢:
?
PLUG 是目前中文社區最大規模的純文本預訓練語言模型;
PLUG 集語言理解與生成能力于一身,在語言理解(NLU)任務上,以 80.614 的得分刷新了 Chinese GLUE 分類榜單的新記錄排名第一;在語言生成(NLG)任務上,在多項業務數據上較 SOTA 平均提升 8% 以上;
PLUG 可為目標任務做針對性優化,通過利用下游訓練數據微調模型使其在特定任務上生成質量達到最優,彌補之前其它大規模生成模型 few-shot inference 的生成效果不足,可應用于實際生成任務上;
PLUG 采用了大規模的高質量中文訓練數據(1TB 以上),同時,PLUG 采用 encoder-decoder 的雙向建模方式,因此,在傳統的 zero-shot 生成的表現上,無論是生成的多樣性、領域的廣泛程度,還是生成長文本的表現,較此前的模型均有明顯的優勢。
目前,PLUG 已經開放了體驗功能供學術領域試用。
測試地址:
https://nlp.aliyun.com/portal#/BigText_chinese
技術細節
?
此前,達摩院機器智能實驗室自研的 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 均在各自領域取得了 SOTA 的效果。簡單來說,StructBERT 模型通過加強句子級別(Sentence Structural Objective)和詞級別(Word Structural Objective)兩個層次的訓練目標對語言結構信息的建模,加強模型對語法的學習能力。PALM 模型則結合了 Autoencoding 和 Autoregression 兩種預訓練方式,引入 Masked LM 目標來提升 encoder 的表征能力,同時通過預測文本后半部分來提升 decoder 的生成能力。
此次大規模語言模型的訓練,達摩院團隊汲取二者所長,提出了一個簡單的框架,用來進行 NLU&NLG 聯合訓練。相比于 GPT 系列模型,該大規模生成模型以 StructBERT 作為 encoder,具有很強的輸入文本雙向理解能力,從而可以生成和輸入更相關的內容。
?
整個訓練流程分為兩個階段:
首先在第一階段,達摩院團隊訓練了一個 24 layers/8192 hidden size 的標準 StructBERT 模型作為 encoder。這個過程共計訓練了 300B tokens 的訓練數據,規模與 GPT-3 的訓練規模相當;
在第二階段,達摩院團隊將這個 encoder 用于生成模型的初始化,并外掛了一個 6 layers / 8192 hidden size 的 decoder,在訓練生成模型的過程中,在 encoder 端和 decoder 端均隨機確定長度 [32, 512] 進行數據采樣,確保適應下游廣泛的生成任務。這一階段共計訓練了 100B tokens 的訓練數據,前 90% 的訓練中,團隊保留了 Masked LM 任務以保持模型的 NLU 能力,后 10% 的訓練中,去掉 MLM 任務進行微調,以使得生成的 PPL 降到更低,能取得更好的生成效果。
PLUG 生成示例展示
PLUG 生成模型有著很強的長文本生成和建模能力,相比于 GPT 系列模型的單向建模,PLUG 對輸入的理解是雙向建模的,因此能夠在給定小段輸入的條件下,生成和輸入內容相關且信息量豐富的長文本。
在小說散文續寫、詩歌生成、自由創作等多場景下的生成結果顯示出了 PLUG 模型的強大性能。此前,阿里巴巴深度語言模型體系已經覆蓋了多模態語言模型 StructVBERT、多語言模型 VECO、生成式語言模型 PALM 等 6 大自研模型,并登頂了多個國際賽事和榜單。達摩院此次發布的 PLUG 模型,為阿里巴巴深度語言模型體系又增添了一員大將。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的270亿参数、刷榜CLUE,阿里达摩院发布最大中文预训练语言模型PLUG的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 工行七星级客户需要什么条件
- 下一篇: 重疾险可以重复买吗