ChineseGLUE(CLUE):针对中文自然语言理解任务的基准平台
導語
2018 年,來自紐約大學、華盛頓大學、DeepMind 機構的研究者創建了一個多任務自然語言理解基準和分析平臺——GLUE(General Language Understanding Evaluation)。GLUE 包含九個英文數據集,目前已經成為衡量模型在語言理解方面最為重要的一個評價體系之一。
然而對于中文 NLP 來說,目前缺少相對應的成熟的平臺。針對這個問題,中文 NLP 熱心人士發起了 ChineseGLUE(簡稱為 CLUE)項目。開展 CLUE 項目,一方面希望通過對中文 NLP 資源精心的整合為同學們的工作與研究提升效率,另一方面希望通過建立 leaderboard 榜單機制,為大家提供一個高質量的衡量模型效果的平臺,促進模型在中文語言理解能力上的提升。
?
中文GLUE
相對于英文,中文 NLP 的資源比較匱乏并缺少有價值的整合。相信很多同學在做中文 NLP 相關工作的時候,都遇到過下面這些問題:
?
找不到官方的數據集下載鏈接;論文中的資源鏈接過期
數據集有好幾個版本,大家報的結果也五花八門,不知道信哪一個
原始數據集需要繁瑣的預處理
復現實驗困難,預處理和模型的細節可能對最終的結果帶來非常顯著的影響
?
上面這些問題會花掉 NLP 同學很多的時間,嚴重影響工作效率,對初學者來說更是如此。我們寶貴的時間就在這些瑣碎的令人頭大的事情中流逝過去。
?
為了解決上述問題,一群熱心的同學發起了 ChineseGLUE(簡稱為 CLUE),它的 Github 地址是:
https://github.com/chineseGLUE/chineseGLUE
https://github.com/CLUEbenchmark/CLUE
注意到目前有兩個地址,后續會做出整合。
ChineseGLUE (CLUE) 如它的名字所示,是中文版的GLUE?[1]。ChineseGLUE (CLUE) 為大家:1)收集處理了一系列性質各異的中文數據集(不同領域、不同規模、不同難度);2)構建了在線提交評測平臺。這個平臺能幫助我們橫向比較不同的中文 NLP 模型,為大家選擇模型提供依據;3)正在整理基準模型,幫助大家輕易地復現經典模型在一系列數據集上的結果。
?
▲?ChineseGLUE(CLUE)的github截圖
?
希望通過這些工作,讓 NLP 同學能把更多的時間放在模型的學習與改進上,而不是浪費在尋找數據集等瑣碎的事情之上。除此之外,我們希望 ChineseGLUE (CLUE) 能夠以 leaderboard 榜單的形式促進更高質量的中文模型的產生以及針對中文 NLP 的優化。希望 ChineseGLUE 也能像 GLUE 見證 BERT [2],SpanBERT?[3],ALBERT?[4]?等重要模型出現一樣,見證更好的中文 NLP 模型的出現。
?
ChineseGLUE Leaderboard
目前,ChineseGLUE 的 leaderboard 已經上線,地址為http://106.13.187.75:8003/leaderBoard。已經相繼有隊伍在上面驗證不同模型的效果,不斷提升榜單上的表現。下圖展示了目前榜單的情況。通過榜單我們可以得到不少有價值的結論。
?
▲?根據綜合成績進行排序
?
▲?根據LCQMC數據集成績進行排序
首先可以看到,目前榜單上已經包括了豐富的 NLP 模型,包括 BERT?[2]、 BERT-WWM?[5]、RoBERTa?[6]、ALBERT?[4]、ERNIE?[7, 8]?等一系列模型,并且吸引了多個機構在上面提交自己的成績。通過榜單我們可以看到不同模型在不同數據集上的成績以及綜合成績(榜單支持針對綜合成績以及不同數據集的成績進行排序)。這對于我們選擇模型是非常重要的參考。
另外,我們可以看到目前榜單上表現最好的模型是混合語料 BERT 模型?[9, 10],是由騰訊 & 人大提供的。這個預訓練模型在 BERT-WWM [5]?上疊加預訓練,使用了百科類、新聞類、圖書類、社交類語料的混合(語料可以從 https://github.com/brightmart/nlp_chinese_corpus?獲取)。
這個預訓練模型相對于 Google BERT 已經取得了一定的進步:分別在 TNEWS、LCQMC、XNLI、INEWS 數據集上提升了 2.0/0.6/2.7/3.9 個點的準確率。除了 LCQMC 之外,模型在另外幾個數據集上的提升還是很顯著的。當然,這個提升相對于英文上的提升還是小了很多 (RoBERTa [7]、ALBERT?[4]、Google T5?[11]?在 BERT 的基礎上提高了接近 10 個點)。我們也與提交榜單的隊伍進行了溝通。
目前 ChineseGLUE (CLUE) 榜單上的結果其實還是比較低的,仍然有巨大的提升空間。目前在預處理、預訓練、微調等方面仍有大量的技術可以去嘗試,從而進一步提升效果。比如在預處理階段可以使用數據增強;在預訓練階段可以使用多種預訓練模型技術的組合;在微調階段可以使用半監督的方式微調或者使用多任務微調;最后還可以進行模型的集成。
此外,在計算量和語料方面,雖然榜單上的很多模型都超過了去年 10 月份 Google 推出的中文 BERT-base 模型,但是目前中文模型的計算量和語料大小遠遠達不到目前英文 SOTA 模型的水準。因此我們非常相信,現在的結果遠遠沒有到達天花板,仍有巨大的進步空間。
?
PaddleHub RoBERTa-wwm-ext-large (AutoFinetune) 模型在 RoBERTa-wwm-ext-large 的基礎上,采用了 Discriminative Fine-tuning 分層學習率策略,同時,模型采用 PaddleHub AutoDL Finetuner 功能進行超參優化,對學習率,分層策略進行自動化搜索,進一步提升了模型性能,模型在 XNLI 數據集上的表現達到了 SOTA 的成績。
此外,我們也鼓勵使用小模型去在榜單上進行提交。后續我們會考慮把參數量、FLOPs 等指標加上,把模型分成不同量級,去比較模型之間的效果。在目前的榜單中,有一個極小的模型 ALBERT_tiny。ALBERT [4]?通過編碼層參數共享和詞向量層分解這兩項技術減少了模型的參數量,ALBERT_tiny 只有 4M 大小,約是 BERT-base 模型大小的百分之一,但是仍然在一些數據集上取得不錯的成績。
在很多情況下,我們需要對模型的效率和效果進行權衡。在這種情況下,ChineseGLUE 榜單可以給我們提供很好的參考。我們非常期待通過技術的進步,讓一個比 BERT 小很多的模型,能在榜單上取得和 BERT 相似甚至更好的成績。
?
目前,榜單上的數據集以及提交接口是完全對外開放的,大家可以隨時用自己的模型去上面刷榜,驗證自己工作的效果。希望后面能看到大家在榜單上激烈的競爭,從而促進中文 NLP 領域的發展。
此外有一點需要注意的是,目前榜單上的測試集是對外開放的(后續我們會維護 privately-held 測試集)。因此建議大家在榜單上拿到 SOTA 效果的同時,不要忘記分享自己模型的改進以及各種細節。這樣能讓其他人也能受益于您的工作成果,從而更好的促進中文 NLP 領域的發展。目前榜單只包括四個數據集,我們會盡快加入更多的數據集。
?
未來規劃
1. 我們計劃在 12 月 5 號前后發布新版的測評基準,包括 12 大任務、基線模型及代碼、toolkit(工具包)、測評系統;
2. 繼續向大家征集數據集,并(依據數據集領域、規模、難度等因素)從中選出合適的數據集構成 ChineseGLUE (CLUE);
3. 逐步構建 privately-held 測試集,使得 ChineseGLUE (CLUE) 的榜單更加的客觀可靠;
4. 根據模型參數數量,FLOPs,語料大小等指標,對模型進行分級。這種方式能夠引導我們在提升模型效果的同時也考慮到效率,而不是一味的追求大語料和大計算量。
?
結語
得益于熱心中文 NLP 人士的努力和關注,ChineseGLUE (CLUE) 慢慢成長起來,在 Github 上突破了 700 星,并收到了很多留言與反饋。我們深知 ChineseGLUE 是一個長期的、復雜且瑣碎的工作。為此我們制定了詳細的發展規劃。在未來的工作中,我們會繼續努力,嚴格把關項目質量,為中文 NLP 模型提供一套可靠的評價指標,以及一個易于使用,良性競爭的平臺。希望 ChineseGLUE (CLUE) 的工作能為中文 NLP 領域的發展做出一些貢獻。
參考文獻
[1] Wang A, Singh A, Michael J, et al. Glue: A multi-task benchmark andanalysis platform for natural language understanding[J]. arXiv preprintarXiv:1804.07461, 2018.
[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deepbidirectional transformers for language understanding[J]. arXiv preprintarXiv:1810.04805, 2018.
[3] Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training byrepresenting and predicting spans[J]. arXiv preprint arXiv:1907.10529, 2019.
[4] Lan Z, Chen M, Goodman S, et al. Albert: A lite bert forself-supervised learning of language representations[J]. arXiv preprintarXiv:1909.11942, 2019.
[5] Cui Y, Che W, Liu T, et al. Pre-Training with Whole Word Maskingfor Chinese BERT[J]. arXiv preprint arXiv:1906.08101, 2019.
[6] Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bertpretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.
[7] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced Representation throughKnowledge Integration[J]. arXiv preprint arXiv:1904.09223, 2019.
[8] Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-trainingframework for language understanding[J]. arXiv preprint arXiv:1907.12412, 2019.
[9] https://github.com/dbiir/UER-py/
[10] Zhao Z, Chen H, Zhang J, et al. UER: An Open-Source Toolkit forPre-training Models[J]. arXiv preprint arXiv:1909.05658, 2019.
[11] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits oftransfer learning with a unified text-to-text transformer[J]. arXiv preprintarXiv:1910.10683, 2019.
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 訪問項目主頁
總結
以上是生活随笔為你收集整理的ChineseGLUE(CLUE):针对中文自然语言理解任务的基准平台的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 国家保守国保守国家秘密是什么的一项基本义
- 下一篇: 脑电情绪识别:脑功能连接网络与局部激活信