中文版GPT-2,可用于写小说、诗歌、新闻等
原文鏈接:https://www.sohu.com/a/336251713_610300
有人做出了中文版GPT-2,可用于寫小說、詩歌、新聞等;15億參數(shù)版GPT-2被兩名研究生復(fù)現(xiàn)
2019-08-25 12:01 來源:量子位 </div>原標(biāo)題:有人做出了中文版GPT-2,可用于寫小說、詩歌、新聞等;15億參數(shù)版GPT-2被兩名研究生復(fù)現(xiàn)
乾明 發(fā)自 凹非寺
GPT-2,逆天的語言AI模型,編故事以假亂真,問答翻譯寫摘要都行。
問世之后橫掃各大語言建模任務(wù),引發(fā)了大量關(guān)注以及研究者跟進(jìn)研究。
之后,圍繞著GPT-2產(chǎn)生了各種實用性應(yīng)用:比如;高中生等等。
現(xiàn)在,又有兩個圍繞這一語言AI模型的成果出現(xiàn)。
- 一是中文版GPT-2開源(非官方),可以寫詩,新聞,小說、劇本,或是訓(xùn)練通用語言模型。
- 二是,兩名碩士研究生花5萬美元復(fù)制了OpenAI一直磨磨唧唧開源的15億參數(shù)版GPT-2。
GPT-2發(fā)布以來,雖然關(guān)注甚多,但在中文語境中的應(yīng)用非常少。
最直接的因素,就在于沒有中文版,或者說是沒有人基于中文語料去大規(guī)模復(fù)現(xiàn)。
現(xiàn)在,有人這樣做了。
一位名叫”Zeyao Du“(位于南京)的開發(fā)者,在GitHub上開源了的GPT-2 Chinese。
可以用于寫詩、新聞、小說和劇本,或是訓(xùn)練通用語言模型。
項目中默認(rèn)使用BERT的tokenizer處理中文字符,支持字為單位或是分詞模式或是BPE模式,并支持大語料訓(xùn)練。
目前項目主要架構(gòu)已經(jīng)穩(wěn)定,具體的訓(xùn)練語料,作者也附上了相應(yīng)的鏈接:
大規(guī)模中文自然語言處理語料 Large Scale Chinese Corpus for NLP
https://github.com/brightmart/nlp_chinese_corpus
中文文本分類數(shù)據(jù)集THUCNews
http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
效果如何,大家可以自己感受下:
下圖是他們使用較大規(guī)模訓(xùn)練后自由生成的文本。其中模型參數(shù)約80M,機器為四個2080Ti,訓(xùn)練步數(shù)140萬步,語料3.4G,Batch Size 8。
下圖是他們生成的斗破蒼穹樣例。模型參數(shù)約為50M,Batch Size 32,語料庫為16MB斗破蒼穹小說內(nèi)容。
△[SEP]表示換行。
斗破蒼穹語料:
https://github.com/GaoPeng97/transformer-xl-chinese/tree/master/data/doupo
下圖是限定了生成體裁后的古詩歌生成樣例(來自GitHub開發(fā)者@JamesHujy),參數(shù)未說明:
GPT-2 Chinese項目傳送門:
https://github.com/Morizeyao/GPT2-Chinese
15億參數(shù)版GPT-2
能夠?qū)崿F(xiàn)逆天效果GPT-2模型,用到了15億個參數(shù)。
在發(fā)布這一模型的時候,OpenAI說,這個模型實在太厲害了,要慢慢開源。
于是就開始了“擠牙膏”開源之旅,從今年2月到現(xiàn)在,才開源到了7.74 億參數(shù)版本。
這一路上,有不少人都表示非常難以忍耐。
比如慕尼黑工業(yè)大學(xué)的一名大三本科生,在兩個月的時間里,付出了200個小時的時間,花費了大約6000人民幣,復(fù)現(xiàn)了GPT-2項目,并在7月初放出了15億參數(shù)的版本。
至于效果如何,并沒有太多展示,項目鏈接:
https://github.com/ConnorJL/GPT2
現(xiàn)在,又有人忍不住了。
有兩名布朗大學(xué)的碩士研究生,搞出了一個15億參數(shù)的GPT-2模型,命名OpenGPT-2,還放出來了效果對比。
Google Colab地址:
https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit
模型權(quán)重:
https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1
搞出來之后,他們在博客中說,其實想要復(fù)制GPT-2并不難,絕大多數(shù)感興趣的人都可以復(fù)制。比如,他們就可以復(fù)現(xiàn)論文中的很多結(jié)果,而且并沒有語言建模的經(jīng)驗。
當(dāng)然,得有錢。他們完整復(fù)制出來,花了大約5萬美元,還只是云端訓(xùn)練成本。
具體的復(fù)制難點有兩個,一是模型,二是數(shù)據(jù)。
模型上面,他們基于Grover模型,并對代碼庫進(jìn)行修改,來實現(xiàn)GPT-2的語言建模訓(xùn)練的目標(biāo)。
Grover模型論文地址:
https://arxiv.org/abs/1905.12616
因為Grover的模型是在類似的大型語料庫上訓(xùn)練的,所以很多代碼和超參數(shù)都可以重復(fù)使用。他們并沒有大幅改變其中的超參數(shù)。
數(shù)據(jù)集方面,在很大程度上都保證了與OpenAI的處理方式相同,但并不能保證其中細(xì)節(jié)相同,最后得出了數(shù)據(jù)集OpenWebTextCorpus:
https://skylion007.github.io/OpenWebTextCorpus/
如此做出來的模型,效果如何?從定量維度上來看,在多個數(shù)據(jù)集上困惑度都與GPT-2原版接近:
定性維度上,就仁者見仁智者見者了,在Reddit上有人支持,但也有人覺得他們的模型效果不好。
這兩位碩士研究生,也在博客中放了一個與官方GPT-2一樣的案例:
給出 “Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”的提示。
復(fù)制版OpenGPT-2給出的結(jié)果如下:
That′s because recycling is all about selling to customers who cannot afford to recycle. If you don’t have any interest in recycling, in whatever form, then you could well be doing your own global environmental benefit if you just got rid of it.
Let me explain. Recycling takes time, money and energy, and it doesn’t really solve the problem.
If you go to recycling drop-off shops and they just sort out your recyclables for you then it means there is no need to sell them again to the local recycling company; they just take it back from you and you can just dump it.
There is nothing clever about this approach, in fact it just shuffles the problem around instead of solving it.
……
更多內(nèi)容,可以前往兩位研究生的博客文章中查看:
https://medium.com/@vanya_cohen/opengpt-2-we-replicated-gpt-2-because-you-can-too-45e34e6d36dc
官方原版的GPT-2,給出結(jié)果如下:
Recycling is NOT good for the world. It is bad for the environment, it is bad for our health, and it is bad for our economy. I’m not kidding. Recycling is not good for the environment. It is destructive to the earth and it is a major contributor to global warming.
Recycling is not good for our health. It contributes to obesity and diseases like heart disease and cancer. Recycling is bad for our economy. It increases the cost of a product, and in turn, the price of everything that is made with that product.
Recycling is not good for our nation. We pay a tremendous price for the privilege of having the world’s most advanced and efficient recycling system. Recycling is a huge, colossal waste of time, energy, money, and resources.
And THAT is why we need to get back to basics and get back to basics in our recycling efforts. One of the best ways to start is to look at the process of creating a paper product.
……
更多內(nèi)容,可以前往OpenAI博客中查看:
https://openai.com/blog/better-language-models/#sample8
你覺得模型效果如何?返回搜狐,查看更多
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的中文版GPT-2,可用于写小说、诗歌、新闻等的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于神经网络的知识推理
- 下一篇: (C语言)链表的实现集合的相关操作