NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略
NLP:NLP領(lǐng)域沒有最強(qiáng),只有更強(qiáng)的模型——GPT-3的簡介、安裝、使用方法之詳細(xì)攻略
?
導(dǎo)讀:NLP領(lǐng)域的模型,沒有最大,只有更大。博主這幾天也仔仔細(xì)細(xì)看了這篇長達(dá)75頁的論文,光署名作者都有二三十位吶。從內(nèi)容上,可以明顯的看出,openAI團(tuán)隊依然是將天然的自回歸語言特性的思想進(jìn)行到底。GPT-3模型,不論是從參數(shù),還是訓(xùn)練數(shù)據(jù)上,都是歷史性的突破。哈哈,博主也想弄個demo搞一搞,想一想這45TB的訓(xùn)練數(shù)據(jù),即使用我這價值四五萬的電腦去調(diào),怕是也要訓(xùn)練到明年吧,額,算了,就像知乎網(wǎng)友說的那樣,難不成要用我的穿天猴去調(diào)試火箭發(fā)射到火星?哈哈,還是停留在想的階段吧。
感悟:看著GPT和BERT的成長,總感覺,NLP領(lǐng)域的模型均是在算力上發(fā)力,算力壟斷很有可能帶來系統(tǒng)性的AI技術(shù)壟斷,最后,AI帶來的利益或許終會屬于那些頭部的AI公司。其實,博主更多的希望在算法上突破,如果都去拼算力,那么未來受益的還是AI領(lǐng)域的頭部公司。
?
?
?
?
目錄
NLP領(lǐng)域牛叉模型進(jìn)展進(jìn)行時:GPT-1→BERT→GPT-2→GPT-3
1、2018年OpenAI提出GPT-1
2、2018年10月谷歌推出的BERT
3、2019年2月OpenAI提出GPT-2
4、2020年5月OpenAI提出GPT-3
5、階段性總結(jié)
GPT-3的簡介
關(guān)于GPT-3 的影響
關(guān)于GPT-3 的評價
關(guān)于GPT-3 的開源——為什么 OpenAI 決定發(fā)布 API,而不是開源整個模型?
GPT-3的安裝
GPT-3的使用方法
1、GPT-3的官方demo—原生能力,強(qiáng)到爆炸
(1)、Image GPT
(2)、OpenAI 開發(fā)了一款瀏覽器搜索插件
2、網(wǎng)友對GPT-3應(yīng)用的二次開發(fā)
(1)、生成LaTeX 公式
(2)、Debuild 就能自動生成對應(yīng)的 JSX 代碼
?
?
?
推薦文章
Paper:GPT-3《 Language Models are Few-Shot Learners》的翻譯與解讀
?
NLP領(lǐng)域牛叉模型進(jìn)展進(jìn)行時:GPT-1→BERT→GPT-2→GPT-3
? ? ? ? ?GPT是Generative Pre-training Transformer的簡稱,是由Alec Radford編寫的語言模型,2018年由埃隆·馬斯克的人工智能研究實驗室OpenAI發(fā)布。
?
1、2018年OpenAI提出GPT-1
? ? ? ? GPT 1.0采取預(yù)訓(xùn)練+FineTuning兩個階段,它采取Transformer的decoder作為特征抽取器,總共堆疊12個。預(yù)訓(xùn)練階段采用“單向語言模型”作為訓(xùn)練任務(wù),把語言知識編碼到decoder里。第二階段,在第一階段訓(xùn)練好的模型基礎(chǔ)上,通過Finetuning來做具體的NLP任務(wù),遷移能力強(qiáng)。GPT系列其實是一個讓人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式堅持著,向更通用的終極目標(biāo)進(jìn)發(fā)。
?
2、2018年10月谷歌推出的BERT
? ? ? ? 2018年10月推出的BERT一直有著劃NLP時代的意義。
?
3、2019年2月OpenAI提出GPT-2
? ? ? ? 最初,埃隆·馬斯克并不愿意發(fā)布它,因為他擔(dān)心它可能被用來向社交網(wǎng)絡(luò)發(fā)送假新聞。
? ? ? ? GPT-2提出了meta-learning,把所有NLP任務(wù)的輸入輸出進(jìn)行了整合,全部用文字來表示,比如對于翻譯任務(wù)的輸入是“英翻法:This is life”,輸出是“C'est la vie”。直接把任務(wù)要做什么以自然語言的形式放到了輸入中。通過這種方式進(jìn)行了大規(guī)模的訓(xùn)練,并用了15億參數(shù)的大模型,一舉成為當(dāng)時最強(qiáng)的生成模型,GPT-2 有著超大的規(guī)模,它是一個在海量數(shù)據(jù)集上訓(xùn)練的基于 transformer 的巨大模型。 GPT-2在文本生成上有著驚艷的表現(xiàn),其生成的文本在上下文連貫性和情感表達(dá)上都超過了人們對目前階段語言模型的預(yù)期。僅從模型架構(gòu)而言,GPT-2 并沒有特別新穎的架構(gòu),它和只帶有解碼器的 transformer 模型很像。
? ? ? ??網(wǎng)友總結(jié):GPT-2是對GPT的一個升級,并且更著重于將思路放在為何pretrain是有用的上面,認(rèn)為LM本身是一個Multi-task Learner,并且大力用ZSL實驗來佐證這個思路。GPT-2相比于GPT,筆者感覺主要有三點改進(jìn):大數(shù)據(jù)、大模型、insight觀點。
? ? ? ? 但是,GPT-2在NLU領(lǐng)域仍并不如BERT,且隨著19年其他大模型的推出占據(jù)了下風(fēng),年初微軟推出的Turing-NLG已經(jīng)到達(dá)了170億參數(shù),而GPT-2只有15億。這些模型的尺寸已經(jīng)遠(yuǎn)遠(yuǎn)超出了大部分公司的預(yù)算和調(diào)參俠們的想象。
?
4、2020年5月OpenAI提出GPT-3
Paper:GPT-3《 Language Models are Few-Shot Learners》的翻譯與解讀
? ? ? ? 2020年5月,OpenAI發(fā)布了GPT-3,這個模型包含的參數(shù)比GPT-2多了兩個數(shù)量級(1750億vs 15億個參數(shù)),它比GPT-2有了極大的改進(jìn)。根據(jù)論文描述,GPT-3非常強(qiáng)大,給予任何文本提示,GPT-3將返回一個文本完成,試圖匹配用戶給它的模式。用戶可以給它 "編程",只需向它展示幾個希望它做的例子,它就會提供一篇完整的文章或故事。GPT-3在許多NLP數(shù)據(jù)集上都取得了很強(qiáng)的性能,包括翻譯、問題回答和cloze任務(wù),以及一些需要即時推理或領(lǐng)域適應(yīng)的任務(wù),如在句子中使用一個新詞或執(zhí)行3位數(shù)運算。GPT-3可以生成人類評估人員難以區(qū)分的新聞文章樣本。
? ? ? ? 的確,GPT-3看起來可以像人類一樣理解、推理和對話的通用人工智能,但OpenAI警告說,他們可能遇到了根本性的擴(kuò)展問題,GPT-3需要幾千petaflop/s-day的計算量,相比之下,完整的GPT-2只有幾十petaflop/s-day。
? ? ? ? 知乎評價:GPT-3依舊延續(xù)自己的單向語言模型訓(xùn)練方式,只不過這次把模型尺寸增大到了1750億,并且使用45TB數(shù)據(jù)進(jìn)行訓(xùn)練。同時,GPT-3主要聚焦于更通用的NLP模型,解決當(dāng)前BERT類模型的兩個缺點:
? ? ? ? 因此GPT-3的主要目標(biāo)是用更少的領(lǐng)域數(shù)據(jù)、且不經(jīng)過精調(diào)步驟去解決問題。
?
5、階段性總結(jié)
? ? ? ? ? 最初的GPT只是一個12層單向的Transformer,通過預(yù)訓(xùn)練+精調(diào)的方式進(jìn)行訓(xùn)練,BERT一出來就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任務(wù)的輸入輸出進(jìn)行了整合,全部用文字來表示。
?
?
GPT-3的簡介
官網(wǎng):https://www.openai.com/
Github:https://github.com/openai/gpt-3
? ? ? ? ? GPT-3 是著名人工智能科研公司 OpenAI 開發(fā)的文字生成 (text generation) 技術(shù),相關(guān)論文5月份已經(jīng)發(fā)表,以天文數(shù)字級別的1750億參數(shù)量引發(fā)學(xué)界轟動。
? ? ? ? ? 原文摘要:通過對大量文本語料庫進(jìn)行預(yù)訓(xùn)練,然后對特定任務(wù)進(jìn)行微調(diào),在許多NLP任務(wù)和基準(zhǔn)上取得了實質(zhì)性的進(jìn)展。雖然在體系結(jié)構(gòu)中通常與任務(wù)無關(guān),但這種方法仍然需要成千上萬個示例的特定于任務(wù)的微調(diào)數(shù)據(jù)集。相比之下,人類通常可以通過幾個例子或簡單的指令來執(zhí)行一項新的語言任務(wù)——這是目前的NLP系統(tǒng)在很大程度上仍難以做到的。這里,我們展示了擴(kuò)展語言模型可以極大地提高任務(wù)不可知的、小樣本的性能,有時甚至可以通過預(yù)先采用的最先進(jìn)的微調(diào)方法達(dá)到競爭力。具體來說,我們訓(xùn)練GPT-3,這是一個自回歸語言模型,有1750億個參數(shù),比以往任何非稀疏語言模型多10倍,并測試其在小樣本設(shè)置下的性能。對于所有任務(wù),GPT-3的應(yīng)用不需要任何梯度更新或微調(diào),只需要通過與模型的文本交互指定任務(wù)和小樣本演示。GPT-3在許多NLP數(shù)據(jù)集上實現(xiàn)了強(qiáng)大的性能,包括翻譯、問題回答和完形填空任務(wù),以及一些需要實時推理或領(lǐng)域適應(yīng)的任務(wù),如整理單詞、在句子中使用新單詞或執(zhí)行3位數(shù)字算術(shù)。與此同時,我們也發(fā)現(xiàn)了一些數(shù)據(jù)集,其中GPT-3的小樣本學(xué)習(xí)仍然存在困難,以及一些數(shù)據(jù)集,其中GPT-3面臨著與大型網(wǎng)絡(luò)語料庫培訓(xùn)相關(guān)的方法論問題。最后,我們發(fā)現(xiàn)GPT-3可以生成人類評估者難以區(qū)分的新聞文章樣本和人類撰寫的文章樣本。我們將討論這一發(fā)現(xiàn)和GPT-3的更廣泛的社會影響。
?
關(guān)于GPT-3 的影響
? ? ? ? ? OpenAI 這次一反之前死守基礎(chǔ)研究的思路,將 GPT-3 做成了一個服務(wù),提供可以調(diào)用的 OpenAI API,并且向開放了少量體驗資格,學(xué)術(shù)機(jī)構(gòu)、商業(yè)公司和個人開發(fā)者都可以申請。
? ? ? ? ? Latitude 透露,隨著 GPT-3 的集成和新模式的推出,文字游戲內(nèi)容的生成,和游戲系統(tǒng)對玩家輸入文字所作出的反應(yīng),變得更加自然和連貫了,顯著提高了玩家參與度,日活躍在2到2.5萬人作用,也帶動了高級版付費用戶增長了大約25%。
?
?
關(guān)于GPT-3 的評價
? ? ? ? ? 程序員 Arram Sabeti 看來,GPT-3 最讓他感到驚訝的不是寫出來的內(nèi)容有多“以假亂真”,而是它能夠掌握幾乎所有的文體和內(nèi)容格式:從歌詞到劇本,從產(chǎn)品說明書到新聞稿,從短篇故事到采訪內(nèi)容,似乎沒有它搞不定的。
? ? ? ? ? 個人開發(fā)者 Kevin Lacker 做了一次圖靈測試,發(fā)現(xiàn) GPT-3 在絕大部分知識類、常識類、邏輯類的問題,甚至很多角度十分刁鉆的問題上,表現(xiàn)非常令人驚訝。
?
關(guān)于GPT-3 的開源——為什么 OpenAI 決定發(fā)布 API,而不是開源整個模型?
- 1)將 GPT-3 技術(shù)商業(yè)化能夠產(chǎn)生收入,繼續(xù)支持 OpenAI 的人工智能科研、安全和政策研究方面的工作;
- 2)API 底層的模型其實非常龐大,開發(fā)和部署起來很復(fù)雜也很昂貴,據(jù)知情人士透露,訓(xùn)練一個模型就花了355個GPU年,耗資高達(dá)460萬美元……所以除了大公司,其他人拿到模型也不會有任何收益。OpenAI 希望開放 API 能夠讓更多中小企業(yè)和機(jī)構(gòu)獲益;
- 3)把模型開放了,別人想怎么用怎么用,OpenAI 管不著。通過 API,OpenAI 可以控制人們使用這項技術(shù)的方式,對濫用行為及時治理。
?
GPT-3的安裝
? ? ? ? ? 等待官宣,更新中……
?
?
GPT-3的使用方法
1、GPT-3的官方demo—原生能力,強(qiáng)到爆炸
(1)、Image GPT
https://www.openai.com/blog/image-gpt/
?
(2)、OpenAI 開發(fā)了一款瀏覽器搜索插件
這個插件就能根據(jù)你的問題,在當(dāng)前網(wǎng)頁找到答案,并將你指向?qū)?yīng)的位置。
?
?
?
?
2、網(wǎng)友對GPT-3應(yīng)用的二次開發(fā)
(1)、生成LaTeX 公式
Viaduct 公司機(jī)器學(xué)習(xí)工程師 Shreya Shankar 花了很長時間把玩 OpenAI 提供的 API,最終成功開發(fā)出了一個非常酷炫的 demo:英語 ?? LaTeX 翻譯機(jī)!只需要用自然語言輸入,就可以生成公式了!
(2)、Debuild 就能自動生成對應(yīng)的 JSX 代碼
?
?
?
參考文章
GPT-3誕生,Finetune也不再必要了!NLP領(lǐng)域又一核彈!
API開放之后,我們才真正領(lǐng)略GPT-3的強(qiáng)大……?
?
?
?
?
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 成功解决win系统电脑中网络仅看到自己计
- 下一篇: Python:利用collections