Chapter7-4_來自獵人暗黑大陸的模型 GPT-3
文章目錄
- 1 為何來自暗黑大陸
- 2 GPT-3的野心
- 3 GPT-3的效果
- 4 Beyond GPT-3
本文為李弘毅老師【來自獵人暗黑大陸的模型 GPT-3】的課程筆記,課程視頻youtube地址,點這里👈(需翻墻)。
下文中用到的圖片均來自于李宏毅老師的PPT,若有侵權(quán),必定刪除。
文章索引:
上篇 - 7-3 BERT and its family - ELMo, BERT, GPT, XLNet, MASS, BART, UniLM, ELECTRA, and more
下篇 - 7-5 Multilingual BERT
總目錄
1 為何來自暗黑大陸
GPT-3是一個language model,它的參數(shù)量相當(dāng)巨大,是ELMO的2000倍!要訓(xùn)練一個GPT-3大概要花掉1200萬美元!簡直是一個炫富專用的模型!GPT-3不光是參數(shù)量大,它的論文也是相當(dāng)大啊,有72頁?!和本科生的畢業(yè)論文差不多了啊!
正式因為GPT-3的大大大,所以把它稱作是來自暗黑大陸的模型,這里的暗黑大陸就是全職獵人里的暗黑大陸,里面都是巨大的怪獸,沒看過這部動漫的同學(xué)建議補一下。
2 GPT-3的野心
雖然GPT-3和BERT等模型一樣,但是GPT-3是不需要針對特定的task做finetune的,也就是說GPT-3只需要預(yù)訓(xùn)練就夠了。要是這實現(xiàn)了,也太牛了!
具體是什么意思呢?GPT-3定義了三種learning,第一個是"few-shot learning",就是先告訴模型要干什么,然后給幾個例子,最后給模型一個題目讓它做出來;第二個是"one-shot learning",就是告訴模型要干什么,然后給一個例子,最后給模型一個題目讓它做出來;最后一個是"zero-shot learning",就是告訴模型要干什么,然后給模型一個題目讓它做出來。這就相當(dāng)于人一樣了。而且更值得遺體的是,這里的learning并不是要做梯度下降的那種learning,而是全都作為輸入直接塞進去就可以了,這種learning被GPT-3的作者們稱作"in-context learning"。
3 GPT-3的效果
那么花了那么大工作搞出來的GPT-3效果如何呢?在42個NLP任務(wù)上的平均準確率隨參數(shù)量的變化如下圖所示,可見隨著參數(shù)兩的增大,準確率是在一直上升的。
GPT-3在closed book QA上的表現(xiàn)如下所示,之前的QA都是給一個knowledge source,讓模型從中找出答案,而所謂的closed book就是沒有knowledge source的QA,就只給問題,看模型能不能夠打上來。在175B參數(shù)量的情況下,用few-shot是可以超過SOTA的。
GPT-3咋SuperGLUE的表現(xiàn)如下圖所示,總結(jié)一下就是參數(shù)量越大,給的例子越多,模型的表現(xiàn)就越好。
GPT-3也可以用在生成任務(wù)上,下圖是不同參數(shù)量下GPT-3生成的文章讓人去辨別是不是機器生成時的準確率,當(dāng)參數(shù)量最大時,人幾乎已經(jīng)無法辨別出時機器還是人寫的了。
GPT-3也會做算術(shù),如下圖所示,問它"What is 17 minus 14?"這樣的兩位數(shù)的加減法基本都會回答正確,但是三位數(shù)及以上就不靈了。感覺還是數(shù)據(jù)驅(qū)動的原因。
當(dāng)然,GPT-3也有不擅長的任務(wù),比如NLI任務(wù),GPT-3的結(jié)果就和隨便猜的一樣。NLI就是給兩句話,讓模型判斷是矛盾,還是相近,還是中立。
4 Beyond GPT-3
既然我們已經(jīng)有了這么多那么龐大的language model,我們自然也要給模型難度更大的任務(wù)了,比如Turing Advice Challenge,就是讓模型去reddit讓給別人的求助提建議,然后看人覺得有用的建議有多少。T5這樣的大模型也只有9%的建議是有點用的,GPT-3還沒試過。可見這是一個很難的任務(wù)。期待之后的NLP的發(fā)展情況!
總結(jié)
以上是生活随笔為你收集整理的Chapter7-4_來自獵人暗黑大陸的模型 GPT-3的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode 2022春季赛 2.
- 下一篇: LeetCode 1943. 描述绘画结