浅析人类最贵、最大的机器学习模型GPT-3及背后隐含的商业逻辑
GPT-3一誕生就成了業內議論的焦點,因為這個模型大概是目前人類歷史上最大且最貴的機器學習模型。
究竟有多大呢,這個模型有1750億余個參數,雖然OpenAI沒有開源這個pre-train的模型,但是可以預估模型體積在700G左右。這是什么概念,就是假設OpenAI把這個模型放出來開放下載,也很少有機構有能力讓這個模型serving起來。
那這個模型有多貴呢,訓練它用了3640petaflops-day,相當于每秒鐘做千萬億次浮點運算,計算了3640天。約等于500個A100卡算1個月,實際消耗的計算資源成本在千萬美元級別。
這個模型有多牛?訓練它用了45T的數據,在NLP領域的內容理解、文本自定義生成方面可以說效果非常好。網上有一些GPT-3的play ground,大家可以玩一玩。比如我設定了一個話題,它就會自動給我寫一段小故事:
主要聊聊GPT-3誕生后,整個AI領域一些商業模式的改變。首先GPT-3證明了一點,只要肯投入訓練數據,并且增加模型復雜度,就可以做大大力出奇跡。實現one-shot戰勝sota。One-shot指的是提供極少的訓練樣本也能生成模型,sota就是各個垂直領域的最牛逼的模型。
(以下對于商業模式的思考內容純屬YY)
所以未來在AI層面可能形成一個計算力霸權,并且形成一種新的商業模式“learn from model”。在未來,可能幾家擁有計算力的公司,會集全部算力實現一個萬億級別參數的模型,這個模型可以達到類人甚至超越人的智力,實現zero-shot。就是對新內容可以直接做預測,比如人類沒有見過鴨嘴獸,但是可以根據它的嘴巴長的像鴨子而聯想到鴨嘴獸這樣的名字。
擁有了這個超級模型的公司會控制整個人工智能領域的發展,因為其它組織沒有能力訓練這么大的模型,甚至沒有能力基于這么大的模型finetune。就像是今天幾個大的互聯網公司占據了主流的流量,其它創業公司只能在垂直領域創新一樣。未來的基于人工智能的發展,可能只能通過商業公司提供的超級模型的基礎上做垂直領域的挖掘。人們通過某些手段調用這些超級模型,拿到結果,在做二次創新。
所以后續,假設大力出奇跡的模式成立,誰掌握了最大計算力,誰就最有可能獲取智能霸權,得到最牛的模型,這個模型將有可能像水、電、煤一樣成為一切人類應用的基礎設施,實現霸權。
總結
以上是生活随笔為你收集整理的浅析人类最贵、最大的机器学习模型GPT-3及背后隐含的商业逻辑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 详解TF-Ranking:Google开
- 下一篇: 详解下一代神经网络-无监督对比学习框架S