2022年预训练的下一步是什么?
?作者 |?李政
學(xué)校 |?華中科技大學(xué)
研究方向 |?自然語言處理
大規(guī)模預(yù)訓(xùn)練
預(yù)訓(xùn)練+微調(diào)的做法,在多個(gè)下游領(lǐng)域取得優(yōu)異的表現(xiàn)。而在過去的一年里,預(yù)訓(xùn)練模型更是在往大而深的方向發(fā)展。
目前,國內(nèi)已有智源研究院、鵬城實(shí)驗(yàn)室、中科院自動(dòng)化所、阿里、百度、華為、浪潮等科研院所和企業(yè)研相繼發(fā)出“悟道”、“盤古”、“紫東 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。
但是模型在往大而深方向發(fā)展的同時(shí),也存在如下亟待解決的問題:
如何解釋預(yù)訓(xùn)練模型的理論基礎(chǔ)(如大模型智能的參數(shù)規(guī)模極限存在嗎)
如何將大模型高效、低成本的應(yīng)用于實(shí)際系統(tǒng)
如何克服構(gòu)建大模型的數(shù)據(jù)質(zhì)量、訓(xùn)練效率、算力消耗、模型交付等諸多障礙
如何解決目前大部分大模型普遍缺乏認(rèn)知能力的問題
對(duì)比學(xué)習(xí)
對(duì)比學(xué)習(xí)的出發(fā)點(diǎn)在于避免模型坍塌,理想的模型應(yīng)該符合 alignment 和 uniformity,即語義相近的句子彼此聚集,語義無關(guān)的句子均勻分布。
如果僅僅通過數(shù)據(jù)增強(qiáng)構(gòu)建正例,隨機(jī)句子作為負(fù)例,并為其打上 0,1 標(biāo)簽,存在以下問題:
數(shù)據(jù)增強(qiáng)生成正例的變化有限
隨機(jī)搭配成負(fù)例,含有除正例組合外其他組合全部為 0 的誘導(dǎo)
0,1 標(biāo)簽的賦予太過絕對(duì),對(duì)相似性表述不夠準(zhǔn)確
因此對(duì)比學(xué)習(xí)的核心思想轉(zhuǎn)變?yōu)?#xff1a;
score(X,X^{'})?>>?score(X,Y)其中,X 代表原樣本, 代表數(shù)據(jù)增強(qiáng)的正樣本,Y 代表隨機(jī)選擇的負(fù)樣本。根據(jù)該思想,對(duì)比學(xué)習(xí)采用 InfoNCE 損失函數(shù):
loss?=?-log?\frac{exp(score(X,X^{'}))}{score(X,X^{'})+\sum_{i=1}^{N}score(X,Y_i)}通過該損失函數(shù)實(shí)現(xiàn)正例拉近,負(fù)例推遠(yuǎn)的效果。
Prompt
prompt 被譽(yù)為 NLP 領(lǐng)域的新范式,與預(yù)訓(xùn)練+微調(diào)的范式相比,其過程分為:"pre-train, prompt, and predict"。
prompt 的出發(fā)點(diǎn)在于以更輕量化的方式利用預(yù)訓(xùn)練模型,避免微調(diào)與預(yù)訓(xùn)練之間存在的差異。
prompt 通過構(gòu)建模版的方式,將下游任務(wù)轉(zhuǎn)為與預(yù)訓(xùn)練相似的 MLM 任務(wù),以該方式充分發(fā)揮預(yù)訓(xùn)練模型的性能。
以文本情感分類任務(wù)中,"I love this movie."句子為例,prompt 按照以下方式進(jìn)行處理:
3.1 生成prompt句子
該步驟完成輸入句子到模型輸入的映射:
x^{'}=f_{prompt}(x)其中, 為生成的 prompt 句子,x 為輸入句子, 為 prompt 函數(shù)。
在本例中,使用的模版為:" [X] Overall, it was a [Z] movie."
因此,得到的, 為"I love this movie. Overall it was a [Z] movie.
3.2 模型預(yù)測(cè)
該步驟將 輸入模型,模型完成模版空白位置的詞語預(yù)測(cè)。
在本例中,模型可能預(yù)測(cè)為:"excellent", "great", "wonderful" 等詞語
3.3 結(jié)果映射
通常模型預(yù)測(cè)的詞語與任務(wù)輸出存在一定差距,因此我們需要完成詞語到輸出結(jié)果的映射。
y?=?f(x^{'})在本例中,"excellent", "great", "wonderful" 等詞語映射為標(biāo)簽 "++"
展望未來
首先我認(rèn)為當(dāng)前基于數(shù)據(jù)驅(qū)動(dòng)方法存在如下的問題:
1. 長尾效應(yīng):自然界中的數(shù)據(jù)分布就是長尾的,在學(xué)習(xí)的過程中,模型容易發(fā)生過擬合,泛化性較差。
2. 數(shù)據(jù)噪聲:有標(biāo)簽的數(shù)據(jù),在標(biāo)注過程中就不可避免的存在噪聲。尤其是多位人員一起標(biāo)注時(shí),不同標(biāo)注人員根據(jù)自身的理解完成數(shù)據(jù)的標(biāo)注,但不同的人自身理解存在偏差,因此標(biāo)注結(jié)果極易存在誤差。歸根到底:標(biāo)注的規(guī)范難以確定,無法統(tǒng)一大家的知識(shí)庫。
當(dāng)前我遇到的一些問題分享:模型仍無法很好地處理下述問題:
太陽有幾只眼睛?
姚明與奧尼爾身高誰比較高?
貓咪可以吃生蛋黃嗎?貓咪是可以吃蛋黃的。這里特定煮熟的白水蛋,貓咪不能吃生雞蛋,因?yàn)樯u蛋中有細(xì)菌。
物質(zhì)都是由分子構(gòu)成的嗎?物質(zhì)都是由分子構(gòu)成的,分子又由原子構(gòu)成-錯(cuò)的!因?yàn)橛行┪镔|(zhì)是不含分子的。
這些問題,我總結(jié)為兩方面的困難:
1. 缺乏知識(shí),由于預(yù)訓(xùn)練與微調(diào)領(lǐng)域存在偏差,模型在下游任務(wù)中缺乏特定知識(shí),同時(shí)模型在一些常識(shí)問題上表現(xiàn)較差。
2. 缺乏深度語義的理解,模型表現(xiàn)的更像通過字面匹配完成任務(wù),推理的成分更弱。
當(dāng)前研究熱點(diǎn)仍然在于挖掘預(yù)訓(xùn)練模型的能力,但在基于常識(shí)性知識(shí)與邏輯推理的問題上,這種基于數(shù)據(jù)驅(qū)動(dòng)的方式從底層就存在問題。引用一下大咖們對(duì) 2022 年的展望。
大模型一方面在不少問題上取得了以往難以預(yù)期的成功,另一方面其巨大的訓(xùn)練能耗和碳排放是不能忽視的問題。個(gè)人以為,大模型未來會(huì)在一些事關(guān)國計(jì)民生的重大任務(wù)上發(fā)揮作用,而在其他一些場景下或許會(huì)通過類似集成學(xué)習(xí)的手段來利用小模型,尤其是通過很少量訓(xùn)練來 “復(fù)用” 和集成已有的小模型來達(dá)到不錯(cuò)的性能。
我們提出了一個(gè)叫做 “學(xué)件” 的思路,目前在做一些這方面的探索。大致思想是,假設(shè)很多人已經(jīng)做了模型并且樂意放到某個(gè)市場去共享,市場通過建立規(guī)約來組織和管理學(xué)件,以后的人再做新應(yīng)用時(shí),就可以不用從頭收集數(shù)據(jù)訓(xùn)練模型,可以先利用規(guī)約去市場里找找看是否有比較接近需求的模型,然后拿回家用自己的數(shù)據(jù)稍微打磨就能用。這其中還有一些技術(shù)挑戰(zhàn)需要解決,我們正在研究這個(gè)方向。
另一方面,有可能通過利用人類的常識(shí)和專業(yè)領(lǐng)域知識(shí),使模型得以精簡,這就要結(jié)合邏輯推理和機(jī)器學(xué)習(xí)。邏輯推理比較善于利用人類知識(shí),機(jī)器學(xué)習(xí)比較善于利用數(shù)據(jù)事實(shí),如何對(duì)兩者進(jìn)行有機(jī)結(jié)合一直是人工智能中的重大挑戰(zhàn)問題。麻煩的是邏輯推理是嚴(yán)密的基于數(shù)理邏輯的 “從一般到特殊”的演繹過程,機(jī)器學(xué)習(xí)是不那么嚴(yán)密的概率近似正確的 “從特殊到一般”的歸納過程,在方法論上就非常不一樣。已經(jīng)有的探索大體上是以其中某一方為倚重,引入另一方的某些成分,我們最近在探索雙方相對(duì)均衡互促利用的方式。
談?wù)勛约旱睦斫?#xff0c;預(yù)訓(xùn)練模型的方式歸根到底仍然屬于數(shù)據(jù)驅(qū)動(dòng)的任務(wù),其通過在大規(guī)模數(shù)據(jù)上學(xué)習(xí),推斷未知數(shù)據(jù)的概率。如果說數(shù)據(jù)中存在表述不準(zhǔn)確、表述有歧義或者詞匯本身就有多個(gè)含義的話,以概率的方式難以解決這些問題。?
而人腦在未知問題上,推理成分居多,以一詞多義為例,人類會(huì)考慮該詞匯有幾種用法,考慮在這種上下文語境下使用哪一種用法,所以是否可以建立一套類似于標(biāo)準(zhǔn)公理的語言規(guī)范,以該規(guī)范為基礎(chǔ),對(duì)未知句子進(jìn)行拆解推理,理解句子的完整含義。通過了解模型的推理過程,模型的可解釋性增強(qiáng)。當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),我們可以進(jìn)行溯源分析,對(duì)模型依賴的知識(shí)進(jìn)行調(diào)整,或者讓模型學(xué)習(xí)的更充分。
接下來對(duì)自己 2022 年的期望:
1. 自身學(xué)習(xí)更多模型結(jié)構(gòu)變化的同時(shí),更多地理解業(yè)務(wù)的架構(gòu),明白模型在業(yè)務(wù)中起的作用。
2. 在算法研究上能夠研究的更加深入,希望能夠找到解決上述困難的方法
回顧自身算法經(jīng)歷
2021 年自身的算法經(jīng)歷主要分為:實(shí)習(xí)、算法比賽、項(xiàng)目、論文四部分。在這些經(jīng)歷里面主要接觸分類、閱讀理解、信息抽取三種任務(wù),評(píng)估方式均采用精確率、召回率及 F1 值。下面將以這些經(jīng)歷為基礎(chǔ),介紹我處理這些任務(wù)的方式。
5.1 需求分析
開展算法工作之前,首先要搞清楚算法需要滿足什么樣的需求。包括:
業(yè)務(wù)屬于什么樣的任務(wù)
算法需要側(cè)重的方向
訓(xùn)練數(shù)據(jù)及線上數(shù)據(jù)的情況
線上的指標(biāo)
線下的評(píng)估方式
……
需求分析的目的在于了解業(yè)務(wù)的需求與算法在業(yè)務(wù)中起到的作用。
5.2 模型選型及設(shè)計(jì)
在明白需求之后,需要根據(jù)任務(wù)類型選擇模型,并根據(jù)需求的不同,對(duì)模型結(jié)構(gòu)進(jìn)行調(diào)整。如閱讀理解任務(wù)下:針對(duì)多答案、無答案的情況,我們需要調(diào)整模型的結(jié)構(gòu)。
模型選型及設(shè)計(jì)的目的在于選擇或設(shè)計(jì)能夠很好地滿足業(yè)務(wù)需求的模型。
5.3 數(shù)據(jù)分析
數(shù)據(jù)分析這一步是最重要的一步,當(dāng)前模型主要還是以數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)對(duì)模型的影響很大。
我主要從以下角度進(jìn)行分析:
數(shù)據(jù)是否存在噪聲:標(biāo)點(diǎn)、大小寫、特殊符號(hào)等
訓(xùn)練集測(cè)試集分布是否存在差異,測(cè)試集能否反映模型在具體業(yè)務(wù)下的表現(xiàn)
數(shù)據(jù)存在哪些特征,通過引入額外的特征,模型可以表現(xiàn)地更好
訓(xùn)練集分布:標(biāo)簽分布、長度分布等,是否會(huì)給模型帶來類別不均衡、長文本等問題
數(shù)據(jù)量大小,數(shù)據(jù)量足夠時(shí)可以繼續(xù)預(yù)訓(xùn)練
數(shù)據(jù)分析的目的在于數(shù)據(jù)能否充分發(fā)揮模型性能,能否得到符合業(yè)務(wù)需求的模型
5.4 模型訓(xùn)練及優(yōu)化
模型進(jìn)行訓(xùn)練,開始煉丹【調(diào)參】。
設(shè)置合適的超參數(shù)【可以通過一些超參數(shù)搜索算法】
選擇合適的優(yōu)化器【adam/adamw/sgd】
學(xué)習(xí)率調(diào)整的策略
進(jìn)階版:
對(duì)抗訓(xùn)練
對(duì)比學(xué)習(xí)
UDA等數(shù)據(jù)增強(qiáng)方式
繼續(xù)預(yù)訓(xùn)練
多任務(wù)學(xué)習(xí)
偽標(biāo)簽
SWA
……
5.5 分析負(fù)例
該過程同樣重要,我們需要了解模型在測(cè)試數(shù)據(jù)上的表現(xiàn)情況,在什么數(shù)據(jù)表現(xiàn)較差,如何優(yōu)化這些負(fù)例。
在優(yōu)化過程中,建議記錄每一次優(yōu)化信息,分析模型的提升/降低是否符合自己預(yù)期,充分利用每一次實(shí)驗(yàn)
下面總結(jié)了我在優(yōu)化過程常用的分析方式:
5.5.1 檢查數(shù)據(jù)質(zhì)量是否過差
這種情況通常表現(xiàn)為數(shù)據(jù)質(zhì)量較差,模型在原始數(shù)據(jù)上表現(xiàn)不佳,精確率與召回率都很低。針對(duì)這種情況,需要對(duì)數(shù)據(jù)做必要的預(yù)處理,讓模型能夠更好地學(xué)習(xí)。
5.5.2 根據(jù)指標(biāo)進(jìn)行分析
recall低
???????
召回率表示召回的數(shù)量,測(cè)試集數(shù)據(jù)未召回較多,則從下列角度檢查數(shù)據(jù):
訓(xùn)練集測(cè)試集數(shù)據(jù)差異是否較大,即訓(xùn)練集中是否存在類似數(shù)據(jù),若不存在則引入更多數(shù)據(jù)或者對(duì)該數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)。這種情況,常見原因?yàn)閿?shù)據(jù)分布不均衡-少數(shù)數(shù)據(jù)訓(xùn)練不充分;訓(xùn)練集、測(cè)試集分布差異較大導(dǎo)致。
訓(xùn)練集中存在類似數(shù)據(jù),檢查訓(xùn)練集中該種情況有無標(biāo)注錯(cuò)誤:漏標(biāo)、錯(cuò)標(biāo)。
precision低
精確率表示預(yù)測(cè)出的準(zhǔn)確率,測(cè)試集數(shù)據(jù)分錯(cuò)的較多:
檢查數(shù)據(jù)分布,是否數(shù)據(jù)分布不均衡。數(shù)據(jù)不均衡導(dǎo)致模型傾向于預(yù)測(cè)數(shù)量較多的數(shù)據(jù),精確率下降。
標(biāo)簽定義是否準(zhǔn)確,是否存在兩類標(biāo)簽混淆的情況。這種情況,需要考慮對(duì)標(biāo)簽進(jìn)行融合。
類別不均衡常用解決方式:
數(shù)據(jù)增強(qiáng)
resample
reweight
集成學(xué)習(xí)
數(shù)據(jù)錯(cuò)誤常用解決方式:
交叉驗(yàn)證
置信學(xué)習(xí)
聚類分析
接下來的過程則是迭代分析,直到模型性能符合業(yè)務(wù)需求。
參考文獻(xiàn)
[1]?https://mp.weixin.qq.com/s/RqkQzeR5BOVpU7tj_zUgqQ
[2]?https://www.zhihu.com/question/480187938/answer/2103245373
[3]?https://zhuanlan.zhihu.com/p/399295895
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的2022年预训练的下一步是什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 北京内推 | 阿里云视频处理算法团队招聘
- 下一篇: 直播 | AAAI 2022论文解读:三