自监督学习的发展趋势:事半功倍的模型训练和数据效能
?作者 | 唐工
寫在篇首
這些趨勢(shì)之所以令人興奮,是因?yàn)樗鼈兛梢源蟠鬁p少為某一特定任務(wù)使用機(jī)器學(xué)習(xí)所需的努力,也因?yàn)樗鼈兪沟迷诟叽硇缘臄?shù)據(jù)上訓(xùn)練模型變得更加容易(盡管絕非微不足道),這些模型更好地反映了不同的亞種群、區(qū)域、語(yǔ)言或其他重要的表示維度。
現(xiàn)有的模型通常使用自監(jiān)督(self-supervised)學(xué)習(xí)方法進(jìn)行訓(xùn)練,其中模型從沒有經(jīng)過(guò)策劃或標(biāo)記的“原始”數(shù)據(jù)的觀察中學(xué)習(xí),例如 GPT-3 和 GLaM 中使用的語(yǔ)言模型、自監(jiān)督語(yǔ)音模型 BigSSL 、可視對(duì)比學(xué)習(xí)模型 SimCLR,和多模態(tài)對(duì)比模型 VATT。
自監(jiān)督學(xué)習(xí)允許一個(gè)大的語(yǔ)音識(shí)別模型(BigSSL 模型),只使用 3% 的標(biāo)簽訓(xùn)練數(shù)據(jù),就能滿足先前的 Voice Search 自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition,ASR)基準(zhǔn)測(cè)試準(zhǔn)確度。
GLaM 模型:更有效的上下文學(xué)習(xí)
GLaM(Generalist Language Model)模型,旨在解決訓(xùn)練大型稠密模型(比如GPT-3)需要大量的計(jì)算資源的問(wèn)題。
大型語(yǔ)言模型(例如,GPT-3)具有許多重要的能力,例如在一系列廣泛的任務(wù)中執(zhí)行少樣本學(xué)習(xí)(few-shot learning),包括只有很少或根本沒有訓(xùn)練樣本的閱讀理解和問(wèn)答。但訓(xùn)練這些大型模型是極其計(jì)算密集的。
GLaM 模型是一簇通用語(yǔ)言模型,由于其稀疏性(sparsity),可以(在計(jì)算和能耗方面)有效地進(jìn)行訓(xùn)練和提供服務(wù),并且在多個(gè)少樣本學(xué)習(xí)任務(wù)上取得了更好的表現(xiàn)。
GLaM 模型使用稀疏激活的 MoE(sparsely activated mixture-of-experts)架構(gòu)來(lái)擴(kuò)展模型容量,同時(shí)與稠密的變體相比,訓(xùn)練成本大大減少。
...It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference... ...它只消耗 GPT-3訓(xùn)練所需能耗的1/3,并且只需要一半的浮點(diǎn)運(yùn)算進(jìn)行推理...
▲ GLaM 的架構(gòu),其中每個(gè)輸入標(biāo)記都被動(dòng)態(tài)地路由到64個(gè)專家網(wǎng)絡(luò)中的選定的兩個(gè),以進(jìn)行預(yù)測(cè)
BigSSL 模型:探索用于自動(dòng)語(yǔ)音識(shí)別的大規(guī)模半監(jiān)督學(xué)習(xí)的前沿
BigSSL(Large-Scale Semi-Supervised Learning )模型,發(fā)現(xiàn)預(yù)訓(xùn)練(pre-training)、自訓(xùn)練(self-training)和擴(kuò)大模型尺寸(scaling up model size)的組合極大地提高了數(shù)據(jù)效能,即使對(duì)于具有數(shù)萬(wàn)小時(shí)標(biāo)記數(shù)據(jù)的超大型任務(wù)也是如此。
SSL + Large Models = Labeled Data Efficiency
半監(jiān)督學(xué)習(xí) + 大型模型 = 標(biāo)記數(shù)據(jù)的效能
BigSSL 模型使用 Conformer (convolution-augmented transformer)模型作為其編碼器網(wǎng)絡(luò),Conformer 模型將卷積神經(jīng)網(wǎng)絡(luò)和 Transformer 結(jié)合起來(lái),以參數(shù)高效(parameter-efficient)的方式對(duì)音頻序列的局部和全局依賴關(guān)系進(jìn)行建模。
Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. Transformer 模型擅長(zhǎng)捕獲基于內(nèi)容的全局交互,而 CNN 則有效地利用局部特征。
▲ Conformer 編碼器和 wav2vec 2.0 預(yù)訓(xùn)練。Conformer Block 包含注意力、前饋和卷積模塊。
SimCLR 模型:提高自監(jiān)督和半監(jiān)督學(xué)習(xí)
SimCLR 模型,旨在解決當(dāng)前圖像數(shù)據(jù)的自監(jiān)督(self-supervised)技術(shù)沒有被廣泛采用的問(wèn)題:
當(dāng)前的圖像數(shù)據(jù)自監(jiān)督技術(shù)過(guò)于復(fù)雜;
需要對(duì)架構(gòu)或訓(xùn)練過(guò)程進(jìn)行重大修改。
提高計(jì)算機(jī)視覺任務(wù)的性能的范式:在大型的未標(biāo)記圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后在一個(gè)較小的標(biāo)記數(shù)據(jù)集微調(diào)。這些方法屬于自監(jiān)督學(xué)習(xí)的范疇,通過(guò)從未標(biāo)記的數(shù)據(jù)集創(chuàng)建替代標(biāo)簽,將非監(jiān)督式學(xué)習(xí)問(wèn)題轉(zhuǎn)化為受監(jiān)督的問(wèn)題。
SimCLR 模型首先通過(guò)對(duì)比學(xué)習(xí)(contrastive learning),同時(shí)最大化同一圖像的不同變換視圖之間的一致性和最小化不同圖像變換視圖之間的一致性,在未標(biāo)記的數(shù)據(jù)集上學(xué)習(xí)圖像的通用表示法;然后它可以用少量的標(biāo)記圖像進(jìn)行微調(diào),以對(duì)給定的分類任務(wù)達(dá)到良好的性能。
▲ SimCLR 框架的一個(gè)示例。和 MLP 圖層同時(shí)訓(xùn)練產(chǎn)生的投影對(duì)于同一圖像的增強(qiáng)版本是相似的,而對(duì)于不同的圖像是不同的,即使這些圖像是同一類的物體。經(jīng)過(guò)訓(xùn)練的模型不僅能很好地識(shí)別同一圖像的不同變換,而且還能學(xué)習(xí)類似概念的表示(例如,椅子和狗),這些概念后來(lái)可以通過(guò)微調(diào)與標(biāo)簽聯(lián)系起來(lái)。
VATT 模型:從原始視頻、音頻和文本的多模態(tài)自監(jiān)督學(xué)習(xí) Transformer
VATT (Video-Audio-Text Transformer)模型,用于使用無(wú)卷積 Transformer 架構(gòu)從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)多模態(tài)表示。
VATT 模型使用多模態(tài)對(duì)比損失(contrastive loss)進(jìn)行訓(xùn)練,并通過(guò)視頻動(dòng)作識(shí)別、音頻事件分類、圖像分類和文本到視頻檢索等下游任務(wù)來(lái)評(píng)估其性能。
▲ VATT 架構(gòu)和自監(jiān)督、多模式學(xué)習(xí)策略的概述。VATT 將每種模態(tài)線性投影到特征向量中,并將其輸入到 Transformer 編碼器中。定義了一個(gè)語(yǔ)義層次化的公共空間來(lái)解釋不同模態(tài)的粒度,并使用噪聲對(duì)比估計(jì)來(lái)訓(xùn)練模型。?
參考文獻(xiàn)
[2112.06905] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (arxiv.org):https://arxiv.org/abs/2112.06905
[2109.13226] BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (arxiv.org):https://arxiv.org/abs/2109.13226
[2002.05709] A Simple Framework for Contrastive Learning of Visual Representations (arxiv.org):https://arxiv.org/abs/2002.05709
[2104.11178] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (arxiv.org):https://arxiv.org/abs/2104.11178
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的自监督学习的发展趋势:事半功倍的模型训练和数据效能的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 消防配电箱导线规范要求
- 下一篇: 布加迪火花塞要经常更换吗?