论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models
筆記整理:李磊,浙江大學(xué)碩士,研究方向?yàn)樽匀徽Z(yǔ)言處理 鏈接:https://arxiv.org/abs/2106.13884
動(dòng)機(jī)
大規(guī)模的自回歸語(yǔ)言模型(如GPT)在預(yù)訓(xùn)練階段學(xué)習(xí)到了大量的知識(shí),具有很好的學(xué)習(xí)新任務(wù)的能力,給定幾個(gè)“任務(wù)示例”,模型可以很快的學(xué)習(xí)到任務(wù)形式并回答新問(wèn)題,但這種能力僅限于文本領(lǐng)域。
Prompt tuning通過(guò)添加提示信息,充分挖掘預(yù)訓(xùn)練語(yǔ)言模型蘊(yùn)含的知識(shí),在few-shot場(chǎng)景下取得了良好的效果。
作者提出了Frozen, 利用Visual Encoder對(duì)圖片進(jìn)行編碼,編碼得到的結(jié)果作為prompt與文本一起送入語(yǔ)言模型中,試圖將大規(guī)模語(yǔ)言模型和prompt應(yīng)用于多模態(tài)領(lǐng)域。在VQA、OKVQA、miniImageNet等多個(gè)數(shù)據(jù)集的多模態(tài)few-shot場(chǎng)景下進(jìn)行了實(shí)驗(yàn),結(jié)果表明Frozen有效的利用了預(yù)訓(xùn)練語(yǔ)言模型的先驗(yàn)知識(shí),具有很好的遷移學(xué)習(xí)能力。
模型結(jié)構(gòu)
圖 1模型結(jié)構(gòu)圖
如圖1所示,模型結(jié)構(gòu)主要分為兩個(gè)部分:
1.預(yù)訓(xùn)練自回歸語(yǔ)言模型
在公共數(shù)據(jù)集C4上預(yù)訓(xùn)練一個(gè)基于transformer結(jié)構(gòu)的深度自回歸語(yǔ)言模型,模型具有70億參數(shù)。
2.視覺(jué)編碼器
基于NF-ResNet-50,主要功能是將原始的圖片映射為連續(xù)的序列以便transformer模型進(jìn)行處理。將NF-Resnet全局池化層后的結(jié)果作為最終輸出向量。受Prefix-tuning的啟發(fā),作者將視覺(jué)編碼器的輸出作為視覺(jué)prefix,與文本一起送入語(yǔ)言模型中。這種方式將靜態(tài)的文本prefix轉(zhuǎn)換成動(dòng)態(tài)的視覺(jué)prefix,輸入的圖片不同,產(chǎn)生的視覺(jué)prefix也不同,從而更好地“提示”語(yǔ)言模型。
訓(xùn)練
如圖1所示,訓(xùn)練時(shí)采用image-caption數(shù)據(jù)集,輸入是(圖片,文本)對(duì),以生成式的方式輸出對(duì)圖片的描述文本信息。訓(xùn)練過(guò)程中凍結(jié)語(yǔ)言模型,僅訓(xùn)練視覺(jué)編碼器。在k-shot場(chǎng)景下,需要給出幾個(gè)示例,因此模型的輸入可能會(huì)包含多個(gè)(圖片,文本)對(duì),作者使用相對(duì)位置編碼使圖文始終在對(duì)應(yīng)文本之前。
實(shí)驗(yàn)
作者以下三個(gè)角度進(jìn)行了實(shí)驗(yàn):1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding
1.Rapid Task Adaptation
圖 2 Rapid Task Adaptation結(jié)果
測(cè)試在image-caption上訓(xùn)練的模型在VQA數(shù)據(jù)集上的表現(xiàn)并設(shè)置了多個(gè)對(duì)照模型。Frozen scratch表示語(yǔ)言模型是隨機(jī)初始化的,Frozen finetuned 表示語(yǔ)言模型使用預(yù)訓(xùn)練權(quán)重,Frozen train-blind 控制視覺(jué)編碼器的輸入始終是黑色圖像。可以發(fā)現(xiàn)Frozen隨著提供示例(n)的增多,效果有所提升。
2.Encyclopedic Knowledge
圖 3 Encyclopedic Knowledge結(jié)果
此部分測(cè)試了Frozen在需要外部知識(shí)的OKVQA數(shù)據(jù)集上的表現(xiàn),Frozen同樣在Image-caption上進(jìn)行訓(xùn)練。同時(shí)比較了語(yǔ)言模型大小對(duì)結(jié)果的影響(Frozen 400mLM)。
3.Fast Concept Binding
圖 4 Fast Concept Binding輸入示例
如圖4所示,將blicket和dax等無(wú)實(shí)際意義的詞與某一事物類別進(jìn)行綁定,同時(shí)給出幾個(gè)示例,測(cè)試模型是否具有概念綁定的能力。
圖 5 概念數(shù)等于2時(shí)的結(jié)果
圖 6 概念數(shù)等于5時(shí)的結(jié)果
作者還進(jìn)一步測(cè)試了概念綁定與外部知識(shí)結(jié)合的場(chǎng)景下Frozen的效果。
隨著任務(wù)難度增加,Frozen的效果也有所下降,但提供的示例數(shù)增加的時(shí)候,Frozen能從示例中提取到相關(guān)知識(shí),指導(dǎo)結(jié)果的生成。
OpenKG
OpenKG(中文開(kāi)放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開(kāi)放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開(kāi)源開(kāi)放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 会议交流 | CNCC2021中国计算机
- 下一篇: 技术实践 | 用 NetworkX +