《预训练周刊》第67期: ChatGPT引起热议、量化技术、Meta图像掩码加速CLIP
No.67
智源社區
預訓練組
預
訓
練
研究
觀點
資源
活動
周刊訂閱
告訴大家一個好消息,《預訓練周刊》已經開啟“訂閱功能”,以后我們會向您自動推送最新版的《預訓練周刊》。訂閱方法:
方式1:掃描下面二維碼,進入《預訓練周刊》主頁,選擇“關注TA”。
方式2:點擊本文下方的“閱讀原文”,進入《預訓練周刊》Hub社區版,根據內附的詳細訂閱步驟,完成訂閱。
關于周刊
本期周刊,我們選擇了9篇預訓練相關的論文:多模態話題包括掩碼優化CLIP方法FLIP,分層信息融合;視覺話題包括不平衡數據學習,掩碼對比預訓練,雙曲對比學習;自然語言話題包括自我進化,信息溯源校正;基礎研究方面包括兩篇介紹大模型量化的文章。此外,在資訊動態方面,我們選擇了6篇預訓練資訊:工具方面包括BERT加速工具包,智源的開源阿拉伯語和EVA視覺大模型,觀點方面包括匯總了關于近期爆火的ChatGPT相關的一些最新內容,包括基礎原理、是否可以作為搜索引擎、在NLP任務評價和商業化等,希望能幫助各位讀者加深對ChatGPT認識。
周刊采用社區協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動預訓練學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入預訓練群。
(本期貢獻者:翟珂 吳新剛)
論文推薦
【多模態研究】
標題:Meta | Scaling Language-Image Pre-training via Masking(通過掩碼進行語言-圖像預訓練的縮放)
作者:Yanghao Li、Kaiming He等
簡介:本文提出一種用于訓練CLIP的簡單而有效的方案FLIP,它在訓練過程中對圖像塊進行大比例的隨機掩碼移除,可以將CLIP的訓練過程加速2~3倍。其核心改進就是在訓練過程對圖像進行隨機掩碼。這樣做的好處包括:一是由于圖像編碼器只處理未掩碼的patches,降低了計算用時,這樣同樣的訓練時間內可以學習更多的圖像-文本對;二是圖像編碼器的顯存使用也下降,這樣在一定的硬件資源下就可以實現更大的batch size,而對比學習往往需要較大的batch size。當然對圖像掩碼也會造成部分信息丟失,但是這也可能是一種正則化方法。在于FLIP和OpenCLIP的對比結果上,訓練同樣的輪數時遮蔽50%的FLIP可以提升訓練速度2倍,而且在ImageNet1K上零樣本準確度可以提升0.9%
論文下載:https://arxiv.org/pdf/2212.00794.pdf
標題:希臘雅典國立技術大學、雅典娜研究中心 | Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis(采用分層融合的自適應多模態 BERT 進行情感分析)
作者:Odysseas S. Chlapanis , Georgios Paraskevopoulos , Alexandros Potamianos
簡介:本文研究基于bert的多模態模型、避免了災難性遺忘和模態失衡的陷阱。多模式學習的pipelines技術,受益于預訓練語言模型的成功。然而,這是以增加模型參數為代價的。在這項工作中,作者提出了基于BERT的自適應多模態模型:AMB,它使用適配器模塊和中間融合層的組合。適配器為當前的任務調整預訓練的語言模型,而融合層執行特定于任務的、逐層融合視聽信息與文本 BERT 表示。在適應過程中,預訓練的語言模型參數保持凍結狀態,從而可以進行快速、參數高效的訓練。由于有效地利用了預訓練和非主導模態的有用知識,實驗表明:AMB模型不僅性能高效、優于經過微調的模型,并且對輸入噪聲具有魯棒性。
論文下載:https://arxiv.org/pdf/2212.00678.pdf
【NLP研究】
標題:武漢大學、京東等聯合 | Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE(SuperGLUE 案例研究:以自我進化實現高效的語言模型預訓練和下游適應)
作者:Qihuang Zhong,Liang Ding2,Yibing Zhan等
簡介:本文介紹了京東探索研究院在 SuperGLUE 排行榜上提交的Vega大模型。作者不任意增加預訓練語言模型 (PLM) 的大小,而是想為達成如下兩個目標:(1) 在給定特定參數預算的情況下,從輸入的預訓練數據中充分提取知識;(2) 有效地將這些知識轉移到下游任務。為了實現目標 1,作者建議 PLM 進行自我進化學習,以明智地預測應該屏蔽的信息標記,并使用修正后的平滑標簽、來監督掩碼語言建模 (MLM) 過程。對于目標 2,作者利用Prompt提示遷移技術:通過將知識從基礎模型和相關下游任務,遷移到目標任務、以改進低資源任務。實驗表明:通過作者優化的預訓練和微調策略,作者具有60億參數的Vega模型(V2版)在四大任務上取得了新的SOTA性能,在 SuperGLUE 排行榜上名列前茅、平均分 91.3。
論文下載:https://arxiv.org/pdf/2212.01853.pdf
標題:CMU、谷歌等 | RARR: Researching and Revising What Language Models Say, Using Language Models(RARR:使用語言模型研究和修改語言模型所說的內容)
作者:Luyu Gao,Kelvin Guu等
簡介:本文介紹了在ChatGPT火爆當下,一種查驗對錯和出處的一種方法。語言模型有時會生成未經驗證或具有誤導性的內容。用戶無法輕易確定輸出是否可信,因為大多數語言沒有任何內置機制來歸因于外部證據。為了在啟用歸因的同時仍然保留最新一代模型的所有強大優勢,本文提出了 RARR(使用研究和修訂的改造歸因),該系統自動為任何文本生成模型的輸出找到出處,以及可以對輸出再編輯,修改未經驗證的內容,同時盡可能保留原始輸出。當應用于一組不同的生成任務的多個最先進語言模型的輸出時,本文發現 RARR 顯著改善了歸因,同時在其他方面比以前探索的編輯模型更大程度地保留了原始輸入。此外,RARR 的實施只需要少量訓練示例、一個大型語言模型和標準互聯網搜索。
論文下載:https://arxiv.org/pdf/2210.08726.pdf
【CV研究】
標題:清華大學 | Learning Imbalanced Data with Vision Transformers(使用視覺Transformers 學習不平衡數據)
作者:Zhengzhuo Xu, Ruikang Liu, Shuo Yang,等
簡介:本文研究基于掩碼生成預訓練與平衡的二元交叉熵的視覺Transformer、實現了新SOTA的長尾識別技術。現實世界的數據往往嚴重不平衡、并嚴重扭曲數據驅動的深度神經網絡,使得長尾識別 (LTR) 成為一項具有挑戰性的任務。現有的 LTR 方法很少使用長尾 (LT) 數據訓練 Vision Transformers (ViT),而現成的 ViT 預訓練權重總是導致比較不公平。在本文中,作者系統地研究了 ViT 在 LTR 中的性能,并提出 LiVT :僅使用 LT 數據從頭開始訓練 ViT。廣泛的實驗表明:當基于掩碼生成預訓練和平衡二元交叉熵的使用,LiVT 在沒有任何額外數據的情況下成功地訓練了 ViTs、并且顯著優于可比的最先進的方法。
論文下載:https://arxiv.org/pdf/2212.02015.pdf
源碼下載:https://github.com/XuZhengzhuo/LiVT
標題:阿里巴巴、北航、中科院 | Masked Contrastive Pre-Training for Efficient Video-Text Retrieval(用于高效視頻文本檢索的掩碼對比預訓練)
作者:Fangxun Shu,Biaolong Chen,Yue Liao等
簡介:本文研究端到端高效的視頻文本對齊的預訓練框架(VidLP) 、以用于視頻文本檢索任務。作者的掩碼對比學習視頻語言預訓練模型(MAC) ,旨在通過掩碼采樣機制減少 VidLP 模型中視頻表示的空間和時間冗余,進而實現預訓練效率的提高。作者提出的端到端預訓練框架,高效地達成:減少 FLOP(減少 60%)、加速預訓練(3 倍)并提高性能。作者的 MAC模型 在多個視頻文本檢索數據集上取得了SOTA結果,包括 MSR-VTT、DiDeMo 和 ActivityNet。
論文下載:https://arxiv.org/pdf/2212.00986.pdf
標題:馬里蘭大學、谷歌、Meta | Hyperbolic Contrastive Learning for Visual Representations beyond Objects(超越對象的視覺表示的雙曲對比學習)
作者:Songwei Ge, Shlok Mishra, Simon Kornblith等
簡介:本文研究以對象為中心的場景層次結構上的雙曲對比目標。盡管自監督/無監督方法在視覺表示學習方面取得了快速進展,但這些方法通常使用相同的場景來處理對象和場景。在本文中,作者專注于學習保留其中結構的對象和場景的表示。由于觀察到視覺上相似的對象在表示空間中很接近,作者認為場景和對象應該遵循基于它們的組合性的層次結構。為了利用這種結構,作者提出了一個對比學習框架,其中歐幾里德損失用于學習對象表示,雙曲線損失用于鼓勵場景的表示靠近雙曲線空間中其組成對象的表示。這種新穎的雙曲線目標通過優化其規范的大小來鼓勵表示之間的場景對象同義詞。實現表明:在對 COCO 和 OpenImages 數據集進行預訓練時,雙曲線損失提高了跨多個數據集和任務的多個基線的下游性能。
論文下載:https://arxiv.org/pdf/2212.00653.pdf
【基礎研究】
標題:高通AI | Quadapter: Adapter for GPT-2 Quantization(Quadapter:用于 GPT-2 量化的適配器)
作者:Minseop Park , Jaeseong You , Markus Nagel ,等
簡介:本文研究語言模型的量化感知訓練領域的新方法。Transformer 語言模型(如 GPT-2)很難量化,因為激活過程中存在大量與信道相關的異常值,這些異常會導致較大的量化誤差。為了適應錯誤,必須使用量化感知訓練(QAT),訓練后量化(PTQ)是QAT的一種對應物,它在不修改模型參數的情況下執行量化,但其功能不足以應對異常值。QAT需要基于數據集和與原始模型相同的訓練管道的微調過程。然而,預訓練語言模型通常不授予對其數據集和訓練管道的訪問權限,迫使研究人員依賴模型進行微調。而在這種情況下,QAT將使模型過度擬合微調數據。為了在不過度擬合的情況下進行量化,作者引入了一個量化適配器:Quadapter,以一組輕量級的參數,通過按通道縮放、可以學習使激活量化友好;同時可以保持模型的參數不發生任何變化。實驗證明:作為有效的PTQ技術、Quadapter緩解了“QAT的過擬合問題和激活中的信道間方差”這兩個業界難題!
論文下載:https://arxiv.org/pdf/2211.16912.pdf
標題:華盛頓大學、Meta、Huggingface | LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale(LLM.int8():Transformer的八比特矩陣乘法的規模化)
作者:Tim Dettmers, Mike Lewis等
簡介:本文介紹了一種大模型量化技術。在神經網絡中,量化可以理解為用低精度的數據格式來表示原來用高精度的數據格式表示的模型,從而降低內存使用以及提高計算速度。本文不僅介紹了常用的量化策略,還分享了一種基于混合精度分解的量化方法,并通過對比實驗驗證了混合精度分解量化可以有效地保持模型性能,避免了在大模型上使用量化技術導致的性能下降。除了量化之外,本文也幫助我們從另一個角度來理解Transformer:通過對離群值的分析,解釋了Transformer是如何通過這些離群值來去除無用特征,以及Transformer的每一層是如何進行協作的。
論文下載:https://arxiv.org/pdf/2208.07339.pdf
工具資源
標題:香港科技大學、英國南安普頓大學 | ExtremeBERT: A Toolkit for Accelerating Pretraining of Customized BERT(ExtremeBERT:加速定制 BERT 預訓練的工具包)
作者:Rui Pan, Shizhe Diao, Jianlin Chen等
簡介:本文介紹了用于加速和定制 BERT 預訓練的工具包ExtremeBERT。作者的目標是為研究社區和行業提供易于使用的 BERT 預訓練工具包。為在資源有限的情況下,可以負擔得起在定制數據集上對流行語言模型進行預訓練。實驗表明:基于GLUE分數比較的維度、對照原始的BERT論文,作者工具包的時間成本:(1)比BERT Base減少6倍、(2) 比BERT Large 減少了 9倍。
論文下載:https://arxiv.org/pdf/2211.17201.pdf
代碼下載:https://github.com/extreme-bert/extreme-bert
標題:智源 | 阿拉伯語通用大模型ALM,最大阿拉伯語數據集ArabicText
簡介:近日,北京智源人工智能研究院(以下簡稱“智源”)聯合多家阿拉伯科研機構,開源兼具自然語言理解和生成能力的通用阿拉伯語預訓練模型ALM 1.0,并發布開源世界目前數據量最大的阿拉伯語預訓練文本數據集ArabicText,共同推動阿拉伯語大模型AI生態的建設。在模型訓練上,阿拉伯語大模型ALM 1.0基于自然語言理解、條件和無條件生成的廣泛任務上都表現優異的智源悟道GLM架構進行訓練,兼具自然語言生成和理解能力。ALM 1.0將廣泛支持阿拉伯語場景下的內容摘要、文本續寫和生成、常識問答等一系列下游應用。同時基于對阿拉伯語文本數據的采集、整理和清洗,并基于支撐WuDaoCorpora的自研網頁文本深度清洗工具,研究團隊針對阿語進行了高度適配和優化,并最終獲得了超過200GB的高質量預訓練語料ArabicText。
工具地址:https://github.com/FlagAI-Open/FlagAI/blob/master/examples/ALM/README_zh.md
標題:智源 | 視覺基礎模型EVA
簡介:近日智源曹越團隊最新開源的視覺預訓練模型 EVA,EVA 的訓練方法與 MVP、MILLAN 類似,即通過重構 CLIP 特征來進行掩碼圖像建模。如CLIP 模型輸入為完整的圖像,而 EVA 模型的輸入為有遮蔽的圖像,訓練過程是讓 EVA 模型遮蔽部分的輸出去重構 CLIP 模型對應位置的輸出,從而以簡單高效的方式讓 EVA 模型同時擁有了最強語義學習 CLIP 的能力和最強幾何結構學習 MIM 的能力。不同于之前的方法,EVA 證明了這種訓練方式可以幫助模型將參數擴展到十億量級,并且在這個參數量級下在廣泛下游任務中取得出色的性能。開源工具包括十億參數的預訓練模型,下游 ImageNet 圖像分類、Kinetics 視頻動作識別、COCO 和 LVIS 目標檢測和分割、ADE20K 語義分割、以及最強 CLIP 模型。
工具地址:https://github.com/baaivision/EVA
前沿觀點
標題:ChatGPT的訓練過程解析,它會成為下一代搜索引擎嗎?
作者:張俊林
簡介:本文介紹了ChatGPT的訓練過程和它和真正搜索引擎的差距。整體技術路線上,ChatGPT在效果強大的GPT3.5大規模語言模型基礎上,引入“人工標注數據+強化學習”(RLHF ,人工反饋其實就是人工標注數據)來不斷微調預訓練語言模型,主要目的是讓大語言模型學會理解人類的命令指令的含義(比如給我寫一段小作文生成類問題、知識回答類問題、頭腦風暴類問題等不同類型的命令),以及讓LLM學會判斷對于給定的prompt輸入指令,什么樣的答案是優質的。本文認為目前還不能取代搜索引擎:首先,對于不少知識類型的問題,chatGPT會給出看上去很有道理,但是事實上是錯誤答案的內容;其次,ChatGPT目前這種基于GPT大模型基礎上進一步增加標注數據訓練的模式,對于LLM模型吸納新知識是非常不友好的;其三,ChatGPT或GPT4的訓練成本以及在線推理成本太高。
標題:作為普通NLP科研人員對ChatGPT的一些思考
作者:郭必揚
簡介:本文從NLP角度,包括任務,技巧,反思等角度討論ChatGPT。作者在一些NLP任務上進行了測試,關鍵信息抽取任務上表現的相當好。簡單推理任務還是完全可以勝任的,但給一些涉及簡單數學推理的,可能就在一本正經的瞎推理了。寫作輔助任務相當完美,需要一定知識儲備的開放域問答有板有眼但實際并不靠譜,主觀問題一定回答的很圓滑,可能存在的一定的模板。寫代碼任務上也只是搬運訓練語料內容,或者給你把互聯網上已有的信息“糅合”一下吐出來。作者表示在AI領域,階層鴻溝問題日趨嚴重,普通研究者和頂級研究機構的思路已經開始差距越來越大。在這大背景下普通研究者的出路可能是研究一些更加底層的,大小模型都適用的問題,或者研究一些很特殊的,需要特定領域知識的任務,或者以數據為中心。
標題:ChatGPT的商業落地問題
作者:齊健
簡介:本文介紹了ChatGPT的商業前景以及面臨的挑戰。ChatGPT商業化最為核心的問題,在于模型的準確性和部署成本。首先,ChatGPT的回答并不能保證準確性,這對需要準確回答具體問題的商業應用來說是致命傷。另一個問題是經濟性,ChatGPT目前尚處在免費的測試階段,眼前最接近實際的應用場景是搜索引擎優化、營銷媒體內容創作輔助和開發者編程。對于這個問題容聯云AI科學院院長劉杰表示,To B行業對人工智能要求更嚴肅、嚴謹,目前的人機對話內容主要集中在客服、外呼、營銷等領域,需要有針對的模型庫,利用輕量預訓練模型和滿足基礎的框架的規模小一些的模型進行快速訓練。劉杰認為:包括ChatGPT在內的NLP,在商業化上還處在一個螺旋上升的階段,未來應用場景很廣;但當下技術和商業模式還需要盡快找到一個“共振”的頻率。不過,也有很多人認為ChatGPT未來的應用領域未必局限在人機對話,可能會擴展到更多應用領域,例如程序問題的識別和搜索引擎等。
如果你正在從事或關注預訓練學習研究、實現與應用,歡迎加入“智源社區-預訓練-交流群”。在這里,你可以:
學習前沿知識、求解疑難困惑
分享經驗心得、展示風貌才華
參與專屬活動、結識研究伙伴
請掃描下方二維碼加入預訓練群(備注:“姓名+單位+預訓練”才會驗證進群哦)
總結
以上是生活随笔為你收集整理的《预训练周刊》第67期: ChatGPT引起热议、量化技术、Meta图像掩码加速CLIP的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python自动刷快手视频_快手加抖音自
- 下一篇: 知乎日报客户端--知乎日报板块的实现