NeurIPS 2021 | 微软研究院提出CLUES,用于NLU的少样本学习评估
?作者 | 雪麓?
單位 | 北京郵電大學
研究方向 | 序列標注
自然語言理解 (NLU) 的最新進展部分是由 GLUE、SuperGLUE、SQuAD 等基準驅動的。事實上,許多 NLU 模型現在在這些 benchmark 中的許多任務上已經達到或超過了“人類水平”的性能。然而,這些 benchmark 中的大多數都允許模型訪問相對大量的標記數據以進行訓練。因此,模型提供的數據遠多于人類實現強大性能所需的數據。這激發了一系列專注于提高 NLU 模型的少樣本學習性能的工作。然而,由于少樣本 NLU 缺乏標準化的評估 benchmark,導致不同論文中的實驗設置不同。
本文作者證明,雖然最近的模型在訪問大量標記數據時達到了人類的表現,但在大多數任務的少樣本設置中,性能存在巨大差距。作者還在少樣本設置中展示了可選的模型系列和適應技術之間的差異。最后,作者討論了設計用于評估“真實” few-shot 學習性能的實驗設置的幾個原則和選擇,并提出了一種統一的標準化方法來進行 few-shot 學習評估。作者的目標是鼓勵大家對于能夠使用少量樣本就能泛化到新任務的 NLU 模型研究。
論文標題:
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding
論文地址:
https://arxiv.org/pdf/2111.02570.pdf
論文代碼:
https://github.com/microsoft/CLUES
Introduction
benchmark 為研究人員提供了明確定義的挑戰和明確的指標,并推動了自然語言理解 (NLU) 的重大進展。事實上,最近的幾個 benchmark,如 GLUE 和 SuperGLUE 已經清楚地表明,許多當前的大型模型可以在這些 benchmark 中可以相比或超過 NLU 任務的“人類水平”性能。
但當前的 NLU benchmarks 有很大的局限性。首先,任務通常僅限于那些可以很容易地表示為分類任務的任務。其次,也是最重要的,在大多數這些 benchmark 中,給定大量特定于任務的標記訓練數據,有些模型可以相比或超過“人類水平”的表現。相比之下,人類只需幾次演示就可以執行復雜的任務。這些限制嚴重破壞了在 NLU 任務上實現廣泛的人類水平表現的主張。在這方面,CLUES benchmark 通過給出一些跨不同任務的訓練示例提供了一個公平的設置來比較機器和人類的表現。?
創建此 benchmark 的目標之一是創建一種標準化方法來評估 NLU 任務的少樣本學習方法。現在出現了各種各樣的 NLU 任務方法;許多方法依賴于大型的預訓練自編碼、自回歸和 seq2seq 模型。為了適應不同的模型類型和句子分類之外的更廣泛的任務集,作者將 CLUES 中的所有任務(包括句子分類任務)作為“sets of spans”提取任務;其中模型輸出一組文本 span。這使我們能夠為基準中包含的多個任務(例如句子分類、問答和命名實體識別)提供一種新穎的統一度量標準。?
在 CLUES benchmark 中包含任務的關鍵標準之一是人類和機器性能之間存在明顯差距。作者提供了所有任務的人類和機器性能結果。人工評估表明,當僅給出少數標記示例甚至是在僅給出任務描述的零樣本設置時,人們能夠以高水平的性能執行所有任務。
為了評估機器性能,作者考慮了一系列模型架構、一系列模型大小以及一組可選的適應技術。適應技術包括經典的全模型 fine-tuning、新穎的特定任務 prompt-tuning 和 GPT-3 情況下的上下文學習。雖然出現了一些有趣的性能模式,但關鍵結果是當前模型與 CLUES 基準中任務的人類水平性能之間存在顯著差距,這突出表明需要研究改進 NLU 任務的小樣本學習。作者希望這種基準將鼓勵 NLU 研究方法,這些方法可以通過少量示例學習和泛化到新任務。
CLUES
作者嘗試對不同的少樣本學習方法提供標準化的評估,并證明人類和機器在 NLU 任務的少樣本學習性能方面存在顯著差距。作者的目標是促進在彌合這一差距方面取得進展。特別是,CLUES 旨在評估少樣本設置中跨不同 NLU 任務的通用模型。值得注意的是,作者沒有解決其他研究的主題的多任務或跨任務少樣本學習。
2.1 Benchmark Composition?
對于每種任務 ,包含一個自然語言任務描述 ,帶有不同數量訓練樣本的訓練集 ,以及一個測試集 。每個訓練樣本包括一段自然語言文本,一個自然語言問題以及可以為空的一系列候選答案(span)。在實驗中每個任務的訓練樣本為 30,當然也可以執行 10-shot 20-shot 的設置。
2.2 Task Selection?
首先作者根據下表制定的原則來選擇任務:
選擇的任務如下:
作者將這組任務分為三個不同的類別,即分類、序列標記和機器閱讀理解,以涵蓋廣泛的 NLU 場景。作者通過將它們視為“span 提取”問題,進一步將所有這些任務統一為單一格式。?
對于分類,作者同時關注句子分類和句子對分類;與實例級分類任務相反,序列標注由于專注于 token 級分類和不同 token 之間的依賴關系而更具挑戰性。作者考慮了 NER 任務;最后,作為任務的第三個子類,作者考慮機器閱讀理解(MRC)。MRC 任務需要機器根據給定的上下文回答問題。考慮到自然語言理解和(常識)知識推理的要求,這是一項具有挑戰性的任務。
2.3 Task Formulation
遵循表 2 中的任務制定原則,接下來描述作者如何從可用數據集中采樣和修改示例以形成我們的基準。
Unifying NLU Tasks with a Single Format?預訓練的語言模型通過在編碼器頂部添加特定于任務的預測層,利用單個基礎編碼器來執行所有任務。這需要針對不同任務格式的不同預測層,例如,用于問答和其他 MRC 任務的 span 解碼器,以及用于文本分類任務的分類層。這進一步需要針對不同任務的不同訓練策略。
為了應對這些挑戰,作者將所有任務格式統一為給定問題和上下文作為輸入的一組 span 提取任務,其中該集合也可能為空。span 將從上下文或問題中提取。雖然像 MNLI 或 SQuAD 這樣的大多數任務都有唯一的跨度(即大小為 1 的集合)作為答案,但其他像 CoNLL03 這樣的任務也可以有一個空集或一組超過 1 個元素的集作為答案。
Sampling of Training and Test Data?在這個 benchmark 中,作者對少樣本學習能力感興趣,因此我們只需要足夠的數據來可靠地估計它們的性能。為此,作者為每個任務使用現有的數據集,并使用帶標簽的樣本來適應設置。
值得注意的是,為了為這個基準建立一個真正的小樣本學習設置,我們不包括任何任務的單獨驗證集。這是為了防止用戶使用驗證集進行訓練,這會極大地改變可用監督和模型性能的數量 ,并相應地使不同模型的比較變得困難。
鑒于大型預訓練模型在不同隨機種子和訓練示例的小樣本設置中的性能差異很大,我們為滿足上述子集包含標準的每個樣本提供五個不同的訓練分割。
Other sampling strategies?除了隨機抽樣,作者還考慮通過對抗性擾動上下文/提示或通過選擇與參考模型(例如 BERT 或 RoBERTa)相關的難題來創建更困難的任務版本。然而,作者沒有采用這些方法,原因如下:
1)我們觀察到,來自這種對抗方法的擾動示例通常是不自然的,人類無法閱讀。
2)對抗性擾動和選擇都需要參考模型,這違反了我們在表中的模型不可知任務制定原則。
2.4 Evaluation Metric
因為作者將所有任務統一為 span 提取,因此作者設計了一個統一 p,r 度量標準,可用于評估基準中的所有任務:
p,a 分別表示模型預測的 span 集合以及對應的 groud-truth 答案集合;函數 p,r?分別表示準確率和召回率;這個指標?S1?根據元素之間的精確字符串匹配計算基于實例的分數。對于由多個實例組成的測試集,整體 S1score 計算為所有實例的 S1scores 的平均值。對于分類任務,預測和真實答案集由單個元素組成,這使得 S1 分數相當于此類任務的準確性。在整篇論文中,我們報告了 benchmark 中所有任務的 S1scores。
Human Performance
人類表現已經在幾個 NLU 任務上得到了報告,然而,用于估計人類表現的注釋方法在向人類提供多少關于任務的信息方面并不總是一致的。我們估計人類的表現,使其在不同的任務中保持一致,并且與機器學習模型在少樣本設置中的表現相當。我們為非專家注釋者提供了一些示例和簡短的任務描述。在零樣本場景中,注釋者沒有收到任何示例。
3.1 Human Performance Estimates
為了計算人類的表現,我們測量了每個注釋者的表現,并報告了三個眾包工作者的平均值和標準差。我們的測試集上的人類表現如下表所示:
與零樣本設置相比,SST 和 ReCoRD 任務在少樣本設置中沒有表現出任何改進或改進非常小。這意味著人類注釋者主要依靠他們自己的知識和簡短的任務描述來完成這些任務。?
另外,雖然平均而言,在大多數任務的訓練步驟中,隨著更多數據,人類表現往往會提高,但我們觀察到,在某些情況下,人類表現往往會下降當訓練示例的數量從 20 增加到 30 時,任務會變得很有趣。這是一個有趣且令人驚訝的觀察結果,并表明需要進行額外的研究來更好地了解人類如何利用所提供的示例以及是否有一點,超過這一點,提供更多示例可能會導致沒有甚至是負值。
Results and Discussions
根據上述實驗結果,作者的一些結論:
Fine-tuning strategies: 對于分類任務(SST-2 和 MNLI),我們發現基于提示的微調在整體上明顯優于其經典的微調對應物。然而,這種優勢在兩種策略表現相似的完全監督設置中消失了。
Model capacity: 在具有足夠訓練數據的全監督設置中,不同模型的性能通常隨著模型大小的增加而提高。然而,對于小樣本設置,我們沒有觀察到模型大小對經典模型性能的任何一致趨勢或影響。
Training labels: 小樣本設置和完全監督設置之間存在顯著的性能差距。對于經典的微調,增加了一些訓練樣例并沒有一致的性能提升趨勢;而有限的額外標記示例可以通過基于提示的微調來提高模型性能——這表明后一種方法在為小樣本設置利用額外的標記示例方面更有效。
Model variance: 對于經典的微調,觀察到更大的模型在不同的訓練分割上具有顯著更高的性能差異,BERTBase(考慮的最小模型)在所有任務中表現出最小的差異 6。有趣的是,對于基于提示的微調,較大的模型具有較小的方差,因為它們可能會通過預訓練的語言建模頭更有效地學習。
Task difficulty: 對于像 SST-2 這樣的簡單任務,基于提示的調優和基于 GPT-3 的上下文學習的少鏡頭性能非常具有競爭力,并且接近(甚至優于)人類性能。相比之下,對于 NER 和 MRC 等更復雜的任務,大多數不同大小的預訓練模型獲得接近隨機的性能。因此,為此類任務開發更有效的小樣本學習方法非常重要。
Model vs. human performance: 在完全監督的設置中,所有模型在所有考慮的任務上都大大超過了人類的表現。然而,在少鏡頭設置中,模型性能與人類性能之間存在巨大差距。唯一的例外是 SST-2,其中很少有 GPT-3 的表現優于人類。我們仍然保留這項任務,因為我們觀察到人類與所有其他模型之間存在顯著的少鏡頭性能差距。此外,對于更復雜的任務,如 NER 和 MRC,這種差距更為明顯,其中人類僅使用少數示范性示例就表現得很好,而所有 PLM 的表現都接近隨機。
Conclusion and Future Work
這項工作的動機是缺乏標準化的基準和原則來評估少樣本 NLU 模型。更重要的是,該 benchmark 旨在公平比較人類和機器在不同 NLU 任務上的表現,給出一些示范性示例。?
在這項工作中,我們的重點僅限于自然語言理解,我們只為人類和機器提供文本信息以進行性能比較。雖然人類從包括視覺線索和自然語言在內的多種模態中獲取知識,但預訓練的語言模型只能訪問文本信息。因此,這項工作的自然延伸是在多模態設置中對模型和機器的小樣本學習能力進行基準測試。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的NeurIPS 2021 | 微软研究院提出CLUES,用于NLU的少样本学习评估的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想拯救者无法开机 怎么装系统 联想拯救
- 下一篇: 怎么无损合并分区 无损合并分区的操作方法