论文浅尝 - ICML2020 | 拆解元学习:理解 Few-Shots 任务中的特征表示
論文筆記整理:申時榮,東南大學(xué)博士生。
來源:ICML2020
鏈接:http://arxiv.org/abs/2002.06753
元學(xué)習(xí)算法會生成特征提取器,這些特征提取器在進(jìn)行few-shot分類時就可以達(dá)到最新的性能。盡管文獻(xiàn)中有大量的元學(xué)習(xí)方法,但對于為什么生成的特征提取器表現(xiàn)如此出色的原因知之甚少。本文對元學(xué)習(xí)的基本機(jī)制以及使用元學(xué)習(xí)訓(xùn)練的模型與經(jīng)典訓(xùn)練的模型之間的差異有了更好的了解。在此過程中,本文針對元學(xué)習(xí)模型為何表現(xiàn)更好而提出了一些假設(shè)。除了可視化之外,本文還根據(jù)假設(shè)設(shè)計了一些正則化器,這些正則化器可改善幾次快照分類的性能。
1.元學(xué)習(xí)
?????? 元學(xué)習(xí)算法的目的是產(chǎn)生一個網(wǎng)絡(luò),該網(wǎng)絡(luò)可以使用很少的數(shù)據(jù)快速適應(yīng)新的類別。具體來說,元學(xué)習(xí)算法會找到可以在幾個優(yōu)化步驟和幾個數(shù)據(jù)點上進(jìn)行微調(diào)的參數(shù),以實現(xiàn)對任務(wù)Ti的良好概括,該任務(wù)Ti由來自分布和標(biāo)簽空間的少量數(shù)據(jù)樣本組成在訓(xùn)練期間沒有被看見。如果在看到Ti中n個類別中的每個類別的k個示例后,元學(xué)習(xí)算法必須適應(yīng)對Ti中的數(shù)據(jù)進(jìn)行分類,則該任務(wù)的特征為n-way,k-shot。
?????? 元學(xué)習(xí)方案通常依賴于帶有內(nèi)部循環(huán)和外部循環(huán)的雙層優(yōu)化問題。
外循環(huán)的迭代涉及首先對“任務(wù)”進(jìn)行采樣,該“任務(wù)”包括兩組標(biāo)記數(shù)據(jù):支持?jǐn)?shù)據(jù)Tsi和查詢數(shù)據(jù)Tqi。然后,在內(nèi)部循環(huán)中,使用支持?jǐn)?shù)據(jù)對要訓(xùn)練的模型進(jìn)行微調(diào)。最后,例程返回到外循環(huán),在該外循環(huán)中,元學(xué)習(xí)算法將查詢數(shù)據(jù)相對于預(yù)微調(diào)的權(quán)重的損失降至最低。通過微分內(nèi)環(huán)計算并更新網(wǎng)絡(luò)參數(shù)以使內(nèi)環(huán)微調(diào)盡可能有效,來執(zhí)行此最小化。
2.元學(xué)習(xí)有效性的解釋和可視化
實驗發(fā)現(xiàn),在所有情況下,元學(xué)習(xí)特征提取器均優(yōu)于相同體系結(jié)構(gòu)的經(jīng)典訓(xùn)練模型。全面的性能優(yōu)勢表明,元學(xué)習(xí)的功能在質(zhì)量上與傳統(tǒng)功能有所不同,并且從根本上來說優(yōu)于一次性學(xué)習(xí)。
2.1在特征空間中測量聚類
?????? 首先,測量不同的訓(xùn)練方法對特征表示的聚類程度:
?????? 直觀上來看,使用元學(xué)習(xí)后,內(nèi)部的聚類性能會更好,更有利于少樣本去構(gòu)建分類邊界。
2.2比較元學(xué)習(xí)和經(jīng)典訓(xùn)練模型的特征表示
| 通過LDA對特征空間進(jìn)行可視化: | |
可以看到,元學(xué)習(xí)和原型學(xué)習(xí)的方法,在語義空間中的分布更加合理。特征空間的聚類可以提高遷移的成功率。
2.3為參數(shù)空間中的任務(wù)損失尋找局部極小值簇
我們在特征空間圖中看到,由MAML特征生成的前兩個LDA組件在外觀上看起來是分開的類。現(xiàn)在,我們通過為預(yù)先訓(xùn)練的MAML模型以及相同體系結(jié)構(gòu)的經(jīng)典訓(xùn)練模型計算我們的正則化值,來量化MAML與轉(zhuǎn)移學(xué)習(xí)相比的班級分離程度。我們發(fā)現(xiàn),實際上,MAML表現(xiàn)出比相同體系結(jié)構(gòu)的經(jīng)典訓(xùn)練模型更差的特征分離。
3總結(jié)
在這項工作中,闡明了元學(xué)習(xí)網(wǎng)絡(luò)與經(jīng)過經(jīng)典訓(xùn)練的對等網(wǎng)絡(luò)之間的兩個關(guān)鍵區(qū)別。我們發(fā)現(xiàn)有證據(jù)表明,相對于類之間的差異,元學(xué)習(xí)算法將類中特征向量之間的差異最小化。將類內(nèi)特征的變化減至最少對few-shot性能至關(guān)重要。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 - ICML2020 | 拆解元学习:理解 Few-Shots 任务中的特征表示的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | DeCLUTR: 无监督文
- 下一篇: 论文浅尝 | 基于深度强化学习的远程监督