利用一个样本估计类别数据分布,9行代码提高少样本学习泛化能力
??作者|楊朔
學校|悉尼科技大學博士生
研究方向|少樣本學習,噪音標簽學習
介紹一篇我們剛剛發表在 ICLR 2021 Oral 上的一篇少樣本學習工作,簡單有效。
論文標題:
Free Lunch for Few-shot Learning: Distribution Calibration
論文鏈接:
https://openreview.net/forum?id=JWOiYxMG92s?
代碼鏈接:
https://github.com/ShuoYang-1998/ICLR2021-Oral_Distribution_Calibration
簡介
從極少量樣本中學習到泛化性能良好的模型是很困難的,因為極少的樣本形成的數據分布往往與真實數據分布相差較大,在偏斜的數據分布上訓練模型會導致嚴重的過擬合現象并嚴重破壞模型的泛化能力(見圖1)。
在本文中我們嘗試從數據分布估計的角度去緩解少樣本學習中的過擬合現象。我們嘗試利用一個樣本去估計該類別的整體數據分布,如果該分布估計足夠準確,也許可以彌合少樣本學習和傳統多樣本學習的差距。
方法
直接從一個樣本中估計整體數據分布是非常困難的,需要很強的先驗去約束分布估計的過程。我們觀察到如果假設每一個類別的特征都服從高斯分布,那么相似類別的分布統計量相似度非常高,如表1。
從直觀的角度理解,一個類別的 mean 代表該類別的 general appearance,variance 代表該類別某屬性的變化范圍(顏色、形狀、姿勢等)。而相似的類別(如貓和老虎)具有相似的整體外觀和相似的屬性變化范圍。
受此啟發,我們提出了通過遷移基類(base class)的分布統計量的方式對少樣本類別的數據分布做‘矯正’(calibration)。具體來說,我們首先為每一個 base class i 計算一個 mean 和 covariance:
計算好的 和 儲存起來當作 base class 分布先驗。然后在進行少樣本分類時我們利用 base class 的分布先驗去修正少樣本類別的數據分布:
得到修正后的少樣本類別的分布 和 后,我們便可以從修正后的分布中直接采樣:
然后利用采樣得到的數據和 support set 共同訓練分類器:
至此,該算法結束。流程如圖:
實驗
我們的算法無需任何可訓練參數,可以建立在任何已有的特征提取器和分類器之上,并極大的提高模型的泛化能力。代碼已開源,核心代碼只有 9 行(evaluate_DC.py 中的第 10-19 行)。我們的方法搭配最簡單的線性分類器便可以達到非常高的 1-shot 分類性能。實驗結果如圖:
我們分布估計的可視化如圖:
總結
在本工作中我們思考了少樣本學習和多樣本學習的核心差距,并提出通過分布矯正(估計)的方式彌合這種差距。在該工作的后續期刊拓展版本中我們從generalization error bound的角度為‘基于數據分布估計的少樣本學習’這一類方法建立了理論框架,并證明了當數據分布足夠準確時,少樣本學習和多樣本學習的泛化誤差等價。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的利用一个样本估计类别数据分布,9行代码提高少样本学习泛化能力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 沙漠之鹰的坦克怎么画
- 下一篇: 从太湖服务区到蒋介石的故居多少公里