Mixup vs. SamplePairing:ICLR2018投稿论文的两种数据增广方式
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?47?篇文章關于作者:陳泰紅,小米高級算法工程師,研究方向為人臉檢測識別,手勢識別與跟蹤。
■?論文 | mixup: Beyond Empirical Risk Minimization
■ 鏈接 | https://www.paperweekly.site/papers/1605
論文動機
神經網絡訓練需要海量的人工標注數據集,一般的數據增廣方式是裁剪、翻轉以及旋轉、尺度變化。之前在 arXiv 上看到過 IBM的一篇文章?SamplePairing:針對圖像處理領域的高效數據增強方式,該論文主要是關于數據增強方式,沒有公式沒有網絡架構,只通過簡單的相加求平均值方式。
而在最近公布的 ICLR 2018 入圍名單中,另一篇數據增廣相關論文脫穎而出,而 SamplePairing 出局。仔細閱讀 Mixup 的論文,發(fā)現(xiàn)它其實是對?SamplePairing 的更進一步延伸。
名詞解釋
Empirical Risk Minimization (ERM):機器學習的經驗風險最小化,ERM 策略認為,經驗風險最小化的模型是最優(yōu)化的模型。可參照李航的《統(tǒng)計學習方法》[1]?進行理解。?
Βeta分布:既然概率論中的貝塔分布,是指一組定義在是指一組定義在(0,1)區(qū)間的連續(xù)概率分布,有兩個參數 α 和 β。論文中 α 和 β 相等。Βeta 分布的定義、概率密度函數和性質可參考 PRML [2]。?
為了理解 Beta 分布,使用 Python 可視化 Beta 的模型。論文選擇的超參數是 α=0.2 和 0.4,此處主要觀察 α 變化對應的概率分布變化。
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 1, 100)
a_array = [1,0.5 ,0.1 ,0.2, 0.01,0.001]
for ?a in a_array:
? ?plt.plot(x, beta.pdf(x, a, a), lw=1, alpha=0.6, label='a=' + str(a) + ',b=' + str(a))
plt.legend(frameon=False)
plt.show()
從上圖可以看出,α 趨近于 0 時,概率分布趨近于 x-0 和 x=1 兩種情況,在論文中代表 ERM。
模型細節(jié)
SamplePairing
SamplePairing 的實現(xiàn)很簡單,兩幅圖片直接像素相加求平均,監(jiān)督的 label 不變。但是在訓練過程中,先用 ILSVRC 數據集普通數據增廣方式,完成多個 epoch 后間歇性禁止 SamplePairing,在訓練損失函數和精度穩(wěn)定后,禁止 SamplePairing 進行微調。
個人認為相當于隨機引入噪聲,在訓練樣本中人為引入誤導性的訓練樣本。
mixup
△?mixup實現(xiàn)公式、Python源代碼和可視化實現(xiàn)
其中 (xi, yi) 和 (xj, yj) 是訓練集隨機選取的兩個數據,λ ∈ [0,1],λ ~ Beta(α,α)。
mixup 擴展訓練集分布基于這樣的先驗知識:線性特征向量的混合導致相關目標線性混合。混合超參數 α 控制特征目標之間的插值強度,α→0 時表示 ERM。
mixup 模型實現(xiàn)方式簡單,PyTorch 7 行代碼即可實現(xiàn)。上圖中的可視化表明,mixup 導致決策邊界模糊化,提供更平滑的預測。
實驗
論文的實驗過程很豐富,包括 CIFAR-10,CIFAR-100,和 ImageNet-2012,隨機噪音測試,語音數據,facing adversarial examples 黑盒攻擊和白盒攻擊,UCI 數據集,以及穩(wěn)定訓練 GAN 網絡。
對于具有代表性的 ImageNet-2012,Top-1 的精度至少提高 1.2%。
討論
論文提出,在訓練過程中,隨著 α 增加,訓練誤差越來越大,而在驗證驗證集測試中泛化誤差反而減少。這與論文提出的假設相同:mixup 隱含控制模型的復雜度。但是論文沒有提出 bias-variance trade-off 的理論解釋。?
論文提出一些進一步探索的可行性:
mixup 是否可以應用在其他監(jiān)督學習問題,比如回歸和結構化預測。mixup 可能在回歸問題容易實現(xiàn),結構化預測如圖像分割等問題,實驗效果不明顯。
mixup 是否可以用于半監(jiān)督學習、無監(jiān)督學習或強化學習。當然作者是假設,希望有后來者證明 mixup 是理論可行的。?
mixup 來自 MIT 和 Facebook AI Research。ICLR 是雙盲評審,官網上的匿名評審意見普遍認為 mixup 缺乏理論基礎,但是實驗效果具有明顯優(yōu)勢。筆者個人認為在 mixup 基礎上,還有很多坑可以填。
參考文獻
[1] 《統(tǒng)計學習方法》,李航
[2] Pattern Recognition and Machine Learning, Bishop
本文由 AI 學術社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區(qū)!
點擊以下標題查看相關內容:?
SamplePairing:針對圖像處理領域的高效數據增強方式
#榜 單 公 布?#
2017年度最值得讀的AI論文 | NLP篇 · 評選結果公布
2017年度最值得讀的AI論文 | CV篇 · 評選結果公布
??我是彩蛋?
解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區(qū)賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發(fā)布?
請?zhí)砑有≈治⑿?#xff08;pwbot01)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
? ? ? ? ???
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
總結
以上是生活随笔為你收集整理的Mixup vs. SamplePairing:ICLR2018投稿论文的两种数据增广方式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 香港大学顾佳涛:非自回归神经机器翻译 |
- 下一篇: Github 最新 AI 开源项目了解一