自动机器学习(AutoML)最新综述
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第?115?篇文章作者丨王晉東
學校丨中國科學院計算技術研究所博士生
研究方向丨遷移學習和機器學習
這是一篇來自第四范式(4Paradigm)公司的關于 AutoML 的綜述文章。第四范式是目前國內關于 AutoML 研究較早較深入的公司之一。AutoML 全稱是 Automated Machine Learning,是 2014 年以來,機器學習和深度學習領域最炙手可熱的領域之一。
本篇綜述文章系統地對 AutoML 領域給出了綜述,從出現原因、問題定義、問題構成、基本策略、高級策略、應用、及總結等方面進行了全面的介紹。下面是一些簡要的筆記。
AutoML出現原因
機器學習的應用需要大量的人工干預,這些人工干預表現在:特征提取、模型選擇、參數調節等機器學習的各個方面。AutoML 試圖將這些與特征、模型、優化、評價有關的重要步驟進行自動化地學習,使得機器學習模型無需人工干預即可被應用。
AutoML問題定義
作者從機器學習和自動化兩個角度給出了定義:
1. 從機器學習角度講,AutoML 可以看作是一個在給定數據和任務上學習和泛化能力非常強大的系統。但是它強調必須非常容易使用;
2. 從自動化角度講,AutoML 則可以看作是設計一系列高級的控制系統去操作機器學習模型,使得模型可以自動化地學習到合適的參數和配置而無需人工干預。?
一個通用的 AutoML 定義如下:
AutoML的核心任務:?
Better performance?
No human assistance?
Lower computation budgets
AutoML問題構成
AutoML 的主要問題可以由三部分構成:特征工程、模型選擇、算法選擇。
特征工程
特征工程在機器學習中有著舉足輕重的作用。在 AutoML 中,自動特征工程的目的是自動地發掘并構造相關的特征,使得模型可以有最優的表現。除此之外,還包含一些特定的特征增強方法,例如特征選擇、特征降維、特征生成、以及特征編碼等。這些步驟目前來說都沒有達到自動化的階段。
上述這些步驟也伴隨著一定的參數搜索空間。第一種搜索空間是方法自帶的,例如PCA自帶降維參數需要調整。第二種是特征生成時會將搜索空間擴大。
模型選擇
模型選擇包括兩個步驟:選擇一個模型,設定它的參數。相應地,AutoML的目的就是自動選擇出一個最合適的模型,并且能夠設定好它的最優參數。
算法選擇
對于算法選擇,AutoML 的目的是自動地選擇出一個優化算法,以便能夠達到效率和精度的平衡。常用的優化方法有 SGD、L-BFGS、GD 等。使用哪個優化算法、對應優化算法的配置,也需要一組搜索空間。
從全局看?
將以上三個關鍵步驟整合起來看,一個完整的 AutoML 過程可以分成這么兩類:一類是將以上的三個步驟整合成一個完整的 pipeline;另一類則是 Network Architecture Search,能夠自動地學習到最優的網絡結構。在學習的過程中,對以上三個問題都進行一些優化。
基本的優化策略
一旦搜索空間確定,我們便可以實用優化器(optimizer)進行優化。這里,AutoML 主要回答三個問題:?
選擇的優化器可以作用在哪個搜索空間上?
它需要什么樣的反饋?
為了取得一個好的效果,它需要怎樣的配置??
簡單的優化搜索方式包括 Grid Search 和 Random Search。其中 Grid Search 被廣泛使用。?
從樣本中進行優化的方法主要包括啟發式搜索、derivative-free 優化、以及強化學習方法。梯度下降法是一種重要的優化策略。
評價策略
基本評價策略?
在設計評價策略時,AutoML 主要回答三個問題:?
這種策略能能夠快速進行評價嗎?
這種策略能夠提供準確的評價嗎?
這種策略需要怎樣的反饋??
基本的評價策略包括:?
1. 直接評價:直接在目標數據上進行評價,這是被使用最多的策略;
2. 采樣:當數據樣本量非常大時,采樣一些樣本進行評價;?
3. Early Stop:當遇到一些極端情況使得網絡表現效果不好時,可以考慮進行 early stop;
4. 參數重用:將之前學習過的參數重復利用在新任務上,這在兩種任務配置差不多時可用;
5. 共軛評價:對于一些可量化的配置,可以用共軛評價法進行。
高級評價策略?
高級評價策略主要包括兩種:Meta-learning 和 Transfer Learning。?
1. Meta-learning 法:從先前的學習經驗中提煉出基本的參數和結構配置;
2. Transfer learning 法:從先前的學習經驗中提煉出可以重用的一些知識。
應用
使用 Auto-sklearn 進行模型選擇;
使用強化學習進行 Neural Architecture Search;
使用 ExploreKit 進行自動特征構建。
展望
未來可能的研究方向:
提高AutoML的效率;
更明確的問題定義;
發展基本和高級的搜索策略;
找到更適合的應用。
本文由 AI 學術社區 PaperWeekly 精選推薦,社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區!
點擊標題查看更多論文解讀:?
T-GANs:基于“圖靈測試”的生成對抗模型
網絡表示學習綜述:一文理解Network Embedding
神經網絡架構搜索(NAS)綜述
從傅里葉分析角度解讀深度學習的泛化能力
深度解讀DeepMind新作:史上最強GAN圖像生成器
ACL2018高分論文:混合高斯隱向量文法
自然語言處理中的語言模型預訓練方法
EMNLP 2018論文解讀 | 對話生成 & 文本風格轉化
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的自动机器学习(AutoML)最新综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: T-GANs:基于“图灵测试”的生成对抗
- 下一篇: WGAN-div:默默无闻的WGAN填坑