非凸函数上,随机梯度下降能否收敛?能,但有条件,且比凸函数收敛更难
?作者?|?陳萍、杜偉
來源?|?機器之心
非凸優化問題被認為是非常難求解的,因為可行域集合可能存在無數個局部最優點,通常求解全局最優的算法復雜度是指數級的(NP 困難)。那么隨機梯度下降能否收斂于非凸函數?針對這一問題,眾多網友進行了一番討論。
在機器學習領域,我們經常會聽到凸函數和非凸函數,簡單來講,凸函數指的是順著梯度方向走,函數能得到最優解 ,大部分傳統機器學習問題都是凸的。而非凸指的是順著梯度方向走能夠保證是局部最優,但不能保證是全局最優,深度學習以及小部分傳統機器學習問題都是非凸的。
在尋求最優解的過程中,研究者通常采用梯度下降算法。近日,reddit 上的一個熱議帖子,帖子內容為「隨機梯度下降能否收斂于非凸函數?」
原貼內容包括:大量的研究和工作表明梯度下降算法可以收斂于(確定性)凸函數、可微和利普希茨連續函數:
然而,在非凸函數領域,基于梯度下降算法(例如隨機梯度下降)的收斂程度有多大,目前看來研究還不夠充分。例如,神經網絡中的損失函數幾乎是非凸的。非凸函數通常有鞍點(即損失函數的一階導數為 0 的點),我們可以將這些鞍點視為「陷阱」,鞍點的存在阻止梯度下降到最優點,因為梯度下降在導數為 0 時不能向前移動。
兩座山中間的鞍點(雙紐線的交叉點)
在機器學習、深度學習中使用的優化算法除了常見的梯度下降和隨機梯度下降,還包括其他版本,例如 Nesterov 動量、Adam、RMSprop 等幾種優化器,這些優化器旨在讓梯度遠離鞍點。對于這些算法,發帖者很熟悉,但 ta 比較感興趣的是隨機梯度下降算法本身的理論局限性有哪些?
在過去的幾周里,發帖人一直在閱讀有關這個主題的文章,但是理解其中一些結果所需的數學知識遠遠超出了 ta 的能力范圍。為了弄清這個問題,ta 也查閱了大量的文獻,以下是其中 2 篇:
文獻 1:Stochastic Gradient Descent for Nonconvex Learning without Bounded Gradient Assumptions
隨機梯度下降被大量應用于非凸函數,但研究者對非凸函數的隨機梯度下降的理論尚未完全了解(目前僅對凸函數的隨機梯度下降有了解);
現階段隨機梯度下降要求對梯度的一致有界性施加一個假設;
論文作者建立了非凸函數隨機梯度下降理論基礎,使有界假設可以消除而不影響收斂速度;
論文建立了應用于非凸函數隨機梯度下降收斂的充分條件和最優收斂速度。
文獻 2 :Stochastic Gradient Descent on Nonconvex Functions with General Noise Models
盡管隨機梯度下降的最新進展值得注意,但這些進展是建立在對正在優化的函數施加了某些限制(例如,凸性、全局利普希茨連續等)的基礎之上;
作者證明,對于一般類的非凸函數,隨機梯度下降迭代要么發散到無窮大,要么收斂到概率為 1 的靜止點;
作者進一步限制并證明,無論迭代是發散還是保持有限 —— 在隨機梯度下降的迭代中評估的梯度函數的范數以概率 1 收斂到零,并且符合預期;從而擴大了隨機梯度下降可以應用于的函數范圍,同時保持對其全局行為的嚴格保證。
發帖人表示:基于這些文獻,我們是否真的能夠證明(隨機)梯度下降有潛力在非凸函數上顯示類似的全局收斂性質,達到之前僅在凸函數上顯示收斂程度?
但是我們仍然有理由相信(隨機)梯度下降與凸函數相比在非凸函數上收斂更困難。
網友:問題改成「梯度下降在什么條件下會收斂于非凸函數」更好
針對發帖者的這一問題 —— 隨機梯度下降能否收斂于非凸函數?網友紛紛從自身經驗進行解答。機器之心從中挑選出了幾個獲贊較多的回復。
首先來看網友 @anonymousTestPoster 的回答。ta 表示,假設存在一個表現良好的非凸函數,可以參見 Issam Laradji 撰寫的《非凸優化》文檔。
地址:https://www.cs.ubc.ca/labs/lci/mlrg/slides/non_convex_optimization.pdf
如果存在向下延伸至 Hessian 矩陣的 Lipschitz 連續性限制,則文檔 19 頁中的 Thm 似乎表明可以不斷取得進展以接近頂點。
如果想要更復雜的函數,則幾乎可以肯定需要的函數是可微的或者利普希茨連續,否則只能選擇一些處處連續、無處可微的瘋狂函數(crazy function),例如 Weierstrass 函數。
所以,關于「隨機梯度下降能否收斂于非凸函數」這一問題,ta 認為在某些條件下「會」,因為很多非凸函數它們可能擾亂 wrt 可微性。在提出反例時,永遠不要低估數學家的想象力。
所以,ta 建議發帖者將問題改成「梯度下降在什么條件下會收斂于某類非凸函數」,然后將每類函數作為子問題進行研究,并消除打破傳統梯度下降方法的非凸函數反例。
接著來看網友 @astone977 指出了原貼內容中存在的一些問題。ta 表示,當發帖者認為神經網絡的誤差表面是非凸時,則損失函數也是非凸的。但是,MSE 等損失函數是凸函數。將一個非凸映射(神經網絡)應用于一個損失函數的輸入,可以創建一個非凸誤差表面。
如果我們將 MSE、BCE 等凸函數稱為損失函數,那么不應該使用相同的術語來描述一個神經網絡的非凸誤差表面。這在過去一直是造成混亂的根源,所以 ta 指了出來。
最后,網友 @Funktapus 也表示,如果發帖者只是在討論優化期間避免局部最小值,則這是優化領域一個普遍且非常古老的問題。通常而言,答案是「會」。
我們可以使用隨機方法來跳出小的局部最小值。蒙特?卡羅方法(Monte Carlo)是一種經典的方法。另一種方法是在開始梯度下降之前建立一個網格并找出全局最小值的大區域。
大家如何看待這個問題呢?感興趣的小伙伴請在留言區積極發言。
參考鏈接:https://www.reddit.com/r/MachineLearning/comments/slnvzw/d_can_stochastic_gradient_descent_converge_on/
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的非凸函数上,随机梯度下降能否收敛?能,但有条件,且比凸函数收敛更难的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ps背景如何填充颜色(ps怎么给背景填充
- 下一篇: ICLR 2022 | 香侬科技提出基于