探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的
?PaperWeekly 原創(chuàng) ·?作者|蘇劍林
單位|追一科技
研究方向|NLP、神經(jīng)網(wǎng)絡(luò)
剛看到一個有意思的結(jié)論:
對于任意實數(shù) x 及偶數(shù) n,總有 ,即 的偶次泰勒展開式總是正的。
下面我們來看一下這個結(jié)論的證明,以及它在尋找 softmax 替代品中的應(yīng)用。
證明過程
看上去這是一個很強的結(jié)果,證明會不會很復雜?其實證明非常簡單,記:
當 n 是偶數(shù)時,我們有 ,即整體是開口向上的,所以我們只需要證明它的最小值大于 0 就行了,又因為它是一個光滑連續(xù)的多項式函數(shù),所以最小值點必然是某個極小值點。那么換個角度想,我們只需要證明它所有的極值點(不管是極大還是極小)所對應(yīng)的函數(shù)值都大于 0。
求極值點的方法自然是求導,而 的一個美妙之處在于,它的導函數(shù)滿足:
極值點滿足 ,那也就是滿足 ,此時有:
因此我們就證明了 的所有極值點對應(yīng)的函數(shù)值都非負了,所以恒有 ,并且還可以檢驗 并不是極值點,所以 可以改為 >。證畢。
應(yīng)用場景
事實上,筆者是在 Arxiv 的新文章 Exploring Alternatives to Softmax Function?[1] 看到這個結(jié)論的。原論文給出了一個基于數(shù)學歸納法的比較復雜的證明,上述證明則是筆者自己構(gòu)思的,相對來說更加簡單明了一些。
那么原論文為什么要得到這個結(jié)論呢?顧名思義,是為了探究 softmax 的替代品。我們知道,在機器學習中常用的將輸出變?yōu)楦怕史植嫉姆椒ㄊ羌由?softmax:
而由于 n 是偶數(shù)是 ,并且 在一定范圍內(nèi)還是 的近似,所以將 換成 也可以作為合理的歸一化函數(shù):
原論文做了幾個實驗,表明 比常規(guī)的 softmax 有一定的提升:
▲ softmax與其泰勒展開近似的效果比較
稍加評述
然而,在筆者看來,這個實驗結(jié)果很難有什么說服力,畢竟所用的 baseline 效果太低了(都 2020 年了,你好歹跑個 ResNet 吧?)。此外,原論文也沒有提供關(guān)于這個替代品的一些直觀理解,純粹是做了簡單的實驗然后說它 work 了,實在是過于粗糙。
不過,盡管原論文有諸多不足之處,筆者認為其提出的 倒是真的有可能是有效的。從 softmax 到 的過程,實際上是將激活函數(shù)從指數(shù)函數(shù)換成了多項式函數(shù),這兩者有什么區(qū)別呢?
我們知道 |x| 比較大的時候, 會增加/衰減得很快,這直接導致了 softmax 經(jīng)常給出的置信度過高的現(xiàn)象(概率值非 0 即 1),而相對來說,多項式函數(shù)的增長沒有那么猛,不容易出現(xiàn)置信度過高問題,從而沒那么容易過擬合。
類似的改動也出現(xiàn)在經(jīng)典的降維方法 t-SNE 中,t-SNE 的前身是 SNE,SNE 就是構(gòu)造了類似 softmax 的指數(shù)形式的概率分布,然后被發(fā)現(xiàn)有“Crowding 問題”(參考最小熵原理:“物以類聚”之從圖書館到詞向量),最后 t-SNE 將指數(shù)換成二次函數(shù)就好很多了,感覺 跟 t-SNE 的思想有一定的相通之處。
文章小結(jié)
本文的主要目的是介紹“ 的偶次泰勒展開式總是正的”這個頗有意思的結(jié)論,并且順帶介紹了它在尋找 softmax 替代品中的應(yīng)用。
參考文獻
[1] https://arxiv.org/abs/2011.11538
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的探究Softmax的替代品:exp(x)的偶次泰勒展开式总是正的的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI工程师面试凭高频问题提前准备,命中率
- 下一篇: 酒鬼酒产地是哪儿