深度学习数学基础(三): 激活函数、正则化函数、损失函数、评价指标
目錄
1. 激活函數(shù)activation function
1.1 Sigmoid
1.2 tanh?
1.3 ReLU
1.4 Leaky ReLU
1.5 softmax
1.6?Gelu
2. 歸一化 normalization
2.1 Layer normalization
3. 損失函數(shù)
3.1?sigmoid函數(shù)
3.2 KL divergence loss
3.3 reconstruction loss
4. 評價指標
4.1 BLUE 和 ROUGE/ru??/
參考
??????????????
1. 激活函數(shù)activation function
作者:量子位
鏈接:https://www.zhihu.com/question/264189719/answer/649129090
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
?
你也許會注意到,在上面的神經(jīng)網(wǎng)絡中,每層的輸出都是在線性運算的結(jié)果后加上一個“過濾”。為什么要這樣處理呢?
現(xiàn)實中輸入和輸出之間的關(guān)系通常并非線性。如果神經(jīng)網(wǎng)絡的架構(gòu)僅由線性算法組成,那么它很難計算出非線性行為。所以我們要在每層的結(jié)尾加上一個激活函數(shù)。
【擴展學習:非線性函數(shù)】線性函數(shù)是一次函數(shù)的別稱,則非線性函數(shù)即函數(shù)圖像不是一條直線的函數(shù)。非線性函數(shù)包括指數(shù)函數(shù)、冪函數(shù)、對數(shù)函數(shù)、多項式函數(shù)等等基本初等函數(shù)以及他們組成的復合函數(shù)。
不同的激活函數(shù)有不同的特點。選取不當會導致梯度變得非常小,就是通常所說的梯度消失問題。
另外還存在一種相反的問題,就是梯度爆炸,當梯度值過大時,網(wǎng)絡會變得非常不穩(wěn)定。
常見的4種激活函數(shù)有:Sigmoid、tanh,ReLU、leaky ReLU,下面簡單討論一下它們的優(yōu)缺點。
1.1 Sigmoid
1/(1+e-x)
這個函數(shù)非常適合將輸入分為兩類。它的形狀很緩和,因此它的梯度能得到很好的控制。
主要的缺點是,在極端情況下,函數(shù)輸出變得非常平坦。這意味著它存在梯度消失的問題。
1.2 tanh?
(2 / (1+e-2x)) - 1
它與Sigmoid非常相似。函數(shù)曲線更陡峭,因此它的輸出也將更強大。缺點與Sigmoid類似。
1.3 ReLU
max(0,x)
如果輸入大于0,則輸出等于輸入。否則,輸出為0。
它的輸出范圍從0到無窮大。這意味著它的輸出可能會變得非常大,可能存在梯度爆炸問題。它還有個問題是左側(cè)完全平坦,可能導致梯度消失。
ReLU計算簡單,是神經(jīng)網(wǎng)絡內(nèi)層最常用的激活函數(shù)。
1.4 Leaky ReLU
將ReLU函數(shù)的前半段用0.01x代替。
1.5 softmax
e-x / Sum(e-x)
輸出范圍介于0和1之間。
Softmax將輸入歸一化為概率分布。它將輸入壓縮為0到1范圍,就像Sigmoid。
它通常在多分類場景中的輸出層,Softmax確保每個類的概率之和為1。
實際上,神經(jīng)網(wǎng)絡是一系列函數(shù)的組合,有一些是線性的,有一些是非線性的,它們共同組成一個復雜的函數(shù),將輸入數(shù)據(jù)連接到我們需要的輸出。
1.6?Gelu
2. 歸一化 normalization
2.1 Layer normalization
3. 損失函數(shù)
3.1?sigmoid函數(shù)
3.2 KL divergence loss
3.3 reconstruction loss
4. 評價指標
4.1 BLUE 和 ROUGE/ru??/
BLUE和ROUGE是機器翻譯的打分指標metrics
- BLUE,Bilingual Evaluation Understudy
- ROUGE, Recall-oriented Understudy for Gisting Evaluation
參考
[1] Congying Xia.?CG-BERT: Conditional Text Generation with BERT for Generalized?Few-shot Intent Detection.?arXiv:2004.01881v1 [cs.CL] 4 Apr 2020
總結(jié)
以上是生活随笔為你收集整理的深度学习数学基础(三): 激活函数、正则化函数、损失函数、评价指标的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识图谱基础知识(一): 概念和构建
- 下一篇: BERT论文阅读(二): CG-BERT