Lesson 14.1 数据归一化与Batch Normalization理论基础
Lesson 14.1 數據歸一化與Batch Normalization理論基礎
??數據歸一化是機器學習領域的一種對數據處理的常規方式。在傳統機器學習領域,由于各特征的量綱不一致,可能出現建模過程中量綱較大的特征得不到有效學習的情況,而通過歸一化處理之后的數據可以統一放縮在一個區間內,從而避免的各量綱的學習偏差問題,并且我們發現,歸一化處理之后的數據能夠能夠提升模型訓練效率、加快模型收斂速度、提升模型穩定性。當然,在傳統機器學習領域,有很多需要確保模型可解釋的情況,而對數據進行歸一化處理會降低模型本身的可解釋性。
??而在深度學習領域,正如上一節所論述的一樣,將數據處理成Zero-centered Data,將能夠有效確保模型各層學習的有效性,緩解梯度消失和梯度爆炸的情況發生,并且深度學習并不要求可解釋性,因此數據標準化并不存在太多障礙。
??當然,深度學習的數據歸一化和經典機器學習的歸一化有較大差別,但本質上理論是相通的,本節先從經典機器學習的歸一化算法開始討論,再逐步過渡到深度學習的數據歸一化方法。
??深度學習中歸一化是一種通用的方法,深度學習所有模型都能歸一化
一、經典機器學習的歸一化算法
??經典機器學習領域的數據歸一化算法主要有兩種,分別是0-1標準化(Max-Min Normalization)和Z-Score標準化。二者使用效果差別不大,并且都是逐列對輸入的數據進行處理。
1.經典機器學習歸一化方法回顧
1.1 0-1標準化方法
??0-1標準化是最簡單也是最容易想到的方法,同時也是經典機器學習領域最常用的標準化方法。該方法通過在輸入特征中逐列遍歷其中里的每一個數據,將Max和Min的記錄下來,并通過Max-Min作為基數(即Min=0,Max=1)進行數據的歸一化處理,基本公式為:
xnormalization=x?MinMax?Min{x}_{normalization}=\frac{x-Min}{Max-Min}xnormalization?=Max?Minx?Min?也就是每一列中的元素減去當前列的最小值,再除以該列的極差。PyTorch中我們可以借助張量的廣播運算、通過以下方法對數據進行0-1標準化。
至此,我們將t的兩列都放縮到了0-1區間內,從而保證了模型對各列的學習狀況不受量綱影響。不過在深度學習領域,我們更希望輸入模型的數據是Zero-Centered Data,此時Z-Score標準化會更加合適。
1.2 Z-Score標準化
??和0-1標準化不同,Z-score標準化利用原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。同樣是逐列進行操作,每一條數據都減去當前列的均值再除以當前列的標準差。很明顯,通過這種方法處理之后的數據是典型的Zero-Centered Data,并且如果原數據服從正態分布,通過Z-Score處理之后將服從標準正態分布。Z-Score標準化計算公式如下:
xnormalization=x?μσ{x}_{normalization}=\frac{x-\mu }{\sigma }xnormalization?=σx?μ?其中μ\muμ代表均值,σ\sigmaσ代表標準差。當然,我們也可通過如下方式對張量進行Z-Score標準化處理。
能夠看出,上述處理之后得到的數據就是Zero-Centered Data。為了后續實驗需要,我們可以將Z-Score標準化過程封裝為一個函數,方便調用:
def Z_ScoreNormalization(data):stdDf = data.std(0)meanDf = data.mean(0)normSet = (data - meanDf) / stdDfreturn normSet一種更加嚴謹的做法,是在分母項、也就是標準差上加上一個非常小的常數μ\muμ,從而使得分母恒大于0。
2.經典機器學習歸一化算法在深度學習中的實踐
??既然Z-Score能夠創建Zero-Centered Data,如果我們建模過程中,提前將數據進行Z-Score標準化處理,能否提升模型性能呢?
-
在訓練集上訓練,測試集上測試
??在建模之前,首先需要明確兩個問題,其一是標簽是否需要標準化(如果是回歸類問題的話),其二是測試集的特征是否需要標準化?
??首先,標簽是否標準化對建模沒有影響,因此一般我們不會對標簽進行標準化;其次,在實際模型訓練過程中,由于數據集要劃分成訓練集和測試集,因此一般來說我們會在訓練集的特征中逐行計算其均值和標準差,然后進行模型訓練,當輸入測試集進行測試時,我們會將在訓練集上計算得出的每一列的均值和標準差帶入測試集并對測試集特征進行標準化,然后再帶入進行模型測試。值得注意的是,此時進行標準化時涉及到的每一列的均值和方差也相當于是模型參數,必須從訓練集上得出,不能借助測試集的數據。 -
Z-Score建模實驗
??接下來,我們嘗試先對數據進行標準化,再帶入模型進行訓練,借此測試Z-Score標準化對深度學習模型的實際效果。注意,此處簡化了在訓練集上計算均值方差再帶入測試集進行操作的流程,直接采用全部數據集進行數據歸一化操作。
然后對比兩種模型的運算結果
plt.plot(list(range(num_epochs)), train_l, label='train_mse') plt.plot(list(range(num_epochs)), train_l_norm, label='train_norm_mse') plt.legend(loc = 1) plt.plot(list(range(num_epochs)), test_l, label='test_mse') plt.plot(list(range(num_epochs)), test_l_norm, label='test_norm_mse') plt.legend(loc = 1)值得注意的是,此處我們統一先對模型進行Xavier參數初始化計算然后再使用數據歸一化方法,是為了避免不同隨機數種子對參數初始化取值的影響,但實際上目前很多神經網絡用到的歸一化方法(后面會談到)在最終效果上都能讓模型擺脫參數初始化的限制,也就是能夠讓模型在不使用初始化方法的情況下仍然可以進行快速和穩定的收斂。
??從模型最終運行結果能夠看出,經過Z-Score歸一化的數據收斂速度更快,在某些情況下也能獲得更好的結果,當然我們也能通過微觀層面、通過查看各層梯度值來觀察數據歸一化的效果,驗證歸一化是否有助于各層梯度保持平穩。
# 設置隨機數種子 torch.manual_seed(24) # 關鍵參數 lr = 0.03 num_epochs = 5# 實例化模型 sigmoid_model3 = Sigmoid_class3() sigmoid_model3_norm = Sigmoid_class3() # 進行Xavier初始化 for m in sigmoid_model3.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) # Parameter containing: # tensor([[ 0.8590, -0.6975], # [ 0.1762, -0.7295], # [ 0.5904, 0.3405], # [-0.7281, -0.0867]], requires_grad=True) # Parameter containing: # tensor([[-0.5633, 0.1303, -0.5045, 0.3393], # [-0.7823, 0.2525, 0.7264, 0.5470], # [ 0.7246, -0.0357, -0.6253, 0.1108], # [-0.3299, -0.5521, 0.5269, 0.1061]], requires_grad=True) # Parameter containing: # tensor([[ 0.4386, 0.8341, 0.1352, -0.8077], # [ 0.2441, 0.4123, 0.0232, -0.7393], # [ 0.8236, -0.8110, 0.6018, -0.0395], # [ 0.6284, -0.7337, 0.8656, 0.2915]], requires_grad=True) # Parameter containing: # tensor([[0.9703, 0.6656, 0.8244, 0.3487]], requires_grad=True) for m in sigmoid_model3_norm.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight) # Parameter containing: # tensor([[-0.2945, 0.9237], # [ 0.7596, -0.6387], # [-0.0023, -0.3001], # [-0.9573, 0.0271]], requires_grad=True) # Parameter containing: # tensor([[-0.5126, -0.1948, -0.2230, 0.7317], # [ 0.3355, -0.7767, 0.4933, 0.5650], # [ 0.3391, 0.3513, 0.3385, 0.0232], # [-0.7911, -0.4265, 0.5541, 0.2841]], requires_grad=True) # Parameter containing: # tensor([[ 0.6846, 0.2079, 0.8334, -0.3973], # [-0.4116, 0.3072, -0.4335, 0.3472], # [ 0.0940, -0.3414, 0.2058, 0.8155], # [ 0.4660, -0.8182, 0.3571, 0.5147]], requires_grad=True) # Parameter containing: # tensor([[ 0.7612, -0.2644, 0.8887, 0.8696]], requires_grad=True)# sigmoid_model2模型訓練 train_l, test_l = model_train_test(sigmoid_model3, train_loader,test_loader,num_epochs = num_epochs, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)# sigmoid_model2_norm模型訓練 train_l_norm, test_l_norm = model_train_test(sigmoid_model3_norm, train_loader_norm,test_loader,num_epochs = num_epochs, criterion = nn.MSELoss(), optimizer = optim.SGD, lr = lr, cla = False, eva = mse_cal)weights_vp(sigmoid_model3, att="grad") weights_vp(sigmoid_model3_norm, att="grad")
??由此能看出,使用歸一化后的數據進行建模的模型,前幾輪迭代時梯度相對平穩。我們知道,當各層梯度更加均衡時模型學習能力更強,進而能夠加快模型收斂速度,甚至提升模型準確率。因此我們也可以推斷,歸一化是通過維持梯度平穩來加快收斂速度、提升模型準確率的。
注意,此處所介紹的結論:歸一化的實際作用是維持梯度平穩,也可以算是近幾年的研究成果,我們只是相當于創造了實驗驗證了該結論。在早些年,人們人為歸一化能夠提升模型效果的根本原因是能夠一定程度上消除數據偏移問題,相關討論后面會介紹。
3.Z-Score數據歸一化的局限
??不過,畢竟Z-Score初始化并不是為深度學習算法量身設計的數據歸一化方法,在實際神經網絡建模過程中,Z-Score的使用還是存在很多局限,具體來說主要有以下兩點。
3.1 Zero-Centered特性消失
??盡管Z-Score歸一化能夠一定程度保證梯度平穩,進而提升模型收斂速度甚至是提升模型效果,但是,和Xavier初始化方法一樣,由于是對于“初始值”的修改,因此也會存在隨著迭代次數增加就逐漸破壞了Zero-Centered Data這一條件的問題,當然,該問題也可視作經典機器學習歸一化方法應用于深度神經網絡時的局限。
??并且,隨著參數和輸入數據都回到不可控狀態,各層的梯度又將回到不可控的狀態,而所謂的控制梯度平穩性也將無從談起。例如,我們嘗試創建相對梯度容易不平穩的tanh激活函數模型,查看迭代5輪和40輪時各層梯度變化情況。
能夠看出,剛開始時梯度較為平穩,而迭代到后期時就出現了明顯的梯度爆炸現象。
3.2 Zero-Centered Data的作用局限
??除了輸入數據在迭代過程中會逐漸喪失Zero-Centered特性外,Z-Score標準化在應用到深度學習模型中,還會面臨一個更加嚴峻的問題——那就是Zero-Centered Data本身作用范圍也是有限的。我們哪怕能夠維持輸入數據的Zero-Centered特性,也很難保證只憑借這一點就能確保梯度平穩。
??在Lesson 13中,我們知道深度學習中保證各層梯度平穩,是確保模型能夠順利有效進行學習的關鍵,而所謂的梯度平穩,我們可以用Glorot條件來進行描述,即正向傳播過程中數據流經各層時輸入和輸出數據方差相同,反向傳播時數據流經各層前后該層梯度的方差相同。
??盡管此前我們一直強調零均值數據的良好特性,但歸根結底還是因為零均值數據在各層梯度計算過程中,可以使得激活函數導函數輸出結果盡可能大(ReLU激活函數時能夠避免Dead ReLU Problem),從而確保梯度計算的有效性。此處我們不妨回顧此前我們得出的三層神經網絡中各層梯度的計算公式:grad1=?loss?y^?w3?f(F(X?w1)?w2)?f(F(X?w1))?w2?f(X?w1)?Xgrad_1 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot f(F(X*w_1)) \cdot w_2 \cdot f(X * w_1) \cdot X grad1?=?y^??loss??w3??f(F(X?w1?)?w2?)?f(F(X?w1?))?w2??f(X?w1?)?Xgrad2=?loss?y^?w3?f(F(X?w1)?w2)?F(X?w1)grad_2 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot F(X * w_1) grad2?=?y^??loss??w3??f(F(X?w1?)?w2?)?F(X?w1?)grad3=?loss?y^?F(F(X?w1)?w2)grad_3 = \frac{\partial loss}{\partial \hat y} \cdot F(F(X * w_1) * w_2) grad3?=?y^??loss??F(F(X?w1?)?w2?)由于各層的梯度實際上受到激活函數、各層輸入數據和參數三者共同影響,因此哪怕我們將所有的輸入數據都調整為零均值的,各層梯度的計算結果還是有可能因為受到其他因素影響導致不平穩。因此,一味追求輸入數據的Zero-Centered或許并不是最好的選擇。
值得注意的是,由于數據的平移和放縮本身并不影響數據分布,因此理論上是可以對每一層接收到的數據進行歸一化的。
4.保證梯度平穩的第二條道路:輸入數據調整
??不過呢,盡管Z-Score作用有限,但對輸入數據進行有效處理,卻是至關重要的深度學習模型優化方向。
??根據上述各層梯度計算公式,不難發現,影響梯度平穩性的核心因素有三個,其一是各層的參數、其二是各線性層接收到的數據、其三則是激活函數。關于參數的優化我們在Lesson 13中已經進行了詳細的介紹,簡單來說就是通過Glorot條件巧妙設置參數初始值,從而使得各層梯度在計算過程中盡可能更加平穩。但由于參數本身的特殊性,我們只能設置其初始值,一旦模型開始迭代,參數就將開始“不受控制”的調整,初始值的設置是很難長期保證梯度平穩的,這點和Z-Score對數據進行初始化所存在的問題一致。
??除了參數調整外,在確保梯度平穩性上我們就只剩下選擇激活函數和調整輸入數據兩條路可走。關于新興激活函數的選擇我們將在下一節課進行詳細討論,但對于輸入數據的優化,目前來看,應用最為廣泛、并且被驗證的實踐效果最好的數據歸一化方法,是由Sergey loffe和Christian Szegedy在2015年發表的《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出的一種方法,該方法通過修改每一次帶入訓練的數據分布(每一個Batch)的數據分布,來提升模型各層梯度的平穩性,從而提升模型學習效率、提高模型訓練結果。由于是修改每一個Batch的數據分布,因此該方法也被稱為Batch Normalization(BN),小批量數據歸一化方法。不過需要注意的是,盡管BN也是一種數據歸一化方法,但深度學習領域的歸一化方法和經典機器學習的歸一化方法卻存在很大區別,經典機器學習的歸一化方法主要是為了消除不同特征的量綱影響而對各列的數據分布進行修改,并且并非所有機器學習模型都要采用數據歸一化方法才能進行有效建模,而深度學習歸一化方法的目標則是為了確保模型能夠進行有效訓練為目的,是一種適用于所有模型的一種必要的優化方法。同時,盡管BN是一種針對小批數據的數據歸一化方法,但我們不能將其簡單想象成就是針對每個小批數據進行類似傳統機器學習的歸一化操作,并且在使用層面也會相對較難。在學習BN的過程中,首先我們需要了解其背后的優化原理,然后再掌握在PyTorch中的實踐方法。
z—score標準化兩個問題(1)創建的數據分布,會伴隨著迭代次數的增加,改變原來調整的數據分布(2)所創建的zero—center這樣的分布不一定是最好的分布,而batch normalization對剛才兩個問題有了很好的解決(1)能圍繞每一個線性層的數據進行調整,而不只是原始數據進行調整(2)靈活調整分布,自適應調整分布不一定是zero—center分布
二、Batch Normalization基礎理論
??盡管目前來看,Batch Normalization已經是被驗證的、行之有效的模型優化手段,但BN的誕生及其有效性的原理證明,卻有一段有趣的歷史。
??根據《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中的觀點,作者認為在深度神經網絡模型訓練過程中,容易出現一種名為內部協方差偏移(Internal Covariate Shift、ICS)的問題,該問題會導致模型性能下降,而為了解決該問題,作者提出了BN方法,并在各種實驗中驗證了BN對模型效果提升的有效性。
??然而,到底什么是ICS,作者在原文中只給出了簡單的描述而未給出嚴格定義,并且對于BN可以提升模型性能方面,作者表示根本原因是因為BN能夠消除ICS。有趣的是,盡管這套理論沒有在原文中給出更加嚴謹的說明和論證,但由于BN方法本身在應用實踐中效果很好,因此大多數情況下人們并未對原文中論述不嚴謹的理論推導部分進行深究。直到2018年,來自MIT的研究團隊發表論文,《How Does Batch Normalization Help Optimization?》,研究人員表示,通過一些列嚴謹的實驗可以證明,BN方法對模型優化的有效性和原論文中所描述的消除ICS沒有任何關系,甚至在某些場景下BN還會加劇模型的ICS,而到底是什么讓BN如此有效,MIT的研究團隊最終也沒有給出嚴謹的理論證明。如此一來BN方法就成了基礎理論“不成立”但實際上很好用的一項優化方法,而對于BN的有效性的理論研究,也成為了諸多科研團隊的命題。
??不過,盡管BN有效性原理成謎,但MIT的研究團隊通過一系列的實驗,最終還是給出了一些BN有效性的理論推斷,他們判斷BN之所以有效,應該是和修改數據分布、從而使得梯度更加平穩有關,也就是該方法之所以能夠發揮作用,仍然可能和滿足了Glorot條件有關。因此,在介紹BN方法時,我們將不再討論BN是否能夠ICS這一命題,轉而探討是BN如何修正數據分布進而使得模型能夠更好滿足Glorot條件這一點入手,盡可能幫助學員建立對BN方法有效性的判別依據。
??深度學習作為“實證型”技術,在很多時候模型效果才是首要考慮因素,因此類似BN這種,雖然理論基礎不成立,但實踐效果很好的方法在深度學習領域是廣泛存在的,但是,這并不意味著我們可以不管不顧只討論怎么用而忽略背后的理論討論。對于一名合格的算法工程師,我們還是需要對諸多方法的使用及原理背景樹立正確的認知。
1.歸一化方法與數據分布的相互獨立性
??首先,我們需要知道,任何歸一化的本質都是對數據進行平移和放縮,所謂平移,就是指數據集每一列統一加上或減去某一個數,在Z-Score中就是每一列減去該列的均值,而所謂的放縮,就是指數據集中每一列數據統一除以或乘以某一個數,在Z-Score中就是每一列除以當前列的標準差。而數據的平移和放縮,是不會影響數據特征的分布情況的。
# 設置隨機數種子 torch.manual_seed(420) # 創建數據集 features, labels = tensorGenCla(num_class= 2, deg_dispersion=[6, 2])# 查看其分布 plt.scatter(features[:, 0], features[:, 1], c = labels)
對原數據進行歸一化
然后對比查看歸一化前后數據集分布
plt.subplot(121) plt.scatter(features[:, 0], features[:, 1], c = labels) plt.title('features distribution') plt.subplot(122) plt.scatter(f[:, 0], f[:, 1], c = labels) plt.title('f distribution')
我們發現,歸一化前后數據分布不變,但數據在空間中的坐標的絕對值發生變化。當然,我們也可以對原始數據進行任意的平移和放縮,查看是否會改變原數據的分布。
??而比較重要的一點是,數據的分布其實就代表著數據背后的規律,我們使用模型去捕捉數據規律,其實就是對數據分布情況進行學習。因此,數據歸一化不修改數據分布,是我們使用歸一化方法的基本前提,否則,一旦數據歸一化方法會修改數據分布,則相當于是人為破壞了數據原始規律,這將會對后續的模型學習造成巨大的影響。
在任何情況下,機器學習建模都應避免人為修改數據規律,因為一旦加入人為創造的規律,算法也會不加區分的進行學習。
2.歸一化與仿射變換
??需要補充的第二點基礎理論就是,歸一化的本質仍然是對數據進行仿射變換。根據此前介紹,數據的仿射變換用矩陣形式來進行表示就是:x^=x?w+b\hat x = x * w + bx^=x?w+b其中x是原數據,w是參數矩陣,b是截距,x^\hat xx^是經過變換之后的數據。此處以Z-Score為例,探討歸一化操作轉化為仿射變換的方法。
# 創建一組數據 f = torch.arange(1, 5).reshape(2, 2).float() f #tensor([[1., 2.], # [3., 4.]]) # 對其進行Z-Score歸一化 Z_ScoreNormalization(f) #tensor([[-0.7071, -0.7071], # [ 0.7071, 0.7071]])在歸一化運算時,我們進行了如下操作:
x?mean(x)std(x)\frac{x-mean(x)}{std(x)}std(x)x?mean(x)?當然,該過程也可以寫成如下表達式:
xstd(x)?mean(x)std(x)=x?1std(x)?mean(x)std(x)=x?γ+β\frac{x}{std(x)} - \frac{mean(x)}{std(x)} = x \cdot\frac{1}{std(x)}- \frac{mean(x)}{std(x)} = x \otimes \gamma + \betastd(x)x??std(x)mean(x)?=x?std(x)1??std(x)mean(x)?=x?γ+β其中?\otimes?表示逐個元素相乘,γ和β\gamma 和\betaγ和β為指代參數。
而原數據每列的標準差分之一和原始數據的每一列相乘,可以通過如下矩陣相乘形式計算得出:
rm = torch.diag(r) # 構建以每列標準差分之一為對角線元素的對角矩陣 rm #tensor([[0.7071, 0.0000], # [0.0000, 0.7071]]) torch.mm(f, rm) # 計算得出每一列除以標準差之后的結果 #tensor([[0.7071, 1.4142], # [2.1213, 2.8284]]) f / f.std(0) #tensor([[0.7071, 1.4142], # [2.1213, 2.8284]]) b = -(f.mean(0) / f.std(0)) b #tensor([-1.4142, -2.1213]) torch.mm(f, rm) + b #tensor([[-0.7071, -0.7071], # [ 0.7071, 0.7071]]) Z_ScoreNormalization(f) #tensor([[-0.7071, -0.7071], # [ 0.7071, 0.7071]])??至此,我們可以發現,在歸一化的過程中,放縮的部分可以通過矩陣乘法來完成,假設原數據為一個m*n的數據集,則令其左乘一個對角線元素為原數據集每一列放縮參數的矩陣即可完成放縮,而平移部分則更加簡單,令數據集加上由每一列平移幅度所構成的向量即可完成平移。
??而如果歸一化是一種仿射變換,并且歸一化的計算過程可以用矩陣運算來完成,那么就有兩方面的直接影響,其一,PyTorch中對數據的仿射變換是用線性層完成的,既然歸一化是一種特殊的仿射變換,歸一化的操作也可以由一個特殊的線性層來完成,并且和所有的線性層一樣,歸一化層也可以放置在任何隱藏層前后;其二,在具體實現層面上,在仿射變換中我們是可以設置參數、并且通過構建損失函數再利用梯度下降進行求解的,那么對于歸一化這種特殊的仿射變換,平移和放縮的尺度是否可以簡單設計成一個參數,然后帶入模型進行訓練求解呢?
??當然是可以的,并且這么做是非常有必要的!如前文所述,將數據轉化為Zero-Centered Data并非最好的選擇,如果可以通過梯度下降求解出最佳放縮和平移的尺度,大概率會比簡單使用Z-Score將其放縮為均值為0、方差為1的數據分布效果更好(至少不會差)。另外,我們將歸一化操作看成一個特殊的線性層,也將極大拓展歸一化操作可以出現的位置。在經典機器學習領域,對數據的歸一化只停留在輸入數據時對數據進行統一處理,但正如前文所述,如果只對初始輸入數據進行歸一化,那么在迭代過程中,數據會逐漸失去初始化之后所帶來的良好特性,此時如果我們可以像添加線性層一樣,在任意隱藏層前后添加歸一化層,則可以在迭代的每個環節對數據進行歸一化,如此一來就能避免迭代過程中數據逐漸偏移所導致的梯度不平穩問題。
??而實際上,BN就是這么做的。在BN中,以每次輸入的小批數據為訓練數據,我們將平移和放縮的尺度視作參數,通過帶入模型進行訓練,最終得出最佳平移和放縮尺度,并且這種BN歸一化層會可以出現在任意隱藏層的前后,為數據傳輸的每一步進行歸一化操作。具體原理如下節所示。
當然,這里需要補充一點。將平移和放縮的尺度視為參數,則代表我們不是朝著零均值的方向去進行歸一化處理,實際上在參數化尺度的時候,參數迭代的方向自然就變成了盡量保持各層梯度平穩,這也是參數化歸一化尺度的有效性的最佳證明。相關數學原理可參考上述兩篇論文,課上不對此進行拓展。
實際上,均值為0、方差為1的歸一化卻是也不一定是最優選擇,根據各層梯度計算公式不難看出,最佳的數據歸一化方法并不是絕對的0均值1方差,而是能夠使得最終各變量相乘之后梯度保持均衡。grad1=?loss?y^?w3?f(F(X?w1)?w2)?f(F(X?w1))?w2?f(X?w1)?Xgrad_1 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot f(F(X*w_1)) \cdot w_2 \cdot f(X * w_1) \cdot X grad1?=?y^??loss??w3??f(F(X?w1?)?w2?)?f(F(X?w1?))?w2??f(X?w1?)?Xgrad2=?loss?y^?w3?f(F(X?w1)?w2)?F(X?w1)grad_2 = \frac{\partial loss}{\partial \hat y} \cdot w_3 \cdot f(F(X*w_1)*w_2) \cdot F(X * w_1) grad2?=?y^??loss??w3??f(F(X?w1?)?w2?)?F(X?w1?)grad3=?loss?y^?F(F(X?w1)?w2)grad_3 = \frac{\partial loss}{\partial \hat y} \cdot F(F(X * w_1) * w_2) grad3?=?y^??loss??F(F(X?w1?)?w2?)
3.Batch Normalization基本流程
??有了基本認知之后,接下來我們來討論Batch Normalization的基本實現流程。作為針對數據歸一化方法,Batch Normalization的理論實現流程看似更加復雜,但實際上,和所有的歸一化方法一樣,BN做的也就是對輸入數據進行平移和放縮。只不過BN的平移和放縮分為兩個階段,第一個階段是進行Z-Score處理,也就是將輸入數據的均值平移至0點,并將輸入數據的方差放縮至1;第二階段則是在此基礎上在對數據的均值進行參數平移(加上一個通過訓練、也就是梯度下降算法算得的參數),并對其方差進行參數(另一個通過模型訓練、也就是梯度下降算得的參數)放縮。具體數學過程如下:
Stage 1:Z-Score放縮
μB=1mB∑i=1mBx(i)\mu_B = \frac{1}{m_B}\sum^{m_B}_{i=1}x^{(i)}μB?=mB?1?i=1∑mB??x(i)δB2=1mB∑i=1mB(x(i)?μB)2\delta^2_B=\frac{1}{m_B}\sum^{m_B}_{i=1}(x^{(i)}-\mu_B)^2δB2?=mB?1?i=1∑mB??(x(i)?μB?)2x^(i)=x(i)?μBδB2+?\hat{x}^{(i)} = \frac{x^{(i)}-\mu_B}{\sqrt{\delta^2_B+\epsilon}}x^(i)=δB2?+??x(i)?μB??
??其中μB\mu_BμB?代表輸入的小批數據均值,δB2\delta^2_BδB2?代表輸入的小批數據方差,x^\hat{x}x^代表Z-Score歸一化后的數據結果,和此前一樣,Z-Score計算過程為減去每一列的元素減去該列的均值除以該列的修正后的標準差(方差加上一個極小的數使得其不為零)。第一階段的參數都是可以計算或者人工設置的,其中均值和方差都是簡單計算即可得出,而修正項?\epsilon?則是可以手動設置的。
Stage 2:帶參數的平移和放縮
z(i)=γ?x^(i)+βz^{(i)}=\gamma \otimes \hat{x}^{(i)}+\betaz(i)=γ?x^(i)+β??和第一階段參數可以簡單計算得出不同,二階段的參數,也就是γ\gammaγ和β\betaβ都是模型參數,在實際模型訓練過程中是需要作為模型整體參數的一部分,帶入損失函數、進而通過梯度下降計算得出的。而二階段的實際處理數據過程,則是首先對一階段放縮之后每一列的x^\hat{x}x^乘以一個固定的γ\gammaγ在加上一個固定的β\betaβ。需要強調的是,上述公式是針對列進行處理,即每一列都乘以一個γ\gammaγ再加上一個β\betaβ,并不是所有數據都乘以一個γ\gammaγ再加上一個β\betaβ,也不是每一個數據都乘以一個γ\gammaγ再加上一個β\betaβ。
- BN的兩個階段之間關系
??細心的同學不難發現,實際上BN的第一個階段和第二個階段都是在做同一件事——都是在對數據進行平移和放縮,甚至當γ=δB2+?,β=μB\gamma=\sqrt{\delta^2_B+\epsilon}, \beta=\mu_Bγ=δB2?+??,β=μB?,二階段處理結果將還原回原始輸入數據,也就是z(i)=x(i)z^{(i)}=x^{(i)}z(i)=x(i)
??既然兩個階段做的相同的事情,為何不能直接合并為一個階段。從理論上來說,我們可以將上述過程合并為:
z(i)=γ?x^(i)+β=γ?x(i)?μBδB2+?+β=γδB2+??x(i)+(β?γ?μBδB2+?)=γ^?x(i)+β^\begin{aligned} z^{(i)} & = \gamma \otimes \hat{x}^{(i)}+\beta \\ & = \gamma \otimes \frac{x^{(i)}-\mu_B}{\sqrt{\delta^2_B+\epsilon}} + \beta \\ & = \frac{\gamma}{\sqrt{\delta^2_B+\epsilon}}\otimes x^{(i)}+(\beta-\frac{\gamma \cdot \mu_B}{\sqrt{\delta^2_B+\epsilon}}) \\ & = \hat\gamma \otimes {x}^{(i)}+\hat \beta \\ \end{aligned} z(i)?=γ?x^(i)+β=γ?δB2?+??x(i)?μB??+β=δB2?+??γ??x(i)+(β?δB2?+??γ?μB??)=γ^??x(i)+β^????但在實際建模過程中我們并沒有這么做,實際PyTorch模型訓練完成后輸出的參數結果也是原始的γ和β\gamma和\betaγ和β。這里我們可以這樣理解:BN方法無疑會增加模型計算量,而提前對數據進行Z-Score處理,就相當于是先選擇了一組初始的γ和β\gamma和\betaγ和β對數據進行處理(此時γ0=1δB2+?,β0=?μBδB2+?\gamma_0=\frac{1}{\sqrt{\delta^2_B+\epsilon}}, \beta_0 = \frac{-\mu_B}{\sqrt{\delta^2_B+\epsilon}}γ0?=δB2?+??1?,β0?=δB2?+???μB??),然后再此基礎之上進行帶參數的平移和縮放,二階段平移和縮放的參數是需要經過梯度下降迭代計算得出,而選擇在γ0和β0\gamma_0和\beta_0γ0?和β0?基礎上進行梯度下降計算,就相當于選擇了一組初始值點,而該初始值點能夠有效提升迭代收斂速度。
好處:
(1)而選擇在γ0和β0\gamma_0和\beta_0γ0?和β0?基礎上進行梯度下降計算,就相當于選擇了一組初始值點,而該初始值點能夠有效提升迭代收斂速度
(2)計算小批數據的均值和方差,由此來計算出整個測試集的均值和方差,如果沒有stage1,就沒法計算整體的均值和方差
- 數據歸一化與仿射變換
??根據前文論述我們知道,數據歸一化本質也是對數據進行一種特殊的仿射變換,并且在PyTorch中,仿射變換是能通過矩陣運算來實現。既然如此,我們在PyTorch中進行BN歸一化的操作其實就可以視作添加了一層特殊的線性層來進行計算,其中線性層的參數就是γ和β\gamma和\betaγ和β,實際的計算過程如下:x?diag(γδB2+?)+(β?γ?μBδB2+?)x * diag(\frac{\gamma}{\sqrt{\delta^2_B+\epsilon}}) +(\beta-\frac{\gamma \cdot \mu_B}{\sqrt{\delta^2_B+\epsilon}})x?diag(δB2?+??γ?)+(β?δB2?+??γ?μB??)也就相當于x?w+bx*w+bx?w+b
這里需要注意的是,γ和β\gamma和\betaγ和β都是列向量,和μ、δ\mu、\deltaμ、δ一樣,每個元素對應輸入數據的一列。
并且我們需要知道兩種特殊情況,其一,當γ=1,β=0\gamma = 1, \beta=0γ=1,β=0時,上述仿射變換過程就退化為Z-Score變換;其二,當γ=δB2+?,β=μB\gamma=\sqrt{\delta^2_B+\epsilon}, \beta=\mu_Bγ=δB2?+??,β=μB?時,就相當于退回原始數據集。
4.Batch Normalization方法有效性認知
??接下來,我們從理論角度,簡單分析BN方法的實際作用。我們知道,一旦γ和β\gamma和\betaγ和β訓練完成、也就是數值確定,經過BN處理完的數據將朝向方差為γ\gammaγ、均值為β\betaβ的分布方向靠攏。也就是BN作為一種特殊的仿射變換,會調整經過BN層的數據分布,而數據分布的均值和方差又是由模型訓練得到的,并不一定像Z-Score一樣是調整為0均值1方差的數據分布,因此我們可以理解為BN在調整數據分布時其實是朝著最有利于提升模型效果的方向調整,或者說,朝著滿足損失函數能取得更小數值的方向調整。在這個過程中,調整后的數據分布可以以任何形態出現,并不局限于0均值和1方差的數據分布,這一點是BN方法和Z-Score方法最核心的區別,當然,如果我們反向論證,如果最終模型算得最佳分布不是0均值1方差的分布,那么也就說明Z-Score歸一化方法并不是適用于當前模型的最佳歸一化方法。
??另外,我們前面也討論過,對數據進行歸一化處理,也就是放縮和平移,其實是不會改變數據分布規律的,因此我們可以在模型訓練的任何時候、任意階段對數據進行放縮和平移。而BN方法本身又是一種數據分布自適應的方法,可以根據實際情況訓練出最合適的數據分布,因此我們可以將BN方法放置于神經網絡的各個線性層前后的,協助模型即時調整數據在每一層的分布。當然,就像此前說的一樣,其實我們也可以對每一層數據進行Z-Score處理,但可想而知,效果應當不如數據分布自適應的BN方法好。
??如果這種自適應的數據分布調整是朝向損失函數取值更小的方向調整,并且數據分布直接影響的就是各線性層的梯度平穩行,而梯度平穩又是保證模型有效性的根本原因之一,據此我們或許也可以從理論上推導出這種數據分布上的自適應的調整確實是朝向保證模型梯度平穩的方向調整的。
5.Batch Normalization的訓練和測試過程
??理論階段的最后一部分,我們補充一下關于BN方法在測試集上的使用過程。
??對于傳統機器學習的歸一化方法來說,在訓練集上進行訓練、在測試集上進行測試的流程相對比較清晰,用于測試集歸一化的參數是從訓練集當中計算而來的,也就是說在對測試集進行歸一化時,均值和方差都是訓練集中數據計算結果。當然,對于BN方法來說,這一點仍然沒變,只不過由于BN方法是針對每一個小批數據進行歸一化,并且計算過程也是使用了整體均值和方差的無偏估計,盡管當模型訓練完成時將算出γ和β\gamma和\betaγ和β的值,但當帶入測試數據進行向前傳播時,均值和方差仍然是需要計算的數值。這里由于測試集可能是一條條數據進來,因此我們是不能使用測試集的均值和方差對整體進行無偏估計的。為解決該問題,BN方法一般都會配套一個記錄訓練數據整體均值和方差的方法,并且為了做到訓練階段和測試階段使用不同的計算方式,在PyTorch中調用BN方法時也會涉及到關于模型狀態切換的相關內容。
??以上就是Batch Normalization的基礎理論介紹,下一節開始我們將進行Batch Normalization在PyTorch中的實現方法的介紹。
總結
以上是生活随笔為你收集整理的Lesson 14.1 数据归一化与Batch Normalization理论基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Lesson 13.5 Xavier方法
- 下一篇: Lesson 14.3 Batch No