當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python预处理标准化_tensorflow预处理：数据标准化的几种方法

發(fā)布時(shí)間：2023/12/3 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python预处理标准化_tensorflow预处理：数据标准化的几种方法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

tensorflow預(yù)處理：數(shù)據(jù)標(biāo)準(zhǔn)化的幾種方法

發(fā)布時(shí)間：2018-08-09 19:39,

瀏覽次數(shù)：1774

, 標(biāo)簽：

tensorflow

數(shù)據(jù)歸一化問題是數(shù)據(jù)挖掘中特征向量表達(dá)時(shí)的重要問題，當(dāng)不同的特征成列在一起的時(shí)候，由于特征本身表達(dá)方式的原因而導(dǎo)致在絕對(duì)數(shù)值上的小數(shù)據(jù)被大數(shù)據(jù)“吃掉”的情況，這個(gè)時(shí)候我們需要做的就是對(duì)抽取出來的features

vector進(jìn)行歸一化處理，以保證每個(gè)特征被分類器平等對(duì)待。下面我描述幾種常見的Normalization

Method，并提供相應(yīng)的python實(shí)現(xiàn)(其實(shí)很簡(jiǎn)單)：

1、(0,1)標(biāo)準(zhǔn)化：

這是最簡(jiǎn)單也是最容易想到的方法，通過遍歷feature

vector里的每一個(gè)數(shù)據(jù)，將Max和Min的記錄下來，并通過Max-Min作為基數(shù)(即Min=0，Max=1)進(jìn)行數(shù)據(jù)的歸一化處理：

LaTex：{x}_{normalization}=\frac{x-Min}{Max-Min}

Python實(shí)現(xiàn)：

def MaxMinNormalization(x,Max,Min): x = (x - Min) / (Max - Min); return x;

找大小的方法直接用np.max()和np.min()就行了，盡量不要用python內(nèi)建的max()和min()，除非你喜歡用List管理數(shù)字。

2、Z-score標(biāo)準(zhǔn)化：

這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard

deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布，即均值為0，標(biāo)準(zhǔn)差為1，這里的關(guān)鍵在于復(fù)合標(biāo)準(zhǔn)正態(tài)分布，個(gè)人認(rèn)為在一定程度上改變了特征的分布，關(guān)于使用經(jīng)驗(yàn)上歡迎討論，我對(duì)這種標(biāo)準(zhǔn)化不是非常地熟悉，轉(zhuǎn)化函數(shù)為：

LaTex：{x}_{normalization}=\frac{x-\mu }{\sigma }

Python實(shí)現(xiàn)：

def Z_ScoreNormalization(x,mu,sigma): x = (x - mu) / sigma; return x; def

get_train_data(batch_size=60,time_step=20,train_begin=0,train_end=5800):

batch_index=[] data_train=data[train_begin:train_end] #標(biāo)準(zhǔn)化

np.mean(data_train,axis=0) 計(jì)算每一列的均值,np.std(data_train,axis=0)每列的標(biāo)準(zhǔn)差

normalized_train_data=(data_train-np.mean(data_train,axis=0))/np.std(data_train,axis=0)

print "normalized_train_data:\n",normalized_train_data

這里一樣，mu(即均值)用np.average()，sigma(即標(biāo)準(zhǔn)差)用np.std()即可。

3、Sigmoid函數(shù)

Sigmoid函數(shù)是一個(gè)具有S形曲線的函數(shù)，是良好的閾值函數(shù)，在(0, 0.5)處中心對(duì)稱，在(0,

0.5)附近有比較大的斜率，而當(dāng)數(shù)據(jù)趨向于正無窮和負(fù)無窮的時(shí)候，映射出來的值就會(huì)無限趨向于1和0，是個(gè)人非常喜歡的“歸一化方法”，之所以打引號(hào)是因?yàn)槲矣X得Sigmoid函數(shù)在閾值分割上也有很不錯(cuò)的表現(xiàn)，根據(jù)公式的改變，就可以改變分割閾值，這里作為歸一化方法，我們只考慮(0,

0.5)作為分割閾值的點(diǎn)的情況：

LaTex：{x}_{normalization}=\frac{1}{1+{e}^{-x}}

Python實(shí)現(xiàn)：

def sigmoid(X,useStatus): if useStatus: return 1.0 / (1 + np.exp(-float(X)));

else: return float(X);

這里useStatus管理是否使用sigmoid的狀態(tài)，方便調(diào)試使用。

參考

https://blog.csdn.net/kryolith/article/details/39770187

總結(jié)

以上是生活随笔為你收集整理的python预处理标准化_tensorflow预处理：数据标准化的几种方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：电脑显示器480(电脑显示器48cm*2
下一篇： Zb快捷键(zb快捷键如何设置)