【TensorFlow】实现、训练并评估简单的回归模型和分类模型
1 回歸模型
回歸算法模型用來預測連續數值型,其目標不是分類值而是數字。為了評估這些回歸預測值是否與實際目標相符,我們需要度量兩者間的距離,打印訓練過程中的損失,最終評估模型損失。
這里使用的例子是從均值為1、標準差為0.1的正態分布中抽樣隨機數,然后乘以變量A,損失函數為L2正則損失函數。理論上,A的最優值是10,因為生成的樣例數據均值是1。回歸算法模型擬合常數乘法,目標值是10。
1.1 實現模型
# TensorFlow實現、訓練并評估回歸模型 import numpy as np import matplotlib.pyplot as plt import tensorflow as tf# 1.創建計算圖、數據集、變量和占位符。 # 創建完數據后,將它們隨機分割成訓練數據集和測試數據集。 # 不管算法模型預測的如何,我們都需要測試算法模型,這點相當重要。 # 在訓練數據和測試數據上都進行模型評估,以搞清楚模型是否過擬合: sess = tf.Session() x_vals = np.random.normal(1, 0.1, 100) y_vals = np.repeat(10., 100) x_data = tf.placeholder(shape=[None, 1], dtype=tf.float32) y_target = tf.placeholder(shape=[None, 1], dtype=tf.float32) batch_size = 25 train_indices = np.random.choice(len(x_vals),round(len(x_vals) * 0.8),replace=False) test_indices = np.array(list(set(range(len(x_vals))) -set(train_indices))) x_vals_train = x_vals[train_indices] x_vals_test = x_vals[test_indices] y_vals_train = y_vals[train_indices] y_vals_test = y_vals[test_indices] A = tf.Variable(tf.random_normal(shape=[1, 1]))# 2.聲明算法模型、損失函數和優化器算法。初始化模型變量A my_output = tf.matmul(x_data, A) loss = tf.reduce_mean(tf.square(my_output - y_target)) init = tf.global_variables_initializer() sess.run(init) my_opt = tf.train.GradientDescentOptimizer(0.02) train_step = my_opt.minimize(loss)1.2 訓練模型
# 3.迭代訓練模型 for i in range(100):rand_index = np.random.choice(len(x_vals_train),size=batch_size)rand_x = np.transpose([x_vals_train[rand_index]])rand_y = np.transpose([y_vals_train[rand_index]])sess.run(train_step,feed_dict={x_data: rand_x, y_target: rand_y})if (i + 1) % 25 == 0:print('Step # ' + str(i+1) + ' A = ' + str(sess.run(A)))print('Loss = ' + str(sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y})))1.3 評估模型
mse_test = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_test]),y_target: np.transpose([y_vals_test])}) mse_train = sess.run(loss, feed_dict={x_data: np.transpose([x_vals_train]),y_target: np.transpose([y_vals_train])}) print("MSE on test: " + str(np.round(mse_test, 4))) print("MSE on train: " + str(np.round(mse_train, 4))) //輸出結果 Step # 25 A = [[6.699071]] Loss = 12.127724 Step # 50 A = [[8.651022]] Loss = 2.3122501 Step # 75 A = [[9.345232]] Loss = 0.95689005 Step # 100 A = [[9.618834]] Loss = 1.1624776 MSE on test: 1.2316 MSE on train: 0.93312 分類模型
分類算法模型基于數值型輸入預測分類值,實際目標是1和0的序列。我們需要度量預測值與真實值之間的距離。分類算法模型的損失函數一般不容易解釋模型好壞,所以通常情況是看下準確預測分類的結果的百分比。
這里的例子是一個簡單的二值分類算法。從兩個正態分布N(-1, 1)和N(3, 1)生成100個數。所有從正態分布N(-1, 1)生成的數據標為目標類0;從正態分布N(3, 1)生成的數據標為目標類1。模型算法通過sigmoid函數將這些生成的數據轉換成目標類數據。換句話講,模型算法是sigmoid(x+A)sigmoid(x+A)sigmoid(x+A),其中,A是要擬合的變量,理論上A=?1A=-1A=?1。假設,兩個正態分布的均值分別是m1和m2,則達到A的取值時,它們通過?m1+m22-\frac{m1+m2}{2}?2m1+m2?轉換成到0等距的值。
2.1 實現模型
import numpy as np import matplotlib.pyplot as plt import tensorflow as tfsess = tf.Session()# 聲明批大小 batch_size = 25# 創建數據 x_vals = np.concatenate((np.random.normal(-1, 1, 50),np.random.normal(2, 1, 50))) y_vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50))) x_data = tf.placeholder(shape=[1, None], dtype=tf.float32) y_target = tf.placeholder(shape=[1, None], dtype=tf.float32)# 將數據分為 訓練集/測試集 = 0.8/0.2 train_indices = np.random.choice(len(x_vals), round(len(x_vals)*0.8), replace=False) test_indices = list(set(range(len(x_vals))) - set(train_indices)) x_vals_train = x_vals[train_indices] x_vals_test = x_vals[test_indices] y_vals_train = y_vals[train_indices] y_vals_test = y_vals[test_indices] A = tf.Variable(tf.random_normal(mean=10, shape=[1]))# 設置模型和損失函數,初始化變量并創建優化器 my_output = tf.add(x_data, A)xentropy = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=my_output, labels=y_target))my_opt = tf.train.GradientDescentOptimizer(0.05) train_step = my_opt.minimize(xentropy)init = tf.global_variables_initializer() sess.run(init)2.2 訓練模型
for i in range(1000):rand_index = np.random.choice(len(x_vals_train), size=batch_size)rand_x = [x_vals_train[rand_index]]rand_y = [y_vals_train[rand_index]]sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y})if (i + 1) % 200 == 0:print('Step # ' + str(i + 1) + ' A = ' + str(sess.run(A)))print('Loss = ' + str(sess.run(xentropy, feed_dict={x_data: rand_x, y_target: rand_y})))2.3 評估模型
# 評估模型 # 創建預測操作,用squeeze()使得預測值和目標值有相同的維度 # 用equal()函數檢測是否相等, # 把得到的true或false的boolean型張量轉化成float32型 # 再對其取平均值,得到一個準確度值。 y_prediction = tf.squeeze(tf.round(tf.nn.sigmoid(tf.add(x_data, A)))) correct_prediction = tf.equal(y_prediction, y_target) accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32)) acc_value_test = sess.run(accuracy, feed_dict={x_data: [x_vals_test], y_target: [y_vals_test]}) acc_value_train = sess.run(accuracy, feed_dict={x_data: [x_vals_train], y_target: [y_vals_train]}) print('訓練集準確率:' + str(acc_value_train)) print('測試集準確率:' + str(acc_value_test)) # 訓練集準確率:0.975 # 測試集準確率:0.92.4 可視化
A_result = sess.run(A) bins = np.linspace(-5, 5, 50) plt.hist(x_vals[0:50], bins, alpha=0.5, label='N(-1, 1)', color='green') plt.hist(x_vals[50:100], bins[0:50], alpha=0.5, label='N(2, 1)', color='skyblue') plt.plot((A_result, A_result), (0, 8), 'k--', linewidth=3, label = 'A = ' + str(np.round(A_result, 2))) plt.legend(loc = 'upper right') plt.show()
兩個正態分布的均值分別是-1和2,理論上最佳分割點是?2+(?1)2=0.5-\frac{2+(-1)}{2}=0.5?22+(?1)?=0.5,可以看出,這里的模型結果為0.51非常接近理論值。
3 總結
從上述兩個例子可以看出,模型評估是必不可少的,為了對模型進行評估需要先劃分數據集,除了訓練集和測試集外,有時還需要驗證集。模型訓練完成后可以得到準確率、MSE的結果,可以利用這些結果對機器學習模型進行評估。
總結
以上是生活随笔為你收集整理的【TensorFlow】实现、训练并评估简单的回归模型和分类模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 笔记:《幸福的方法》
- 下一篇: 聚类算法当中的K-means算法如何去做