软件研发工程师转行机器学习之路
機器學習 Machine Learning
- 1 基礎
- 1.1 機器學習概念
- 1.2 學科定位
- 1.3 機器學習定義
- 1.4 什么是學習
- 1.5 深度學習
- 1.5 監督學習-分類
- 1.6 監督學習-回歸
- 1.7 非監督學習
- 1.8 機器學習步驟框架
- 2 基本概念
- 3 監督學習-分類
- 3.1 決策樹
- 3.1.1 機器學習中分類和預測算法的評估
- 3.1.2 什么是決策樹/判定樹?
- 3.1.2 熵(entropy)概念
- 3.1.3 決策樹歸納算法(ID3)
- 3.1.4 樹葉剪枝(避免overfitting)
- 3.1.5 決策樹的優點
- 3.1.6 決策樹的缺點
- 3.1.7 代碼實現
- 3.2 鄰近取樣
- 3.2.1 最鄰近規則分類(K-Nearest Neighbor) KNN算法
- 3.2.2 算法詳述
- 3.2.3 關于距離衡量方法
- 3.2.4 算法評價
- 3.2.5 KNN算法應用
- 3.2.6 Iris(虹膜)數據集介紹
- 3.2.7 代碼實現
- 3.3 支持向量機
- 3.3.1 原理簡介
- 3.3.2 定義與公式建立
- 3.3.3 SVM算法特性
- 3.3.4 線性不可分情況
- 3.3.5 具體實現
- 3.4 神經網絡算法
- 3.4.1 算法詳述
- 3.4.2 設計神經網絡結構
- 3.4.3 Backpropagation算法
- 3.4.4 非線性轉化方程(Non-linear transformation function )
- 3.4.5 神經網絡算法應用
- 4 監督學習-回歸
- 4.1 簡單線性回歸
- 4.1.1 前提介紹
- 4.1.2 簡單線性模型舉例
- 4.2 多元回歸分析(Multiple Regression)
- 4.3 非線性回歸-logistic regression
- 4.3 回歸中的相關度和R平方值
- 5 非監督學習
- 5.1 聚類(Clustering):k-means算法
- 5.2 聚類(Clustering):層次聚類
- 6 小結
- 機器學習(Machine Learning)
1 基礎
基礎知識(Basic Concepts)
訓練集,測試集,特征值,監督學習,非監督學習,分類,回歸
1.1 機器學習概念
- 多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度等多門學科。
- 專門研究計算機怎樣模擬和實現人類的學習行為,以獲取新的知識和技能,重新組織新的知識結構使之不斷改善自身的性能
1.2 學科定位
- 人工智能(Artificial Intelligence,AI)的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,主要方法是歸納、綜合而不是演繹。
1.3 機器學習定義
- 探究和開發一系列算法來如何使計算機不需要通過外部明顯的指示,而可以自己通過數據來學習和建模,并且利用建好的模型和新的輸入來進行預測的學科。
- 一門不需要外部程序指示,而讓計算機有能力自我學習的學科。
- 機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善算法的性能。
- 機器學習是對能通過經驗自動改進的計算機算法的研究。
1.4 什么是學習
- 針對經驗E(Experience)和一些列的任務T(Task)和一定表現的衡量P(performe),如果隨著經驗的積累,針對定義好的任務T可以提高表現P,說明計算機具有學習能力。
- 下棋、語音識別、自動駕駛、語言翻譯、計算機視覺、推薦系統、無人機、識別垃圾郵件、人臉識別、推薦系統
1.5 深度學習
- 深度學習是機器學習延伸出來的一個新領域,由以人腦結構為啟發的神經網絡算法為起源,加之模型結構的增加發展,并伴隨大數據和計算能力的提高而產生的一系列新的算法。
- 深度學習作為機器學習中延伸出來的一個領域,被應用在圖像處理和計算機視覺,自然語言處理以及語音識別等領域。自2006年至今,學術界和工業界合作在深度學習方面的研究與應用取得了突破性的進展。以ImageNet為數據庫的經典圖像中的物體識別競賽為例,擊敗了所有傳統算法,取得了前所未有的精確度。
1.5 監督學習-分類
監督學習(Supervised Learning):分類(Classification)
- 決策樹(Decision Tree) ,銀行信用自動評估系統
- 鄰近取樣(Nearest Neighbor) ,人臉識別
- 支持向量機(Support Vector Machine) ,圖片中的紅眼檢測,結腸癌晚期分類
- 神經網絡算法(Neural Network),手寫數字識別,圖片分類
1.6 監督學習-回歸
監督學習(Supervised Learning):回歸(Regression)
- 線性回歸(Linear Regression),銷量預測,價格預測
- 非線性回歸(Non-linear Regression),銷售預測,價格預測
1.7 非監督學習
非監督學習(Unsupervised Learning)
- K-mean算法聚類(Clustering),人臉分類
- hierarchical dustering算法聚類,人臉噪音移除
1.8 機器學習步驟框架
2 基本概念
- 基本概念:訓練集、測試集、特征值、監督學習、非監督學習、半監督學習、分類、回歸
- 概念學習是指從有關某個布爾函數的輸入輸出樣例中推斷出該布爾函數。
- 概念定義在實例(Instance)集合之上,這個集合表示為X。
- 待學習的概念或目標函數成為目標概念(Target Concept),記作做C。
- 訓練集(training set / data)/ 訓練樣例(training examples):用來進行訓練,也就是生產模型,或者算法的數據集
- 測試集(testing set / data)/ 測試樣例(testing example):用來專門進行測試已學習好的模型或者算法的數據集
- 特征向量(features/feature vector):屬性的集合,通常用一個向量來表示,附屬于一個實例
- 標記(label):C(x),實例類別的標記
- 正例:positive example
- 反例:negative example
- 分類(Classification):目標標記為類別型數據(category)
- 回歸(regression):目標標記為連續性數值(Continuous Numeric Value)
- 有監督學習(supervised learning):訓練集有類別標記(Calss Label)
- 無監督學習(unsupervised learning):無類別標記(Class Label)
- 半監督學習(semi-supervised learning):有類別標記訓練集+無類別標記訓練集
3 監督學習-分類
監督學習(Superviesd Learning):分類(Classification)
3.1 決策樹
決策樹(Decision Tree)
3.1.1 機器學習中分類和預測算法的評估
- 準確率
- 速度
- 強壯性
- 可規模性
- 可解釋性
3.1.2 什么是決策樹/判定樹?
- 判定樹是一個類似于流程圖的數結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個屬性輸出,而每個樹葉節點代表類和類分布。樹的最頂層是根節點。
3.1.2 熵(entropy)概念
- 信息和抽象如何度量?
- 1948年香農提出信息熵的概念
- 一條信息的信息量大小和他的不確定性有直接的關系
- 要搞清楚一件非常不確定的事情,或者是我們一無所知的事情,需要了解大量的信息
- 信息量的度量等于不確定性的多少
- 變量的不確定性越大,熵也越大
3.1.3 決策樹歸納算法(ID3)
信息獲取量(Information Gain):Gain(A)=Info(D)-Info_A(D).
通過A來作為節點分類獲取了多少信息
- 樹以代表訓練樣本的單個節點開始(步驟1)
- 如果樣本都在同一個類,則該節點成為樹葉,并用該類標號(步驟2和3)
- 否則,算法使用稱為信息增益的基于熵的度量作為啟發信息,選擇能夠最好的將樣本分類的屬性(步驟6).該屬性成為該節點的“測試”或“判定”屬性(步驟7)
- 在算法的該版本中,所有的屬性都是分類的,即離散值。連續屬性必須離散化。
- 對測試屬性的每個已知的值,創建一個分支,并據從劃分樣本(步驟8-10)
- 算法使用同樣的過程,遞歸的形成每個劃分上的樣本的判定樹。一旦一個屬性出現在一個結點時,就不必該節點的任何后代上考慮它(步驟13)
- 遞歸劃分步驟劃分條件僅當下列條件之一停止。
- (a)給定結點的所有樣本屬于同一類(步驟2和3)
- (b)沒有剩余屬性可以用來進一步劃分樣本(步驟4),在此情況下,使用多數表決(步驟5)
- 這涉及將給定結點轉換成樹葉,并用樣本中的多數所在的類標記它
3.1.4 樹葉剪枝(避免overfitting)
- 先剪枝
- 后剪枝
3.1.5 決策樹的優點
- 直觀
- 便于理解
- 小規模數據集有效
3.1.6 決策樹的缺點
- 處理連續變量不好
- 類別較多時,錯誤增加的較快
- 可規模性一般
3.1.7 代碼實現
Python 機器學習庫:scikit-learn
簡單高效的數據挖掘和機器學習庫
對所有用戶開放,根據不同需求,高度可重用性
基于Numpy、SciPy、matplotlib,開源
- 數據
- 代碼
- 結果
3.2 鄰近取樣
鄰近取樣(Nearest Neighbor)
3.2.1 最鄰近規則分類(K-Nearest Neighbor) KNN算法
Cover和Hart在1968年提出最初的鄰近算法
分類(Classification)算法
輸入基于實例的學習(instance-based learning),懶惰學習(Lazy Learning)
3.2.2 算法詳述
3.2.3 關于距離衡量方法
- Euclidean Distance 定義
- 其他距離衡量:余弦值(COS),相關度(correlation),曼哈頓距離(Manhattan Distance)
3.2.4 算法評價
- 優點:簡單,易于理解,容易實現,通過對K的選擇可具備丟噪音數據的健壯性
- 缺點:需要大量空間存儲所有已知實例,算法復雜度高(需要比較所有已知實例與要分類的實例)
- 當其樣本分布不平衡時,比如其中一類樣本過大(實例數量過多)占主導時,新的未知實例容易被歸類為這個主導樣本,因為這類樣本實例的數量過大,但這個新的未知實例并不接近目標樣本
3.2.5 KNN算法應用
最鄰近規則分類KNN(K-Nearest Neighbor)算法應用
- SKLearnExample.py
3.2.6 Iris(虹膜)數據集介紹
- 150個實例
- sepal length:萼片長度,sepal width:萼片寬度,petal length:花瓣長度,petal width:花瓣寬度
- 類別:setosa,versicolor,virginica
3.2.7 代碼實現
# coding=utf-8 import csv import random import math import operator# filename 文件名稱 # split 分割 # trainingSet 訓練集 # testSet 測試集 def loadDataset(filename, split, trainingSet=[], testSet=[]):with open(filename, 'rb') as csvFile:lines = csv.reader(csvFile)dataset = list(lines)for x in range(len(dataset) - 1):for y in range(4):dataset[x][y] = float(dataset[x][y])if random.random() < split:trainingSet.append(dataset[x])else:testSet.append(dataset[x])# instance1 第一個坐標 # instance2 第二個坐標 # length 維數 def euclideanDistance(instance1, instance2, length):distance = 0for x in range(length):distance += pow((instance1[x] - instance2[x]), 2)return math.sqrt(distance)# 獲取K個最近的實例 def getNeighbors(trainingSet, testInstance, k):distances = []length = len(testInstance) - 1for x in range(len(trainingSet)):dist = euclideanDistance(testInstance, trainingSet[x], length)distances.append((trainingSet[x], dist))distances.sort(key=operator.itemgetter(1))neighbors = []for x in range(k):neighbors.append(distances[x][0])return neighborsdef getResponse(neighbors):class_votes = {}for x in range(len(neighbors)):response = neighbors[x][-1]if response in class_votes:class_votes[response] += 1else:class_votes[response] = 1sorted_votes = sorted(class_votes.iteritems(), key=operator.itemgetter(1), reverse=True)return sorted_votes[0][0]# 獲取準確率 def getAccuracy(testSet, predictions):correct = 0for x in range(len(testSet)):if testSet[x][-1] == predictions[x]:correct += 1return (correct / float(len(testSet))) * 100.0def main():training_set = []test_set = []split = 0.67loadDataset(r'D:\IDEA\ML\MachineLearningBasics\DataSets\iris.data.txt', split, training_set, test_set)print 'Train Set:' + repr(len(training_set))print 'Test Set:' + repr(len(test_set))predictions = []k = 3for x in range(len(test_set)):neighbors = getNeighbors(training_set, test_set[x], k)result = getResponse(neighbors)predictions.append(result)print '>> predicted=' + repr(result) + ',actual=' + repr(test_set[x][-1])accuracy = getAccuracy(test_set, predictions)print 'Accuracy:' + repr(accuracy) + '%'main()3.3 支持向量機
支持向量機(Support Vector Machine,SVM)
3.3.1 原理簡介
- 最早于1963年被提出,深度學習出現之前(2012),SVM被認為機器學習中近十年來,最成功、表現最好的算法。
- 機器學習的一般框架:訓練集,提取特征向量, 結合一定的算法(分類器:比如決策樹,KNN),得到結果
- SVM尋找區分兩類的超平面(hyper plane),使邊際(margin)最大
- 總共可以有多少個超平面?無數個
- 如何選取邊際最大的超平面(Max Margin Hyper plane)?
- 超平面到一側最近點的距離等于到另一側最近點的距離,兩側的兩個超平面平行
- 線性可區分(linear separable)和線性不可區分(linear inseparable)
3.3.2 定義與公式建立
- 一般情況
- 二維平面
- 所有坐落在邊際的兩邊的超平面上的向量被成為支持向量(support vectors)
3.3.3 SVM算法特性
- 訓練好的模型的算法復雜度是由支持向量的個數決定的,而不是由數據的維度決定的。所以SVM不容易產生Overfitting。
- SVM訓練出來的模型完全依賴于支持向量(Support Vector),即使訓練集里面所有非支持向量被去除,重復訓練過程,結果依然會得到完全一樣的模型。
- 一個SVM如果訓練得出的支持向量個數比較少,SVM訓練出來的模型容易被泛化
3.3.4 線性不可分情況
- 數據集在空間中對應的向量不可被一個超平面區分
兩個步驟來解決
- 利用一個非線性的映射,把源數據集中的向量轉化到一個更高維度的空間
- 在這個高維度的空間中,找一個線性的超平面來根據線性可分的情況處理
- 如何選擇合理的非線性轉化把數據轉化到高維度?
- 如何解決計算內積時算法復雜度非常高的問題?
3.3.5 具體實現
print __doc__ import numpy as np import pylab as pl from sklearn import svm# create 40 separable points np.random.seed(0) x = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]] y = [0] * 20 + [1] * 20# fit the model clf = svm.SVC(kernel='linear') clf.fit(x, y)# get the separating hyper plane w = clf.coef_[0] a = -w[0] / w[1] xx = np.linspace(-5, 5) yy = a * xx - (clf.intecept_[0]) / w[1]# plot the parallels to the separating hyper plane the pass through the support vectors b = clf.support_vectors_[0] yy_down = a * xx + (b[1] - a * b[0]) b = clf.support_vectors[-1] yy_up = a * xx + (b[1] - a * b[0])print "w:", w print "a:", a print "support_vectors:", clf.support_vectors_ print "clf.coef_", clf.coef_# plot the line,the points,and the nearest vectors the plane pl.plot(xx, yy, 'k-') pl.plot(xx, yy_down, 'k--') pl.plot(xx, yy_up, 'k--')pl.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=80, facecolor='none') pl.scatter(x[:, 0], x[:, 1], c=y, cmap=pl.cm.Paired) pl.axis('tight') pl.show()3.4 神經網絡算法
神經網絡算法(Neural Network)
3.4.1 算法詳述
-
背景:以人腦中的神經網絡為啟發,歷史上出現多個不同的版本,最著名的算法是1980年的Back Propagation,被使用在多層向前神經網絡上
-
多層向前神經網絡Multilayer Feed-Forward Neural Network
-
多層向前神經網絡由以下部分組成:輸入層(Input Layer),隱藏層(hidden layer),輸入層()
-
每層由單元(units)組成
-
輸入層(Input Layer)是由訓練集的實例特征向量傳入
-
經過連接點的權重(weight)傳入下一層,一層的輸出是另一層的輸入
-
隱藏層的個數可以是任意的,輸入層有一層,輸出層有一層
-
每個單元也可以被稱作神經結點,根據生物學來定義
-
以上稱為兩層的神經網絡(輸入層不算)
-
一層中加權的求和,根據非線性方程轉化輸出
-
作為多層向前神經網絡,理論上,如果有足夠多的隱藏層和足夠大的訓練集,理論上可模擬出任何方程。
3.4.2 設計神經網絡結構
- 使用神經網絡設計數據之前,必須確定神經網絡的層數,以及每層單元的個數
- 特征向量在傳入輸入層時,通常先被標準化(normalize)0到1之間,為了加速學習的過程
- 離散型變量可以被編碼成每一個輸入單元對應一個特征值可能賦的值,比如:特征值A可能取三個值(a0,a1,a2),可以使用三個輸入單元來代表A;如果A=a0,那么代表a0的單元值就取1,其他取0;如果A=a1,那么代表a1的單元值就取1,其他取0,以此類推
- 神經網絡可以用來做分類問題(Classification)問題,也可以解決回歸問題(regression)問題
- 對于分類問題,如果是兩類,可以用一個輸入單元表示,0和1分別代表兩類
- 如果多于兩類,每一個類別用一個輸入單元表示,輸入層的單元數量通常等于類別數量
- 沒有明確的規則來設計最好有多少個隱藏層,根據實驗測試及誤差以及準確度來改進
- 交叉驗證方法(Cross Validation)
3.4.3 Backpropagation算法
- 通過迭代性來處理訓練集中的實例
- 對比經過神經網絡后,輸入值預測值(predicted value)與真實值(target Value)之間
- 反方向(輸出層-隱藏層-輸入層)來以最小化誤差來更新每個連接的權重
- 算法詳細介紹
3.4.4 非線性轉化方程(Non-linear transformation function )
- sigmoid 函數(S曲線)用來做Activation Function
- 雙曲線函數(tanh)
- 邏輯函數(logic function)
3.4.5 神經網絡算法應用
# coding=utf-8 import numpy as np# 雙曲線函數 def tanh(x):return np.tanh(x)# 雙曲線函數-導數 def tanh_deriv(x):return 1.0 - np.tanh(x) * np.tanh(x)# 邏輯函數 def logistic(x):return 1 / (1 + np.exp(-x))# 邏輯函數-導數 def logistic_derivative(x):return logistic(x) * (1 - logistic(x))class NeuralNetwork:def __init__(self, layers, activation='tanh'):''':param layers: A list containing the number of units in each layerShould be at least two layers:param activation: The activation function to be used.Can be "Logistic" or "tanh"'''if activation == 'logistic':self.activation = logisticself.activation_deriv = logistic_derivativeelif activation == 'tanh':self.activation = tanhself.activation_deriv = tanh_derivself.weights = []for i in range(1, len(layers) - 1):self.weights.append((2 * np.random.random((layers[i - 1] + 1, layers[i] + 1)) - 1) * 0.25)self.weights.append((2 * np.random.random((layers[i] + 1, layers[i + 1])) - 1) * 0.25)def fit(self, x, y, learning_rate=0.2, epochs=10000):x = np.atleast_2d(x) # numpy arraytemp = np.ones([x.shape[0], x.shape[1] + 1])temp[:, 0:-1] = x # adding the bias unit to the input layersx = tempy = np.array(y)for k in range(epochs):i = np.random.randint(x.shape[0])a = [x[i]]for l in range(len(self.weights)): # going forward network,for each layera.append(self.activation(np.dot(a[l], self.weights[l])))error = y[i] - a[-1] # compute the error at the top layerdeltas = [error * self.activation_deriv(a[-1])] # for output layer# starting back propagationfor l in range(len(a) - 2, 0, -1):deltas.append(deltas[-1].dot(self.weights[l].T) * self.activation_deriv(a[l]))deltas.reverse()for i in range(len(self.weights)):layer = np.atleast_2d(a[i])delta = np.atleast_2d(deltas[i])self.weights[i] += learning_rate * layer.T.dot(delta)def predict(self, x):x = np.array(x)temp = np.ones(x.shape[0] + 1)a = tempfor l in range(0, len(self.weights)):a = self.activation(np.dot(a, self.weights[l]))return a- 簡單非線性關系數據集測試(XOR)
| 0,0 | 0 |
| 0,1 | 1 |
| 1,0 | 1 |
| 1,1 | 1 |
4 監督學習-回歸
4.1 簡單線性回歸
簡單線性回歸(Simple Linear Regression)
4.1.1 前提介紹
統計量:描述數據特征
- 集中趨勢衡量:均值(mean),中位數(medium)、眾數(mode)
- 離散程度衡量:方差(variance),標準差(standard deviation)
- 回歸(Regression):Y變量為連續型(continuous numerical variable),如房價、人數、降雨量
- 分類(Classification):Y變量為類別型(categorical variable),如顏色類別,電腦品牌,有無信譽
- 簡單線性回歸很多做決定的過程,通常是根據兩個或多個變量之間的關系
- 回歸分析(Regression Analysis)用來建立方程,模擬兩個或者多個變量之間如何關聯
- 被預測的變量叫做因變量(dependent variable),輸出(output)
- 被用來預測的變量叫做自變量(Independent variable),輸入(input)
- 簡單線性回歸包含一個自變量和一個因變量,兩個變量的關系用一條直線來模擬。如果包含兩個以上自變量,則稱多元回歸分析(multiple regression)
- 簡單線性回歸模型被用來描述因變量和自變量以及偏差(error)之間關系的模型叫做回歸模型
- 簡單線性回歸方程:E(y) = B0 + B1 * x
- 正向線性關系
- 負向線性關系
- 無關系
- 線性回歸分析流程
- 關于偏差的假定
4.1.2 簡單線性模型舉例
- 汽車賣家做電視廣告數量與賣出汽車的數量
- 如何計算適合簡單線性回歸模型的最佳回歸線?
- python代碼實現
4.2 多元回歸分析(Multiple Regression)
- Time = b0 + b1 * Miles + b2 * Deliveries
- Time = -0.869 + 0.0611 * Miles + 0.923 * Deliveries
- b0:
- b1:平均每多送一英里,運輸時間延長0.0611小時
- b2:平均每多一次運輸,運輸時間延長0.923小時
python源代碼
# coding=utf-8 from numpy import genfromtxt # 將CSV數據轉換成Numpy Arrays import numpy as np from sklearn import datasets, linear_modeldataPath = r'D:\IDEA\ML\MachineLearningBasics\DataSets\Delivery.csv' deliveryData = genfromtxt(dataPath, delimiter=',') # 文件路徑,分隔符print 'data:' print deliveryDataX = deliveryData[:, :-1] # 所有行且除最后一列之外的數據 Y = deliveryData[:, -1] # 所有行的最后一列print 'X:' print X print 'Y:' print Yregr = linear_model.LinearRegression() regr.fit(X, Y)print 'Coefficients:' print regr.coef_ # 參數預測 print 'intercept:' print regr.intercept_ # 截面或截距xPred = [[102, 6]] yPred = regr.predict(xPred) print 'predicted y:' print yPred4.3 非線性回歸-logistic regression
- 范圍:0 <= P <= 1
- 計算方法:根據個人置信;根據歷史數據;根據模擬數據
- 條件概率
- 例子
- 向量表示
- 處理二值數據,引入Sigmoid函數時曲線平滑化
- 預測函數
- 用概率表示:正例(y=1)
- 用概率表示:反例(y=0)
- 線性回歸
4.3 回歸中的相關度和R平方值
- 衡量兩個值線性相關強度的量,取值范圍 [-1,1]
- 正相關:> 0,負相關:< 0,無相關性:= 0
- 定義:決定系數,反應因變量的全部變異,能通過回歸關系被自變量解釋的比例
- 描述:如R平方為0.8,則表示回歸關系可以解釋因變量80%的變異,換句話說,如果我們能控制自變量不變,則因變量的變異程度會減少80%
- 簡單線性回歸:R^2 = r * r
- 多元線性回歸:
5 非監督學習
非監督學習(Unsupervised Learning)
5.1 聚類(Clustering):k-means算法
- Clustering中的經典算法,數據挖掘十大經典算法之一
- 算法接收參數K,將事先輸入的N個數據對象劃分為K個聚類以便使所獲得的聚類滿足:同一聚類中的對象相似度較高,而不同聚類中對象相似度較小
- 算法思想:以空間中K個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果
(1)適當選擇C個類的初始中心
(2)在第K次迭代中,對任意一個樣本,求其到C各中心的距離,將該樣本歸到距離最短的中心所在的類。
(3)利用均值等方法更新該類的中心值
(4)對于所有的C個聚類中心,如果(2)(3)的迭代法更新后,值保持不變,則迭代結束,否則繼續迭代
輸入:K,data[n]
(1) 選擇K個初始中心點,例如c[0]=data[0],…c[k-1]=data[k-1]
(2) 對于data[0]…data[n],分別與c[0]…c[k-1]比較,假定與c[i]差值最小,就標記為i
(3) 對于所有標記為i點,重新計算c[i]={所有標記為i的data[j]之和} / 標記為i的個數
(4) 重復(2)(3),直到所有c[i]值的變化小于給定閾值
- 優點速度快,簡單
- 缺點:最終結果跟初始點選擇相關,容易陷入局部最優,需要確定K值
5.2 聚類(Clustering):層次聚類
(1) (初始化)把每個樣本歸為一類,計算兩個類之間的距離,也就是樣本與樣本之間的相似度
(2) 尋找各個類之間最近的兩個類,把他們歸為一類,這樣類的總數就少了一個
(3) 重新計算新生成的這個類與各個舊類之間的相似度
(4) 重復2和3直到所有的樣本歸為一類,結束
- SingleLinkage:又叫做nearest-neighbor,就是取兩個類中距離最近的兩個樣本的距離作為這兩個集合的距離,也就是說,最近兩個樣本之間的距離越小,這兩個類之間的相似度就越大。容易造成一種叫做鏈式(chaining)的效果,兩個聚類明明從大局上離得比較遠,但是由于其中個別的點距離比較近就被合并了,并且這樣合并之后,鏈式效果會進一步擴大,最后會得到比較松散的聚類。
- completeLinkage:這個則完全是SingleLinkage的反面極端,取兩個集合中距離最遠的兩個點的距離作為兩個集合的距離,其效果也是剛好相反的,限制非常大,兩個聚類即使已經很接近了但是只要有不配合的點存在,就頑固到底,老死不相合并,也是不太好的辦法,這兩種相似度的定義方法的共同問題就是只考慮了某個有特點的數據,而沒有考慮類內數據的整體特點。
- average-linkage:這種方法就是把兩個集合中的點的距離全部放在一起求一個平均值,也能得到相對合適的結果。
- average-linkage:一個變種就是取兩兩距離的中值,與取均值相比更加能夠解除個別偏離樣本對結果的干擾。
6 小結
機器學習(Machine Learning)
- 探究和開發一系列算法,使計算機不需要外部明顯的指示,可以自己通過數據來學習和建模,并且利用建好的模型和新的輸入來進行預測的學科。
- 一門不需要外部程序指示而讓計算機有能力自我學習的學科。
- 機器學習是一門人工智能的科學,該領域主要研究對象是人工智能,特別是如何在經驗中改善具體算法的性能。
- 機器學習是對能通過經驗,自動改進的計算機算法的研究
總結
以上是生活随笔為你收集整理的软件研发工程师转行机器学习之路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【软件工程】数据流图初探
- 下一篇: Anaconda安装和使用指南教程:环境