當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据降维之PCA（主成分分析）

發布時間：2024/3/24 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了数据降维之PCA（主成分分析）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文代碼及數據集來自《Python大數據分析與機器學習商業案例實戰》

如果特征變量的數量非常多（如成百上千個特征變量），我們往往需要進行數據降維。降維的方法主要有選擇特征和抽取特征兩種：選擇特征是從原有的特征中挑選出最佳的特征；抽取特征則是將數據由高維向低維投影，進行坐標的線性轉換。PCA即為典型的抽取特征的方法，它不僅是對高維數據進行降維，更重要的是經過降維去除噪聲，發現數據中的模式。

基本用法

# 三維空間降維Python代碼實現 import pandas as pd X = pd.DataFrame([[45, 0.8, 9120], [40, 0.12, 2600], [38, 0.09, 3042], [30, 0.04, 3300], [39, 0.21, 3500]], columns=['年齡(歲)', '負債比率', '月收入(元)']) print(X)

運行結果：

# 對3個維度的特征數據進行標準化 from sklearn.preprocessing import StandardScaler X_new = StandardScaler().fit_transform(X) print(X_new)from sklearn.decomposition import PCA pca = PCA(n_components=2) # 設置PCA模型的參數n_components為2，即將三維數據降為二維數據 pca.fit(X_new) # 對標準化后的數據進行模型訓練 X_transformed = pca.transform(X_new) # 對標準化后的數據進行降維 print(X_transformed)print(pca.components_) # 獲取線性組合系數

運行結果：

可以看到，pca.components_是一個二維數組，第1個元素中的3個數對應的是下述公式中的系數a11、a12、a13，第2個元素中的3個數對應的是下述公式中的系數a21、a22、a23。

# 打印降維過程中原始特征的線性組合公式 dim = ['年齡(歲)', '負債比率', '月收入(元)'] for i in pca.components_:formula = []for j in range(len(i)):formula.append(str(i[j]) + ' * ' + dim[j])print(" + ".join(formula))dim = ['X', 'Y', 'Z'] index = 1 for i in pca.components_:formula = []for j in range(len(i)):formula.append(str(i[j]) + ' * ' + dim[j])print('F' + str(index) + ' = ' + " + ".join(formula))index += 1

運行結果：

案例實戰：人臉識別模型

首先從照片數據集中導入需要識別的人臉照片，這里使用的數據集是紐約大學提供的公開人臉數據庫Olivetti Faces。原圖是一整張圖片，含有40個人的臉部照片，每人10張。筆者將其拆分成400張jpg格式的圖片，放在本案例代碼所在的文件夾下的olivettifaces文件夾中，并按一定的規則對圖片的文件名進行整理。以“10_0.jpg”為例，10代表編號為10的人的圖片，“_”是第1部分和第3部分的分隔符，0代表這個人的10張圖片中編號為0的那一張，“.jpg”為文件擴展名。

# 1.讀取人臉照片數據 import os names = os.listdir('olivettifaces') print(names[0:5])

運行結果：[‘10_0.jpg’, ‘10_1.jpg’, ‘10_2.jpg’, ‘10_3.jpg’, ‘10_4.jpg’]

# 讀取第一張圖片 from PIL import Image img0 = Image.open('olivettifaces\\' + names[0]) #img0.show()# 2.人臉數據處理 - 特征變量提取 import numpy as np img0 = img0.convert('L') # 參數'L'指轉換成灰度格式的圖像 img0 = img0.resize((32, 32)) # 調整圖像尺寸為32×32像素 arr = np.array(img0) # 將這1024個像素點的灰度值轉換為一個二維數組import pandas as pd print(pd.DataFrame(arr))

運行結果：

# 上面獲得的32×32的二維數組還需要轉換成1×1024格式才能用于數據建模 arr = arr.reshape(1, -1) print(arr) # 將1×1024的二維數組降維成一維數組，并用tolist()函數將其轉換為列表 print(arr.flatten().tolist())

這樣就完成了第1張圖片的圖像數據到數值類型數據的轉換，為方便大家理解，可以將這個列表表達成下表的形式，第1張圖片共有1024個特征變量，每個變量為不同像素點的灰度值。

將上述方法結合for循環，就可以將所有人臉圖片的圖像數據都轉換成數值類型數據，從而構造相應的特征變量，代碼如下。

X = [] for i in names:img = Image.open('olivettifaces\\' + i)img = img.convert('L')img = img.resize((32, 32))arr = np.array(img)X.append(arr.reshape(1, -1).flatten().tolist()) # 將每張圖片的灰度值添加到X列表中# 將其轉換為DataFrame格式再進行查看 import pandas as pd X = pd.DataFrame(X) print(X)# 查看這些數據的行列數 print(X.shape)

運行結果：

首先來提取第1張人臉圖片的目標變量。該圖片的文件名為10_0.jpg，其中的10是該圖片對應的人的編號，即我們所需要的目標變量。其中names[0]為第1張圖片的文件名10_0.jpg，split()函數根據“_”號將文件名分割為2個部分，通過[0]提取第1部分，即人的編號10。split()函數分割字符串得到的仍是字符串，但是目標變量y需要為數字，所以需要用int()函數將字符串轉換為數字。

print(int(names[0].split('_')[0]))

將上述方法結合for循環，便能提取400張人臉圖片的目標變量了。

y = [] for i in names:img = Image.open('olivettifaces\\' + i)y.append(int(i.split('_')[0])) print(y)

運行結果：

# 數據劃分與降維 # 1.劃分訓練集和測試集 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)# 2.PCA數據降維 from sklearn.decomposition import PCA pca = PCA(n_components=100) pca.fit(X_train)X_train_pca = pca.transform(X_train) X_test_pca = pca.transform(X_test)print(X_train_pca.shape) # 訓練集為320行，100列 print(X_test_pca.shape) # 測試集為80行，100列# pd.DataFrame(X_train_pca).head() # pd.DataFrame(X_test_pca).head()# 模型的搭建與使用 # 1.模型搭建 from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() # 建立KNN模型 knn.fit(X_train_pca, y_train) # 用降維后的訓練集進行訓練模型# 2.模型預測 y_pred = knn.predict(X_test_pca) # 用降維后的測試集進行測試 print(y_pred) # 將對測試集的預測結果打印出來import pandas as pd a = pd.DataFrame() # 創建一個空DataFrame a['預測值'] = list(y_pred) a['實際值'] = list(y_test) a.head() # 查看表格前5行from sklearn.metrics import accuracy_score score = accuracy_score(y_pred, y_test) print(score)score = knn.score(X_test_pca, y_test) print(score)

運行結果：

# 模型對比（數據降維與不降維） from sklearn.neighbors import KNeighborsClassifier knn = KNeighborsClassifier() # 建立KNN模型 knn.fit(X_train, y_train) # 不使用數據降維，直接訓練 y_pred = knn.predict(X_test) # 不使用數據降維，直接測試from sklearn.metrics import accuracy_score score = accuracy_score(y_pred, y_test) print(score)

在本例中降維的模型與不降維的模型得分差不多。本案例的數據量并不大，當數據量更大時，利用PCA進行數據降維會發揮更大的作用。

總結

以上是生活随笔為你收集整理的数据降维之PCA（主成分分析）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2048小游戏html制作,[ 逻辑锻炼
下一篇： ZOJ-2520