机器学习PAL数据预处理
機(jī)器學(xué)習(xí)PAL數(shù)據(jù)預(yù)處理
本文介紹如何對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到模型訓(xùn)練集和模型預(yù)測集。
前提條件
完成數(shù)據(jù)準(zhǔn)備,詳情請參見準(zhǔn)備數(shù)據(jù)。
操作步驟
-
登錄PAI控制臺。
-
在左側(cè)導(dǎo)航欄,選擇模型開發(fā)和訓(xùn)練 > Studio-可視化建模。
-
在PAI可視化建模頁面,單擊進(jìn)入機(jī)器學(xué)習(xí)。
-
將組件拖入畫布并拼接為實驗。
i. 在左側(cè)菜單欄,單擊組件。
ii. 在組件列表,選擇數(shù)據(jù)預(yù)處理 > 數(shù)據(jù)合并,將類型轉(zhuǎn)換和歸一化組件拖入畫布。
iii. 在組件列表,將工具下的SQL腳本組件拖入畫布,并與準(zhǔn)備數(shù)據(jù)中的讀數(shù)據(jù)表組件拼接為實驗,如下圖所示。
-
配置組件參數(shù)。
i. 單擊畫布中的SQL腳本組件,在右側(cè)SQL腳本編輯框中輸入SQL語句,將字符型字段轉(zhuǎn)化為數(shù)值型。
ii. select age,
iii. (case sex when ‘male’ then 1 else 0 end) as sex,
iv. (case cp when ‘a(chǎn)ngina’ then 0 when ‘notang’ then 1 else 2 end) as cp,
v. trestbps,
vi. chol,
vii. (case fbs when ‘true’ then 1 else 0 end) as fbs,
viii. (case restecg when ‘norm’ then 0 when ‘a(chǎn)bn’ then 1 else 2 end) as restecg,
ix. thalach,
x. (case exang when ‘true’ then 1 else 0 end) as exang,
xi. oldpeak,
xii. (case slop when ‘up’ then 0 when ‘flat’ then 1 else 2 end) as slop,
xiii. ca,
xiv. (case thal when ‘norm’ then 0 when ‘fix’ then 1 else 2 end) as thal,
xv. (case status when ‘sick’ then 1 else 0 end) as ifHealth
from ${t1};
xvi. 單擊畫布中的類型轉(zhuǎn)換組件,在右側(cè)字段設(shè)置頁簽,單擊轉(zhuǎn)換為double類型的列下的選擇字段,將所有字段轉(zhuǎn)換為double類型。
xvii. 單擊畫布中的歸一化組件,在右側(cè)字段設(shè)置頁簽,選擇所有字段。
7. 單擊畫布上方的運(yùn)行,運(yùn)行過程中右鍵單擊組件,可以查看組件的輸出。
8. 在組件列表,選擇數(shù)據(jù)預(yù)處理 > 數(shù)據(jù)合并,將拆分組件拖入畫布并與其他組件拼接,單擊運(yùn)行。
拆分組件默認(rèn)將原始數(shù)據(jù)按4:1拆分為模型訓(xùn)練集和模型預(yù)測集。您也可以單擊拆分組件,在右側(cè)參數(shù)設(shè)置頁簽,設(shè)置切分比例。
后續(xù)步驟
完成數(shù)據(jù)預(yù)處理后,需要進(jìn)行數(shù)據(jù)可視化,詳情請參見數(shù)據(jù)可視化。
總結(jié)
以上是生活随笔為你收集整理的机器学习PAL数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习PAL基本概念
- 下一篇: 机器学习PAL数据可视化