阿里云天池大赛——机器学习篇赛题解析(赛题一)上
根據(jù)《阿里云天池大賽賽題解析》整理,建議配合閱讀效果更好
1.賽題理解
(1)賽題
火力發(fā)電的基本原理是燃料燃燒生產(chǎn)蒸汽,蒸汽推動(dòng)汽輪機(jī)旋轉(zhuǎn)帶動(dòng)發(fā)電機(jī)旋轉(zhuǎn),產(chǎn)生電能,影響火力發(fā)電效率的核心是鍋爐的燃燒效率(每單位時(shí)間內(nèi)產(chǎn)生的蒸汽量),影響鍋爐燃燒效率的因素很多,包括鍋爐的可調(diào)參數(shù),如燃燒給量、一二次風(fēng)、引風(fēng)、返料風(fēng)、給水水量;以及鍋爐的工況,如鍋爐床溫、床壓、爐膛溫度、壓力,過熱器的溫度等。
本賽題目標(biāo)為根據(jù)給定的鍋爐傳感器采集的數(shù)據(jù)(燃燒給量、鍋爐工況等),預(yù)測(cè)產(chǎn)生的蒸汽量。
(2)數(shù)據(jù)概覽
根據(jù)阿里云天池官網(wǎng)的賽題提供的訓(xùn)練數(shù)據(jù)顯示,一共有38個(gè)特征變量(字段名為V0~V37),1個(gè)目標(biāo)變量(字段名為target)。
(3)評(píng)估指標(biāo)
預(yù)測(cè)誤差以均方誤差MSE(Mean Squared Error)作為評(píng)判標(biāo)準(zhǔn),MSE值越小,說明預(yù)測(cè)模型描述實(shí)驗(yàn)數(shù)據(jù)具有越高的準(zhǔn)確度。
(4)賽題模型
常用的模型包括回歸預(yù)測(cè)模型和分類預(yù)測(cè)模型,回歸預(yù)測(cè)模型包括線性回歸、嶺回歸、決策樹回歸、梯度提升樹回歸,分類預(yù)測(cè)模型包括二類分類、多類別分類。
本賽題中,預(yù)測(cè)值蒸汽量為連續(xù)型數(shù)值變量,因此使用回歸預(yù)測(cè)模型。
2.數(shù)據(jù)探索
(1)單變量分析
對(duì)于連續(xù)型變量,需要對(duì)其進(jìn)行描述性統(tǒng)計(jì),統(tǒng)計(jì)其的中心分布趨勢(shì)和變量分布,包括平均值、中位數(shù)、最大值、最小值、方差、標(biāo)準(zhǔn)差等。
對(duì)于類別型變量,一般使用頻次或占比表示每一個(gè)類別的分布情況??捎弥狈綀D、箱線圖來表示可視化分布情況。
(2)雙變量分析
包括連續(xù)型與連續(xù)型、類別型與類別型、類別型與連續(xù)型三種雙變量分析組合,使用不同的統(tǒng)計(jì)算法和圖像表達(dá)來描述雙變量之間的關(guān)系。
①連續(xù)型與連續(xù)型
統(tǒng)計(jì)分析算法:計(jì)算相關(guān)性
圖形表達(dá):散點(diǎn)圖
②類別型與類別型
統(tǒng)計(jì)分析算法:
雙向表——通過建立頻次(次數(shù))和頻率(占比)的雙向表來分析變量之間的關(guān)系。
卡方檢驗(yàn)——主要用于兩個(gè)和兩個(gè)以上樣本率(構(gòu)成比)及兩個(gè)二值型離散變量的關(guān)聯(lián)性分析
圖形表達(dá):堆疊柱狀圖
③類別型和連續(xù)型
圖形表達(dá):小提琴圖,分析類別變量在不同類別時(shí),另一個(gè)連續(xù)變量的分布情況
3.特征工程
從原始數(shù)據(jù)中,找出、構(gòu)建特征(就是對(duì)變量的處理),能很好地描述數(shù)據(jù),并且預(yù)測(cè)表現(xiàn)性能達(dá)到最優(yōu)的過程。
處理流程:去掉無用特征、去掉冗余特征、生成新特征、特征轉(zhuǎn)換、特征處理
3.1特征轉(zhuǎn)換
變量形態(tài)處理,對(duì)變量的取值區(qū)間等進(jìn)行轉(zhuǎn)換,使其分布在合理的區(qū)間內(nèi)或者更好地描述特征形態(tài)和特點(diǎn)或者使其更方便代入模型計(jì)算。
包括標(biāo)準(zhǔn)化、歸一化、定量特征二值化、定性特征啞變量、缺失值處理和數(shù)據(jù)轉(zhuǎn)換等。
(1)標(biāo)準(zhǔn)化
通過求標(biāo)準(zhǔn)分?jǐn)?shù)的方法,將特征轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布。
(2)歸一化
將樣本的特征值轉(zhuǎn)換到同一量綱下,把數(shù)據(jù)映射到[0,1]或者[a,b]區(qū)間內(nèi)。
歸一化與標(biāo)準(zhǔn)化的使用場(chǎng)景
如果對(duì)輸出結(jié)果范圍有要求,則用歸一化
如果數(shù)據(jù)較為穩(wěn)定,不存在極端的最大值或者最小值,則用歸一化。
如果數(shù)據(jù)存在異常值和較多噪聲,則用標(biāo)準(zhǔn)化,這樣可以通過中心化間接避免異常值和極端值的影響。
支持向量機(jī)、K近鄰、主成分分析等模型必須進(jìn)行歸一化或標(biāo)注努哈操作。
(3)定量特征二值化
設(shè)定一個(gè)閾值,大于閾值的賦值為1,小于等于閾值的賦值為0.
(4)定性特征啞變量
也被稱為虛擬變量,通常是人為虛擬的變量,取值為0或1,用來反映某個(gè)變量的不同屬性。將類別變量轉(zhuǎn)換為啞變量的過程就是啞編碼。而對(duì)于有n個(gè)類別屬性的變量,通常會(huì)以1個(gè)類別特征為參照,產(chǎn)生n-1個(gè)啞變量。
引入啞變量的目的是把原本不能定量處理的變量進(jìn)行量化,從而評(píng)估定性因素對(duì)因變量的影響。
通常會(huì)將原始的多變量變量轉(zhuǎn)換為啞變量,在構(gòu)建回歸模型時(shí),每一個(gè)啞變量都能得出一個(gè)估計(jì)的回歸系數(shù),這樣使得回歸的結(jié)果更易于解釋。
(5)缺失值和異常值處理
①缺失值處理
處理方法:刪除,平均數(shù)、眾數(shù)、中位數(shù)填充,預(yù)測(cè)模型填充
②異常值處理
檢測(cè):箱線圖、直方圖、散點(diǎn)圖檢測(cè)異常值
處理方法:刪除、轉(zhuǎn)換、填充、區(qū)別對(duì)待等方法
(6)數(shù)據(jù)轉(zhuǎn)換
在使用直方圖、核密度估計(jì)等工具對(duì)特征分布進(jìn)行分析的過程中,可能會(huì)有一些變量的取值分布不平均,這將會(huì)極大影響估計(jì),因此,需要對(duì)變量的取值區(qū)間等進(jìn)行轉(zhuǎn)換,使其分布在合理的區(qū)間內(nèi)。
常用的轉(zhuǎn)換方法:
①對(duì)數(shù)變換:對(duì)變量取對(duì)數(shù),可以更改變量的分布形狀。
②取平方根或立方根:變量的平方根和立方根對(duì)其分布有波形的影響。
③變量分組:可以基于原始值、百分比或頻率等對(duì)變量分類。
3.2特征降維
變量維度處理,降維指的是采用某種映射方法,將高維向量空間的數(shù)據(jù)點(diǎn)映射到低維的空間中。
在原始的高維空間中,向量數(shù)據(jù)包含冗余信息及噪聲信息,其在實(shí)際應(yīng)用中會(huì)對(duì)模型識(shí)別造成誤差。因此,需要減少無用或冗余的信息,減少誤差,進(jìn)行特征選擇或進(jìn)行線性降維。
(1)特征選擇
直接將不重要的特征刪除
特征選擇的方法:過濾法、包裝法、嵌入法
①過濾法:根據(jù)特征變量和目標(biāo)變量的關(guān)系進(jìn)行特征選擇,包括方差選擇法,相關(guān)系數(shù)法,卡方檢驗(yàn),最大信息系數(shù)法等。
②包裝法:使用遺傳算法、退火算法等算法,每次選擇若干特征
③嵌入法:使用機(jī)器學(xué)習(xí)的決策樹、深度學(xué)習(xí)等算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),并根據(jù)系數(shù)從大到小選擇特征。
(2)線性降維
常用的方法有主成分分析法和線性判別分析法
①主成分分析法
將高維數(shù)據(jù)映射到低維空間中表示,并期望在所投影的維度上數(shù)據(jù)的方差最大,以較少的維度保留較多的原數(shù)據(jù)點(diǎn)特性。
②線性判別分析法
與主成分分析法盡可能多地保留數(shù)據(jù)信息不同,線性判別分析法的目標(biāo)是使降維后的數(shù)據(jù)點(diǎn)盡可能地容易被區(qū)分。
4.模型訓(xùn)練
回歸是一種來自統(tǒng)計(jì)的技術(shù),用于在目標(biāo)數(shù)量連續(xù)時(shí)預(yù)測(cè)所需目標(biāo)數(shù)量的值。
步驟:導(dǎo)入需要的工具庫(kù)——數(shù)據(jù)預(yù)處理——訓(xùn)練模型——預(yù)測(cè)結(jié)果
(1)線性回歸模型
假定因變量Y與自變量X呈線性相關(guān),則可以采用線性模型找出自變量X和因變量Y的關(guān)系,以便預(yù)測(cè)新的自變量X的值。
首先,需要導(dǎo)入數(shù)據(jù)
在使用任何機(jī)器學(xué)習(xí)模型之前,都需要對(duì)數(shù)據(jù)集進(jìn)行切分,將其且分為訓(xùn)練數(shù)據(jù)(訓(xùn)練集)和驗(yàn)證數(shù)據(jù)(測(cè)試集)。
切分?jǐn)?shù)據(jù)代碼如下:
使用sklearn調(diào)用線性回歸模型進(jìn)行預(yù)測(cè),代碼如下:
from sklearn.metrics import mean_squared_error #評(píng)價(jià)指標(biāo) #從sklearn算法庫(kù)中導(dǎo)入線性回歸模型 from sklearn.linear_model import LinearRegression #定義線性回歸模型 clf=LinearRegression() #將訓(xùn)練集的自變量和因變量代入到線性回歸模型中訓(xùn)練 clf.fit(train_data,train_target) #將測(cè)試集的因變量代入線性回歸模型中得到測(cè)試集的預(yù)測(cè)值 test_pred=clf.predict(test_data) #得到本次模型準(zhǔn)確率得分 score=mean_squared_error(test_target,test_pred) print("LinearRegression: ",score)(2)K近鄰回歸模型
K近鄰算法可用于分類和回歸。通過找出某個(gè)樣本的k個(gè)最近鄰居,將這些鄰居的某個(gè)(些)屬性的平均值賦給該樣本,就可以得到該樣本對(duì)應(yīng)屬性的值。
K近鄰回歸調(diào)用方法:
(3)決策樹回歸模型
決策樹回歸可以理解為根據(jù)一定準(zhǔn)則,將一個(gè)空間劃分為若干子空間,然后利用子空間內(nèi)所有點(diǎn)的信息表示這個(gè)子空間的值。設(shè)定劃分次數(shù),可以使用最小二乘法進(jìn)行分割點(diǎn)選擇,得到所對(duì)應(yīng)的子空間,然后用子空間內(nèi)均值作為輸出值。
決策樹回歸調(diào)用方法:
(4)隨機(jī)森林回歸模型
隨機(jī)森林就是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,基本單元是決策樹,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一個(gè)分支——集成學(xué)習(xí)。
在回歸問題中,隨機(jī)森林輸出所有決策樹輸出的平均值
隨機(jī)森林回歸模型調(diào)用方法:
(5)LightGBM回歸模型
LightGBM是Microsoft開發(fā)的一個(gè)GBDT算法框架,支持高效率的并行訓(xùn)練,具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、分布式支持、可以快速處理海量數(shù)據(jù)等特征。
LightGBM回歸模型調(diào)用方法:
總結(jié)
以上是生活随笔為你收集整理的阿里云天池大赛——机器学习篇赛题解析(赛题一)上的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Kilav】数据库知识点速通 其二
- 下一篇: 台达触摸屏MODBUS直接与台达变频器通