华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛
各位好,我是乾頤堂大堂子。領(lǐng)取完整實(shí)戰(zhàn)指南可以私信我,關(guān)鍵詞:實(shí)戰(zhàn)指南
導(dǎo)入相關(guān)python庫(kù)
2.數(shù)據(jù)處理
下載的是兩個(gè)數(shù)據(jù)文件,一個(gè)是真實(shí)數(shù)據(jù),一個(gè)是測(cè)試數(shù)據(jù),打開kc_train.csv,能夠看到第二列是銷售價(jià)格,而我們要預(yù)測(cè)的就是銷售價(jià)格,所以在訓(xùn)練過(guò)程中是不需要銷售價(jià)格的,把第二列刪除掉,新建一個(gè)csv文件存放銷售價(jià)格這一列,作為后面的結(jié)果對(duì)比。
2.1數(shù)據(jù)說(shuō)明
?數(shù)據(jù)主要包括2014年5月至2015年5月美國(guó)King County的房屋銷售價(jià)格以及房屋的基本信息。 數(shù) 據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù), 分別保存在kc_train.csv和kc_test.csv兩個(gè)文件中。 其中訓(xùn)練數(shù)據(jù)主要包括10000條記錄, 14個(gè)字段, 主要字段說(shuō)明如下:
第一列 “銷售日期” : 2014年5月到2015年5月房屋出售時(shí)的日期
第二列 “銷售價(jià)格” : 房屋交易價(jià)格, 單位為美元, 是目標(biāo)預(yù)測(cè)值
第三列 “臥室數(shù)” : 房屋中的臥室數(shù)目
第四列 “浴室數(shù)” : 房屋中的浴室數(shù)目
第五列 “房屋面積” : 房屋里的生活面積
第六列 “停車面積” : 停車坪的面積
第七列 “樓層數(shù)” : 房屋的樓層數(shù)
第八列 “房屋評(píng)分” : King County房屋評(píng)分系統(tǒng)對(duì)房屋的總體評(píng)分
第九列 “建筑面積” : 除了地下室之外的房屋建筑面積
第十列 “地下室面積” : 地下室的面積
第十一列“建筑年份” : 房屋建成的年份
第十二列“修復(fù)年份” : 房屋上次修復(fù)的年份
第十三列"緯度": 房屋所在緯度
第十四列“經(jīng)度” : 房屋所在經(jīng)度
測(cè)試數(shù)據(jù)主要包括3000條記錄, 13個(gè)字段, 跟訓(xùn)練數(shù)據(jù)的不同是測(cè)試數(shù)據(jù)并不包括房屋銷售價(jià)格, 學(xué)員需要通過(guò)由訓(xùn)練數(shù)據(jù)所建立的模型以及所給的測(cè)試數(shù)據(jù),得出測(cè)試數(shù)據(jù)相應(yīng)的房屋銷售價(jià)格預(yù)測(cè)值。
3.特征預(yù)處理常用方法:歸一化、標(biāo)準(zhǔn)
把數(shù)據(jù)進(jìn)行無(wú)量綱化,使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格。
(選做)3.1特征縮放/數(shù)據(jù)歸一化MinMaxScaler()
3.1.1將數(shù)據(jù)放縮到給定的范圍
fit_transform(self, X[,y])計(jì)算并將數(shù)據(jù)放縮到給定的范圍:
fit():計(jì)算給定數(shù)據(jù)集X的最大值/最小值用于后面的放縮;
transform():將數(shù)據(jù)集X放縮到給定的范圍內(nèi)。
fit_transform(),包含上述兩個(gè)功能。
3.1.2恢復(fù)給定范圍的數(shù)據(jù)
inverse_transfom(self, X)
3.1.3歸一化解釋
3.1.4為什么訓(xùn)練集用fit_transform而測(cè)試集用transform
訓(xùn)練集已經(jīng)通過(guò)fit_transform求出了一些固有屬性,測(cè)試集可沿用上述屬性直接標(biāo)準(zhǔn)化,不必重新再求
3.1.5歸一化使用局限
因?yàn)闅w一化是通過(guò)最大值、最小值的把數(shù)據(jù)映射到一個(gè)新的區(qū)間里,所以如果數(shù)據(jù)中有異常值(最大或者最小值是異常的、離譜的),這樣機(jī)會(huì)影響整個(gè)數(shù)據(jù)的映射分布。所以這種方法魯棒性較差,只適合傳統(tǒng)精確小數(shù)據(jù)場(chǎng)景。
有沒有更加通用的一種數(shù)據(jù)規(guī)范化方式呢?下面是標(biāo)準(zhǔn)化StandardScaler()。
(選做)3.2數(shù)據(jù)標(biāo)準(zhǔn)化StandardScaler()
數(shù)據(jù)標(biāo)準(zhǔn)化StandardScaler()是把數(shù)據(jù)變換到均值為0,標(biāo)準(zhǔn)差為1的范圍內(nèi)。標(biāo)準(zhǔn)化StandardScaler()不易受異常值的影響。在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場(chǎng)景。
4.模型訓(xùn)練
使用sklearn庫(kù)的線性回歸函數(shù)進(jìn)行調(diào)用訓(xùn)練。梯度下降法獲得誤差最小值。
最后使用MSE和R2來(lái)評(píng)價(jià)模型的好壞程度并畫圖進(jìn)行比較。
4.1(選做)線性回歸
4.2(選做)隨機(jī)梯度下降SGD
4.3(選做)嶺回歸Ridge
5.模型評(píng)估(注意替換參數(shù))
6.繪制圖像
7.輸出結(jié)果
更多網(wǎng)工提升干貨,請(qǐng)關(guān)注公眾號(hào):乾頤堂網(wǎng)絡(luò)實(shí)驗(yàn)室
總結(jié)
以上是生活随笔為你收集整理的华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 鱼眼摄像头标定与畸变校正(双OPENCV
- 下一篇: OTRS工单管理系统