机器学习之数据预处理——特征编码(标签编码,独热编码)
生活随笔
收集整理的這篇文章主要介紹了
机器学习之数据预处理——特征编码(标签编码,独热编码)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
機(jī)器學(xué)習(xí)之?dāng)?shù)據(jù)預(yù)處理——特征編碼
- 數(shù)據(jù)預(yù)處理——特征編碼
- 離散數(shù)據(jù)的編碼
- 標(biāo)簽編碼
- sklearn LabelEncoder(使用fit_transform函數(shù))
- sklearn LabelEncoder(反向變換可以用函數(shù) inverse_transform)
- 獨(dú)熱編碼
- sklearn OneHotEncoder
機(jī)器學(xué)習(xí)里有一句名言:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法的應(yīng)用只是讓我們逼近這個(gè)上限。這個(gè)說(shuō)法形象且深刻的提出前期數(shù)據(jù)處理和特征分析的重要性。這一點(diǎn)從我們往往用整個(gè)數(shù)據(jù)挖掘全流程60%以上的時(shí)間和精力去做建模前期的數(shù)據(jù)處理和特征分析也能看出。那么疑問(wèn)來(lái)了,這超過(guò)60%時(shí)間和精力我們都用在哪了?本文基于以往的知識(shí)儲(chǔ)備以及實(shí)際的項(xiàng)目經(jīng)驗(yàn),我做一個(gè)總結(jié)。
主要包括三部分,一是獲取數(shù)據(jù)、數(shù)據(jù)抽樣,二是數(shù)據(jù)探索,三是數(shù)據(jù)預(yù)處理與清洗
數(shù)據(jù)預(yù)處理——特征編碼
由于機(jī)器學(xué)習(xí)算法都是在矩陣上執(zhí)行線性代數(shù)計(jì)算,所以參加計(jì)算的特征必須是數(shù)值型的,對(duì)于非數(shù)值型的特征需要進(jìn)行編碼
總結(jié)
以上是生活随笔為你收集整理的机器学习之数据预处理——特征编码(标签编码,独热编码)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 玄派侠氪笔记本即将推出,自带蓝牙耳机
- 下一篇: 全球首个商用海底数据中心成功下水安装 重