机器学习数据预处理之字符串转数字
生活随笔
收集整理的這篇文章主要介紹了
机器学习数据预处理之字符串转数字
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在機器學習中有很多特征有可能是字符串類型的:如周志華老師的西瓜書中西瓜的色澤、紋理、根莖等等。
計算機對字符串的特征是無能為力的,所以將字符串特征映射成數字就成了一個唯一的選擇。
目前有2種主流的方法,一種是:標簽編碼(Label Encoder),另一種是獨熱編碼(One Hot Encoder)。推薦使用獨熱編碼。
標簽編碼:
標簽編碼就是對字符串轉換成1 , 2,3這種形式,但是存在一個問題,就是標簽編碼的結果存在大小的關系,所以這種編碼顯然是有一定的局限性。
#python實現 from sklearn.preprocessing import LabelEncoderlabelencoder = LableEncoder()X[:, 0] = labelencoder.fit_transform(X[:, 0])獨熱編碼
獨熱編碼就克服了這局限性
它先對該列字符串進行分類,把原有的一列拆成n列(n是分類的個數),如果字符串所在的那一列在這一類上面則這一列為1,其余列為0。
總結
以上是生活随笔為你收集整理的机器学习数据预处理之字符串转数字的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CentOs安装pyhive
- 下一篇: c语言fltk图形库,FLTK编程模型