机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)
sklearn(全稱Scikit-learn庫介紹)
? ? ? ?Python語言的機器學習工具
? ? ? ?Scikit-learn包括許多知名的機器學習算法的實現
? ? ? ?Scikit-learn文檔完善,容易上手,豐富的API,使其在學術界頗受歡迎。
安裝:windows下? ? pip install Scikit-learn? ? ? ?注:安裝scikit-learn需要Numpy,pandas等庫
?數據的特征抽取
? ?特征抽取(進行特征值化):? · 字典特征抽取: 把字典的數據轉換為具體的數據
? ? ? ? ? ? ? ? ? ? ? ?· 文本特征抽取:? 把文本的數據轉換為具體額數據
? ? ?注:特征值化是為了計算機更好的去理解數據
字典特征抽取
1.作用:對字典數據進行特征值化
2.語法:
? ??DictVectorizer(sparse=True,…)
? ? ? (1)??DictVectorizer.fit_transform(X)??????
? ? ? ? ? ? ? ? ?X:字典或者包含字典的迭代器? ? ? 傳進去一個列表,列表中包含多個字典
? ? ? ? ? ? ? ? ?返回值:返回sparse矩陣
? ? ? (2)?DictVectorizer.inverse_transform(X)
? ? ? ? ? ? ? ? ? ?X:array數組或者sparse矩陣
? ? ? ? ? ? ? ? ??返回值:轉換之前數據格式
? ? ? (3)?DictVectorizer.get_feature_names()
? ? ? ? ? ? ? ? ? ??返回類別名稱
? ? ? ?(4)?DictVectorizer.transform(X)
? ? ? ? ? ? ? ? ? ??按照原先的標準轉換
3.流程與例子
from sklearn.feature_extraction import DictVectorizerdef dictvec1():dict = DictVectorizer()data = dict.fit_transform([{"city": "上海", 'temperature': 100},{"city": "北京", 'temperature': 60},{"city": "深圳", 'temperature': 30}])print(data)return Nonedef dictvec2():dict = DictVectorizer(sparse=False)data = dict.fit_transform([{"city": "上海", 'temperature': 100},{"city": "北京", 'temperature': 60},{"city": "深圳", 'temperature': 30}])print(dict.get_feature_names())print(data)return Noneif __name__ == '__main__':dictvec1()dictvec2() 打印的結果: # 第一個函數的打印結果(0, 0) 1.0(0, 3) 100.0(1, 1) 1.0(1, 3) 60.0(2, 2) 1.0(2, 3) 30.0 # 第二個函數的打印結果 ['city=上海', 'city=北京', 'city=深圳', 'temperature'] [[ 1. 0. 0. 100.][ 0. 1. 0. 60.][ 0. 0. 1. 30.]]? ?第一 函數dictvec1() 的打印結果,就是sparse的矩陣模式?(在scipy模塊中就是這種模式),也就是找下表,對應數據
? ? ?轉換成這種矩陣的模型是為了節約內存,方便讀取處理
第二個函數的打印結果: 是一個二維數組的類型? 對應numpy中的 ndarray類型,也即是one-hot編碼 調用 get_feature_names() 函數,類似打印出類名,最后一個是結果值 對應剛才輸入的數據,第二個函數的數據數組,的第一個小數組,對應列名,第一個城市是上海,則對應的位置上就為,1,數組的最后一個就是對應的結果值,第二個小數組同理, 第二值為1代表就是上海,最后一只也對應響應的結果值 總結: 字典數據抽取:把字典中一些類別數據,分別進行轉換成特征數據 ? ? ? ? ? ? 數據形式,有類別的這些特征,先要轉換字典數據4.ont-hot編碼
??比如說,Human的類別為1,Penguin的類別為2,Octopus的類別為3,Ailen的類別為4
只要數據對應的列名符合就為1,不符合的都為0
總結
以上是生活随笔為你收集整理的机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习(1.机器学习概述、数据集的组成
- 下一篇: 机器学习(3.文本数据的特征抽取(第一种