當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)

發布時間：2024/9/30 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

sklearn(全稱Scikit-learn庫介紹)

? ? ? ?Python語言的機器學習工具

? ? ? ?Scikit-learn包括許多知名的機器學習算法的實現

? ? ? ?Scikit-learn文檔完善，容易上手，豐富的API，使其在學術界頗受歡迎。

安裝：windows下? ? pip install Scikit-learn? ? ? ?注：安裝scikit-learn需要Numpy,pandas等庫

?數據的特征抽取

? ?特征抽取(進行特征值化)：? · 字典特征抽取：把字典的數據轉換為具體的數據

? ? ? ? ? ? ? ? ? ? ? ?· 文本特征抽取：? 把文本的數據轉換為具體額數據

? ? ?注：特征值化是為了計算機更好的去理解數據

字典特征抽取

1.作用：對字典數據進行特征值化

2.語法：

? ??DictVectorizer(sparse=True,…)

? ? ? (1)??DictVectorizer.fit_transform(X)??????

? ? ? ? ? ? ? ? ?X:字典或者包含字典的迭代器? ? ? 傳進去一個列表，列表中包含多個字典

? ? ? ? ? ? ? ? ?返回值：返回sparse矩陣

? ? ? (2)?DictVectorizer.inverse_transform(X)

? ? ? ? ? ? ? ? ? ?X:array數組或者sparse矩陣

? ? ? ? ? ? ? ? ??返回值:轉換之前數據格式

? ? ? (3)?DictVectorizer.get_feature_names()

? ? ? ? ? ? ? ? ? ??返回類別名稱

? ? ? ?(4)?DictVectorizer.transform(X)

? ? ? ? ? ? ? ? ? ??按照原先的標準轉換

3.流程與例子

from sklearn.feature_extraction import DictVectorizerdef dictvec1():dict = DictVectorizer()data = dict.fit_transform([{"city": "上海", 'temperature': 100},{"city": "北京", 'temperature': 60},{"city": "深圳", 'temperature': 30}])print(data)return Nonedef dictvec2():dict = DictVectorizer(sparse=False)data = dict.fit_transform([{"city": "上海", 'temperature': 100},{"city": "北京", 'temperature': 60},{"city": "深圳", 'temperature': 30}])print(dict.get_feature_names())print(data)return Noneif __name__ == '__main__':dictvec1()dictvec2() 打印的結果： # 第一個函數的打印結果(0, 0) 1.0(0, 3) 100.0(1, 1) 1.0(1, 3) 60.0(2, 2) 1.0(2, 3) 30.0 # 第二個函數的打印結果 ['city=上海', 'city=北京', 'city=深圳', 'temperature'] [[ 1. 0. 0. 100.][ 0. 1. 0. 60.][ 0. 0. 1. 30.]]

? ?第一函數dictvec1() 的打印結果，就是sparse的矩陣模式?(在scipy模塊中就是這種模式)，也就是找下表，對應數據

? ? ?轉換成這種矩陣的模型是為了節約內存，方便讀取處理

第二個函數的打印結果：是一個二維數組的類型? 對應numpy中的 ndarray類型，也即是one-hot編碼 調用 get_feature_names() 函數，類似打印出類名，最后一個是結果值對應剛才輸入的數據，第二個函數的數據數組，的第一個小數組，對應列名，第一個城市是上海，則對應的位置上就為，1，數組的最后一個就是對應的結果值，第二個小數組同理，第二值為1代表就是上海，最后一只也對應響應的結果值 總結：字典數據抽取：把字典中一些類別數據，分別進行轉換成特征數據 ? ? ? ? ? ? 數據形式，有類別的這些特征，先要轉換字典數據

4.ont-hot編碼

??比如說，Human的類別為1，Penguin的類別為2，Octopus的類別為3，Ailen的類別為4

只要數據對應的列名符合就為1,不符合的都為0

總結

以上是生活随笔為你收集整理的机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习(1.机器学习概述、数据集的组成
下一篇：机器学习(3.文本数据的特征抽取(第一种