sklearn特征的提取(上)
生活随笔
收集整理的這篇文章主要介紹了
sklearn特征的提取(上)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
首先必須知道什么是特征工程
什么是特征工程
特征工程是通過對原始數(shù)據(jù)的處理和加工,將原始數(shù)據(jù)屬性通過處理轉(zhuǎn)換為數(shù)據(jù)特征的過程,屬性是數(shù)據(jù)本身具有的維度,特征是數(shù)據(jù)中所呈現(xiàn)出來的某一種重要的特性,通常是通過屬性的計算,組合或轉(zhuǎn)換得到的。比如主成分分析就是將大量的數(shù)據(jù)屬性轉(zhuǎn)換為少數(shù)幾個特征的過程。某種程度而言,好的數(shù)據(jù)以及特征往往是一個性能優(yōu)秀模型的基礎(chǔ)。
那么如何提取好的特征將是本文主要內(nèi)容
我們將簡要介紹一些常用的特征提取方法:
- 字典加載特征:DictVectorizer
- 文本特征提取:詞頻向量(CountVectorizer)
- TF-IDF向量(TfidfVectorizer,TfidfTransformer) 特征哈希向量(HashingVectorizer)
- 圖像特征提取: 提取像素矩陣提取邊緣和興趣點(diǎn)
字典加載特征:DictVectorizer
用python中的字典存儲特征是一種常用的做法,其優(yōu)點(diǎn)是容易理解。但是sklearn的輸入特征必須是 numpy或scipy數(shù)組。可以用DictVectorizer從字典中加載特征轉(zhuǎn)換成numpy數(shù)組,并且對分類特征 會采用獨(dú)熱編碼(one-hot)。
字典特征提取器:
- 將字典數(shù)據(jù)結(jié)構(gòu)抽和向量化
- 類別類型特征借助原型特征名稱采用0 1 二值方式進(jìn)行向量化
- 數(shù)值類型特征保持不變
總結(jié)
以上是生活随笔為你收集整理的sklearn特征的提取(上)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 花呗怎么算还款日
- 下一篇: sklearn特征的提取(下)