近邻算法分类
scikit-learn已經(jīng)封裝好很多數(shù)據(jù)挖掘的算法
現(xiàn)介紹數(shù)據(jù)挖掘框架的搭建方法
- 轉(zhuǎn)換器(Transformer)用于數(shù)據(jù)預(yù)處理,數(shù)據(jù)轉(zhuǎn)換
- 流水線(Pipeline)組合數(shù)據(jù)挖掘流程,方便再次使用(封裝)
- 估計(jì)器(Estimator)用于分類,聚類,回歸分析(各種算法對(duì)象)
- 所有的估計(jì)器都有下面2個(gè)函數(shù)
- fit() 訓(xùn)練
- 用法:estimator.fit(X_train, y_train),
- estimator = KNeighborsClassifier() 是scikit-learn算法對(duì)象
- X_train = dataset.data 是numpy數(shù)組
- y_train = dataset.target 是numpy數(shù)組
- predict() 預(yù)測(cè)
- 用法:estimator.predict(X_test)
- estimator = KNeighborsClassifier() 是scikit-learn算法對(duì)象
- X_test = dataset.data 是numpy數(shù)組
- fit() 訓(xùn)練
- 所有的估計(jì)器都有下面2個(gè)函數(shù)
電離層數(shù)據(jù)集
電離層數(shù)據(jù)集(Ionosphere Dataset)需要根據(jù)給定的電離層中的自由電子的雷達(dá)回波預(yù)測(cè)大氣結(jié)構(gòu)。
它是一個(gè)二元分類問(wèn)題。每個(gè)類的觀察值數(shù)量不均等,一共有 351 個(gè)觀察值,34 個(gè)輸入變量和1個(gè)輸出變量。變量名如下:
1 17對(duì)雷達(dá)回波數(shù)據(jù)。
2 … …
3 類
總結(jié)
- 上一篇: 使用jieba 提取 关键词
- 下一篇: 屈沟坪陕甘边区革命军事委员会旧址位置在哪