當前位置：首頁 > 编程语言 > python >内容正文

python

python实现决策树数据直接赋值导入_Python3.0 实现决策树算法的流程

發布時間：2025/3/11 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 python实现决策树数据直接赋值导入_Python3.0 实现决策树算法的流程小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

決策樹的一般流程

檢測數據集中的每個子項是否屬于同一個分類

if so return 類標簽

Else

尋找劃分數據集的最好特征

劃分數據集

創建分支節點

from math import log

import operator

#生成樣本數據集

def createDataSet():

dataSet = [[1,1,'yes'],

[1,1,'yes'],

[1,0,'no'],

[0,1,'no'],

[0,1,'no']]

labels = ['no surfacing','flipper']

return dataSet,labels

# 計算香農熵香農大神必須要膜拜啊，信息界的根目錄人物啊

# no surfacing 指的是不浮出水面能否生存 1 標識是 0 指的是否

# flipper 指的是是否有腳

# yes no指的是否是魚類

def calcShannonEnt(dataSet):

numEntries = len(dataSet) # 用上面的createDataSet dataSet 這個值就是5

#定義標簽字典

labelCounts = {}

# 為所有可能的分類創建字典

for featVec in dataSet:

currentLabel = featVec[-1] #這個-1指的是去取最后一個維度對應數據dataSet 這里取的是yes和no

if currentLabel not in labelCounts.keys():

# 如果當前分類標簽不在標簽字典中

labelCounts[currentLabel] = 0

# 其他情況分類標簽分類加1

labelCounts[currentLabel] += 1

#定義香農熵以2為底數求對數

shannonEnt = 0.0

for key in labelCounts:

#計算 yes 或者No 出現的概率

pro = float(labelCounts[key])/numEntries

# 計算香農熵

shannonEnt -= pro*log(pro,2)

return shannonEnt

#dataSet是待劃分的數據集，劃分數據集的特征 axis 特征的返回值value

#最后是創建了一個新的列表對象

def splitDataSet(dataSet, axis , value):

# 創建新list對象

retDataSet = []

for featVec in dataSet:

if featVec[axis] == value:

reducedFeatVec = featVec[:axis]

reducedFeatVec.extend(featVec[axis+1:])

retDataSet.append(reducedFeatVec)

return retDataSet

# 選擇最好的特征值進行數據集劃分

def chooseBestFeatureToSplit(dataSet):

# len(dataSet[0])是計算這一行有多少列，即有多少個特征值

numFeatures = len(dataSet[0])-1 # -1 是最后一個特征值就不要記錄在內了，算baseEntrop的時候已經算了最后一個特征值yes no

baseEntropy = calcShannonEnt(dataSet)

bestInfoGain = 0.0

bestFeature = -1

for i in range(numFeatures):

#創建唯一的分類標簽列表也就是說提取dataSet每一行第i個值就提取dat

featList = [example[i] for example in dataSet]

# 取出有幾種特征值

uniqueVals = set(featList)

newEntropy = 0.0

for value in uniqueVals:

#創建特征值的子數據集

subDataSet = splitDataSet(dataSet,i, value)

#計算該特征值數據對總數在數據對總數出現的概率

pro = len(subDataSet)/float(len(dataSet))

#計算分割出來的子集香農熵

newEntropy += pro*calcShannonEnt(subDataSet)

#計算信息增益得到最好的特征值這個理論是這樣的g(D,A) = H(D)-H(D/A)

infoGain = baseEntropy-newEntropy

#取出最大的信息增益，此時特征值最大

if(infoGain >bestInfoGain):

bestInfoGain = infoGain

bestFeature = i

return bestFeature

'''

#構建決策樹是根據特征值的消耗來計算的，如果后面的特征值已經全部用完了

但是還沒有分出結果，這個時候就需要使用多數表決方式計算節點分類

最后返回最大的分類

'''

def majorityCnt(classList):

# 分類的字典

classCount = {}

for vote in range(classList):

#如果不在分類字典中

if vote not in classCount.keys(): classCount[vote] = 0

classCount[vote] += 1

# 根據出現的次數大到小排序

sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

return sortedClassCount[0][0]

#創建決策樹

def createTree(dataSet, labels):

# 獲取數據樣本每組最后一組的特征值這里是yes,no

classList = [example[-1] for example in dataSet]

# 如果說這個classList 全部都是 yes 或者全部是no 那肯定子返回yes 或者no

if(classList.count(classList[0]) == len(classList)):

return classList[0]

#如果遍歷完所有的特征返回出現次數最多的

#是用消耗特征值的方式進行構造決策樹的，每次會消掉一個特征值

if len(dataSet[0]) == 1:

return majorityCnt(classList)

#選擇最好的特征值

bestFeat = chooseBestFeatureToSplit(dataSet)

bestFeatLabel = labels[bestFeat]

myTree = {bestFeatLabel:{}}

# 刪除labels中的一特征值

del(labels[bestFeat])

#找到特征值那一列

featValues = [example[bestFeat] for example in dataSet]

uniqueVals = set(featValues)

for value in uniqueVals:

# labels列表的賦值

subLabels = labels[:]

myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)

return myTree

dataSet,lables = createDataSet()

shannonEnt= calcShannonEnt(dataSet)

my = createTree(dataSet,lables)

print(my)

總結

以上所述是小編給大家介紹的Python3.0 實現決策樹算法的流程,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對我們網站的支持！

如果你覺得本文對你有幫助，歡迎轉載，煩請注明出處，謝謝！

本文標題: Python3.0 實現決策樹算法的流程

本文地址: http://www.cppcns.com/jiaoben/python/267738.html

總結

以上是生活随笔為你收集整理的python实现决策树数据直接赋值导入_Python3.0 实现决策树算法的流程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jquery设置video的宽度_jqu
下一篇：嘉兴python培训_嘉服集团