當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

R语言-决策树-party包

發(fā)布時間：2025/4/5 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 R语言-决策树-party包小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1、首先解釋下熵和吉尼系數(shù)在決策樹的功用

?????? 決策樹學(xué)習(xí)的關(guān)鍵是如何選擇最優(yōu)的劃分屬性。通常，隨著劃分過程的不斷進(jìn)行，我們希望決策樹的內(nèi)部分支節(jié)點所包含的樣本盡可能屬于同一類別，即節(jié)點的“純度”越來越高。

?????? “熵”是衡量樣本數(shù)據(jù)集純度最常用的一種指標(biāo)。熵值越小，則樣本的純度越高，或者說樣本的雜亂程度越小。

?????? “吉尼系數(shù)”也可以用來衡量樣本數(shù)據(jù)集的純度。吉尼系數(shù)越小，則表示該節(jié)點可以有效的把同一類聚集在一起。反之，分割后的類別越雜亂，則吉尼系數(shù)會越大。在決策樹生成時，當(dāng)用到吉尼系數(shù)這個方法時，通常會計算每一個特征的吉尼系數(shù)，接著比較各個特征下的吉尼系數(shù)，系數(shù)越小的特征越適合先作為內(nèi)部節(jié)點。

2、party包，readingskills數(shù)據(jù)，建立nativespeaker決策樹

直接放R語言代碼

#install.packages(“rpart”) #安裝party包，只需在首次運行改腳本時安裝 library("party") #調(diào)出party包 mydata <- readingSkills #將readingSkills數(shù)據(jù)存儲在mydata里頭 names(mydata) #查看mydata中有幾個變量 str(mydata) #查看每個變量的數(shù)據(jù)結(jié)構(gòu) summary(mydata) #計算各變量的基本描述性統(tǒng)計量plot(x = mydata$shoeSize, y = mydata$score, xlab = "shoeSize",ylab = "score",main = "shoeSize VS score") #畫shoeSize和score散點圖，X軸是shoeSize，Y軸是score，圖名是"shoeSize VS score"library(rpart) #調(diào)出rpart包 my.tree <- rpart(formula=nativeSpeaker ~ age + shoeSize + score, method="class",minsplit =20, cp=0.05, data=mydata) #決策樹結(jié)果存在my.tree對象中printcp(my.tree) #顯示不同cp值下的錯誤率#install.packages("rpart.plot") #安裝rpart.plot包，只需在首次運行改腳本時安裝 library(rpart.plot) #調(diào)出rpart.plot包 rpart.plot(my.tree, type=2) #type是圖形表示的類型，有1、2、3、4四種，差異不大

總結(jié)

以上是生活随笔為你收集整理的R语言-决策树-party包的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：本地Python连接服务器中的Mysql
下一篇： R语言-时间序列-arima模型-for