R语言-决策树-party包
生活随笔
收集整理的這篇文章主要介紹了
R语言-决策树-party包
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1、首先解釋下熵和吉尼系數(shù)在決策樹的功用
?????? 決策樹學(xué)習(xí)的關(guān)鍵是如何選擇最優(yōu)的劃分屬性。通常,隨著劃分過程的不斷進(jìn)行,我們希望決策樹的內(nèi)部分支節(jié)點所包含的樣本盡可能屬于同一類別,即節(jié)點的“純度”越來越高。
?????? “熵”是衡量樣本數(shù)據(jù)集純度最常用的一種指標(biāo)。熵值越小,則樣本的純度越高,或者說樣本的雜亂程度越小。
?????? “吉尼系數(shù)”也可以用來衡量樣本數(shù)據(jù)集的純度。吉尼系數(shù)越小,則表示該節(jié)點可以有效的把同一類聚集在一起。反之,分割后的類別越雜亂,則吉尼系數(shù)會越大。在決策樹生成時,當(dāng)用到吉尼系數(shù)這個方法時,通常會計算每一個特征的吉尼系數(shù),接著比較各個特征下的吉尼系數(shù),系數(shù)越小的特征越適合先作為內(nèi)部節(jié)點。
2、party包,readingskills數(shù)據(jù),建立nativespeaker決策樹
直接放R語言代碼
#install.packages(“rpart”) #安裝party包,只需在首次運行改腳本時安裝 library("party") #調(diào)出party包 mydata <- readingSkills #將readingSkills數(shù)據(jù)存儲在mydata里頭 names(mydata) #查看mydata中有幾個變量 str(mydata) #查看每個變量的數(shù)據(jù)結(jié)構(gòu) summary(mydata) #計算各變量的基本描述性統(tǒng)計量plot(x = mydata$shoeSize, y = mydata$score, xlab = "shoeSize",ylab = "score",main = "shoeSize VS score") #畫shoeSize和score散點圖,X軸是shoeSize,Y軸是score,圖名是"shoeSize VS score"library(rpart) #調(diào)出rpart包 my.tree <- rpart(formula=nativeSpeaker ~ age + shoeSize + score, method="class",minsplit =20, cp=0.05, data=mydata) #決策樹結(jié)果存在my.tree對象中printcp(my.tree) #顯示不同cp值下的錯誤率#install.packages("rpart.plot") #安裝rpart.plot包,只需在首次運行改腳本時安裝 library(rpart.plot) #調(diào)出rpart.plot包 rpart.plot(my.tree, type=2) #type是圖形表示的類型,有1、2、3、4四種,差異不大總結(jié)
以上是生活随笔為你收集整理的R语言-决策树-party包的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 本地Python连接服务器中的Mysql
- 下一篇: R语言-时间序列-arima模型-for