决策树算法框架
決策樹算法框架
(一)決策樹主函數(shù)
????????各種決策樹的主函數(shù)都大同小異,本質(zhì)上是一個遞歸函數(shù)。該函數(shù)的主要功能是按照某種規(guī)則生長決策樹的各個分支節(jié)點(diǎn),并根據(jù)終止條件結(jié)束算法。一般來講,主函數(shù)需要完成如下幾個功能。
(1)輸入需要分類的數(shù)據(jù)集和類別標(biāo)簽。
(2)根據(jù)某種分類規(guī)則得到最優(yōu)的劃分特征,并創(chuàng)建特征的劃分節(jié)點(diǎn)----計(jì)算最優(yōu)特征子函數(shù)。
(3)按照該特征的每個取值劃分?jǐn)?shù)據(jù)集為若干部分------劃分?jǐn)?shù)據(jù)集子函數(shù)。
(4)根據(jù)劃分子函數(shù)的計(jì)算結(jié)果構(gòu)建出新的節(jié)點(diǎn),作為樹生長出的新分支。
(5)檢驗(yàn)是否符合遞歸的終止條件。
(6)將劃分的新節(jié)點(diǎn)包含的數(shù)據(jù)集和類別標(biāo)簽作為輸入,遞歸執(zhí)行上述步驟。
(二)計(jì)算最優(yōu)特征子函數(shù)
????????計(jì)算最優(yōu)特征子函數(shù)是除主函數(shù)外最重要的函數(shù)。每種決策樹之所以不同,一般都是因?yàn)樽顑?yōu)特征選擇的標(biāo)準(zhǔn)上有所差異,不同的標(biāo)準(zhǔn)導(dǎo)致不同類型的決策樹,例如ID3的最優(yōu)特征選擇是信息增益、C4.5是信息增益率、CART是節(jié)點(diǎn)方差的大小等。后面所講的理論部分,都是針對特征選擇標(biāo)準(zhǔn)而言的。
????????在算法邏輯上,一般選擇最優(yōu)特征需要遍歷整個數(shù)據(jù)集,評估每個特征,找到最優(yōu)的那一個特征返回。
(三)劃分?jǐn)?shù)據(jù)集函數(shù)
????????劃分?jǐn)?shù)據(jù)集函數(shù)的主要功能是分隔數(shù)據(jù)集,有的需要刪除某個特征軸所在的數(shù)據(jù)列,返回剩余的數(shù)據(jù)集;有的干脆將數(shù)據(jù)集一分為二,雖然實(shí)現(xiàn)有所不同,但基本含義都是一致的。
(四)分類器
????????所有的機(jī)器學(xué)習(xí)算法都要用于分類或回歸預(yù)測。決策樹的分類器就是通過遍歷整個決策樹,使測試集數(shù)據(jù)找到?jīng)Q策樹中葉子節(jié)點(diǎn)對應(yīng)的類別標(biāo)簽。這個標(biāo)簽就是返回的結(jié)果。
上述四大部分構(gòu)成了決策樹算法的基本框架。
總結(jié)
- 上一篇: wget for windows 下载与
- 下一篇: 图像处理:给验证码图片做降噪处理及数据清