【机器学习】机器学习算法 随机森林学习 之决策树
隨機森林是基于集體智慧的一個機器學習算法,也是目前最好的機器學習算法之一。
隨機森林實際是一堆決策樹的組合(正如其名,樹多了就是森林了)。在用于分類一個新變量時,相關的檢測數據提交給構建好的每個分類樹。每個樹給出一個分類結果,最終選擇被最多的分類樹支持的分類結果。回歸則是不同樹預測出的值的均值。
要理解隨機森林,我們先學習下決策樹。
決策樹 - 把你做選擇的過程呈現出來
決策樹是一個很直觀的跟我們日常做選擇的思維方式很相近的一個算法。
如果有一個數據集如下:
data <- data.frame(x=c(0,0.5,1.1,1.8,1.9,2,2.5,3,3.6,3.7), color=c(rep('blue',5),rep('green',5))) data## x color ## 1 0.0 blue ## 2 0.5 blue ## 3 1.1 blue ## 4 1.8 blue ## 5 1.9 blue ## 6 2.0 green ## 7 2.5 green ## 8 3.0 green ## 9 3.6 green ## 10 3.7 green那么假如加入一個新的點,其x值為1,那么該點對應的最可能的顏色是什么?
根據上面的數據找規律,如果x<2.0則對應的點顏色為blue,如果x>=2.0則對應的點顏色為green。這就構成了一個只有一個決策節點的簡單決策樹。
決策樹常用來回答這樣的問題:給定一個帶標簽的數據集(標簽這里對應我們的color列),怎么來對新加入的數據集進行分類?
如果數據集再復雜一些,如下,
data <- data.frame(x=c(0,0.5,1.1,1.8,1.9,2,2.5,3,3.6,3.7),y=c(1,0.5,1.5,2.1,2.8,2,2.2,3,3.3,3.5),color=c(rep('blue',3),rep('red',2),rep('green',5)))data## x y color ## 1 0.0 1.0 blue ## 2 0.5 0.5 blue ## 3 1.1 1.5 blue ## 4 1.8 2.1 red ## 5 1.9 2.8 red ## 6 2.0 2.0 green ## 7 2.5 2.2 green ## 8 3.0 3.0 green ## 9 3.6 3.3 green ## 10 3.7 3.5 green如果x>=2.0則對應的點顏色為green。
如果x<2.0則對應的點顏色可能為blue,也可能為red。
這時就需要再加一個新的決策節點,利用變量y的信息。
這就是決策樹,也是我們日常推理問題的一般方式。
訓練決策樹 - 確定決策樹的根節點
第一個任務是確定決策樹的根節點:選擇哪個變量和對應閾值選擇多少能給數據做出最好的區分。
比如上面的例子,我們可以先處理變量x,選擇閾值為2 (為什么選2,是不是有比2更合適閾值,我們后續再說),則可獲得如下分類:
我們也可以先處理變量y,選擇閾值為2,則可獲得如下分類:
那實際需要選擇哪個呢?
實際我們是希望每個選擇的變量和閾值能把不同的類分的越開越好;上面選擇變量x分組時,Green完全分成一組;下面選擇y分組時,Blue完全分成一組。怎么評價呢?
這時就需要一個評價指標,常用的指標有Gini inpurity和Information gain。
Gini Impurity
在數據集中隨機選擇一個數據點,并隨機分配給它一個數據集中存在的標簽,分配錯誤的概率即為Gini impurity。
我們先看第一套數據集,10個數據點,5個blue,5個green。從中隨機選一個數據點,再隨機選一個分類標簽作為這個數據點的標簽,分類錯誤的概率是多少?如下表,錯誤概率為0.25+0.25=0.5(看下面的計算過程)。
probility <- data.frame(Event=c("Pick Blue, Classify Blue","Pick Blue, Classify Green","Pick Green, Classify Blue","Pick Green, Classify Green"), Probability=c(5/10 * 5/10, 5/10 * 5/10, 5/10 * 5/10, 5/10 * 5/10),Type=c("Blue" == "Blue","Blue" == "Green","Green" == "Blue","Green" == "Green")) probility## Event Probability Type ## 1 Pick Blue, Classify Blue 0.25 TRUE ## 2 Pick Blue, Classify Green 0.25 FALSE ## 3 Pick Green, Classify Blue 0.25 FALSE ## 4 Pick Green, Classify Green 0.25 TRUE我們再看第二套數據集,10個數據點,2個red,3個blue,5個green。從中隨機選一個數據點,再隨機選一個分類標簽作為這個數據點的標簽,分類錯誤的概率是多少?0.62。
probility <- data.frame(Event=c("Pick Blue, Classify Blue","Pick Blue, Classify Green","Pick Blue, Classify Red","Pick Green, Classify Blue","Pick Green, Classify Green","Pick Green, Classify Red","Pick Red, Classify Blue","Pick Red, Classify Green","Pick Red, Classify Red"),Probability=c(3/10 * 3/10, 3/10 * 5/10, 3/10 * 2/10, 5/10 * 3/10, 5/10 * 5/10, 5/10 * 2/10,2/10 * 3/10, 2/10 * 5/10, 2/10 * 2/10),Type=c("Blue" == "Blue","Blue" == "Green","Blue" == "Red","Green" == "Blue","Green" == "Green","Green" == "Red","Red" == "Blue","Red" == "Green","Red" == "Red")) probility## Event Probability Type ## 1 Pick Blue, Classify Blue 0.09 TRUE ## 2 Pick Blue, Classify Green 0.15 FALSE ## 3 Pick Blue, Classify Red 0.06 FALSE ## 4 Pick Green, Classify Blue 0.15 FALSE ## 5 Pick Green, Classify Green 0.25 TRUE ## 6 Pick Green, Classify Red 0.10 FALSE ## 7 Pick Red, Classify Blue 0.06 FALSE ## 8 Pick Red, Classify Green 0.10 FALSE ## 9 Pick Red, Classify Red 0.04 TRUEWrong_probability = sum(probility[!probility$Type,"Probability"]) Wrong_probability## [1] 0.62Gini Impurity計算公式:
假如我們的數據點共有C個類,p(i)是從中隨機拿到一個類為i的數據,Gini Impurity計算公式為:
$$ G = \sum_{i=1}^{C} p(i)*(1-p(i)) $$?
對第一套數據集,10個數據點,5個blue,5個green。從中隨機選一個數據點,再隨機選一個分類標簽作為這個數據點的標簽,分類錯誤的概率是多少?錯誤概率為0.25+0.25=0.5。
對第二套數據集,10個數據點,2個red,3個blue,5個green。
從中隨機選一個數據點,再隨機選一個分類標簽作為這個數據點的標簽,分類錯誤的概率是多少?0.62。
決策樹分類后的Gini Impurity
對第一套數據集來講,按照x<2分成兩個分支,各個分支都只包含一個分類數據,各自的Gini IMpurity值為0。
這是一個完美的決策樹,把Gini Impurity為0.5的數據集分類為2個Gini Impurity為0的數據集。Gini Impurity==?0是能獲得的最好的分類結果。
第二套數據集,我們有兩種確定根節點的方式,哪一個更優呢?
我們可以先處理變量x,選擇閾值為2,則可獲得如下分類:
每個分支的Gini Impurity可以如下計算:
當前決策的Gini impurity需要對各個分支包含的數據點的比例進行加權,即
我們也可以先處理變量y,選擇閾值為2,則可獲得如下分類:
每個分支的Gini Impurity可以如下計算:
當前決策的Gini impurity需要對各個分支包含的數據點的比例進行加權,即
兩個數值比較0.24<0.29,選擇x作為第一個分類節點是我們第二套數據第一步決策樹的最佳選擇。
前面手算單個變量、單個分組不算麻煩,也是個學習的過程。后續如果有更多變量和閾值時,再手算就不合適了。下一篇我們通過暴力方式自寫函數訓練決策樹。
當前計算的結果,可以作為正對照,確定后續函數結果的準確性。
訓練決策樹 - 確定根節點的分類閾值
Gini impurity可以用來判斷每一步最合適的決策分類方式,那么怎么確定最優的分類變量和分類閾值呢?
最粗暴的方式是,我們用每個變量的每個可能得閾值來進行決策分類,選擇具有最低Gini impurity值的分類組合。這不是最快速的解決問題的方式,但是最容易理解的方式。
定義計算Gini impurity的函數
data <- data.frame(x=c(0,0.5,1.1,1.8,1.9,2,2.5,3,3.6,3.7),y=c(1,0.5,1.5,2.1,2.8,2,2.2,3,3.3,3.5),color=c(rep('blue',3),rep('red',2),rep('green',5)))data## x y color ## 1 0.0 1.0 blue ## 2 0.5 0.5 blue ## 3 1.1 1.5 blue ## 4 1.8 2.1 red ## 5 1.9 2.8 red ## 6 2.0 2.0 green ## 7 2.5 2.2 green ## 8 3.0 3.0 green ## 9 3.6 3.3 green ## 10 3.7 3.5 green首先定義個函數計算Gini_impurity。
Gini_impurity <- function(branch){# print(branch)len_branch <- length(branch)if(len_branch==0){return(0)}table_branch <- table(branch)wrong_probability <- function(x, total) (x/total*(1-x/total))return(sum(sapply(table_branch, wrong_probability, total=len_branch))) }測試下,沒問題。
Gini_impurity(c(rep('a',2),rep('b',3)))## [1] 0.48再定義一個函數,計算每次決策的總Gini impurity.
Gini_impurity_for_split_branch <- function(threshold, data, variable_column, class_column, Init_gini_impurity=NULL){total = nrow(data)left <- data[data[variable_column]<threshold,][[class_column]]left_len = length(left)left_table = table(left)left_gini <- Gini_impurity(left)right <- data[data[variable_column]>=threshold,][[class_column]]right_len = length(right)right_table = table(right)right_gini <- Gini_impurity(right)total_gini <- left_gini * left_len / total + right_gini * right_len /totalresult = c(variable_column,threshold, paste(names(left_table), left_table, collapse="; ", sep=" x "),paste(names(right_table), right_table, collapse="; ", sep=" x "),total_gini)names(result) <- c("Variable", "Threshold", "Left_branch", "Right_branch", "Gini_impurity")if(!is.null(Init_gini_impurity)){Gini_gain <- Init_gini_impurity - total_giniresult = c(variable_column, threshold, paste(names(left_table), left_table, collapse="; ", sep=" x "),paste(names(right_table), right_table, collapse="; ", sep=" x "),Gini_gain)names(result) <- c("Variable", "Threshold", "Left_branch", "Right_branch", "Gini_gain")}return(result) }測試下,跟之前計算的結果一致:
as.data.frame(rbind(Gini_impurity_for_split_branch(2, data, 'x', 'color'), Gini_impurity_for_split_branch(2, data, 'y', 'color')))## Variable Threshold Left_branch Right_branch Gini_impurity ## 1 x 2 blue x 3; red x 2 green x 5 0.24 ## 2 y 2 blue x 3 green x 5; red x 2 0.285714285714286暴力決策根節點和閾值
基于前面定義的函數,遍歷每一個可能得變量和閾值。
首先看下基于變量x的計算方法:
uniq_x <- sort(unique(data$x)) delimiter_x <- zoo::rollmean(uniq_x,2) impurity_x <- as.data.frame(do.call(rbind, lapply(delimiter_x, Gini_impurity_for_split_branch, data=data, variable_column='x', class_column='color'))) print(impurity_x)## Variable Threshold Left_branch Right_branch Gini_impurity ## 1 x 0.25 blue x 1 blue x 2; green x 5; red x 2 0.533333333333333 ## 2 x 0.8 blue x 2 blue x 1; green x 5; red x 2 0.425 ## 3 x 1.45 blue x 3 green x 5; red x 2 0.285714285714286 ## 4 x 1.85 blue x 3; red x 1 green x 5; red x 1 0.316666666666667 ## 5 x 1.95 blue x 3; red x 2 green x 5 0.24 ## 6 x 2.25 blue x 3; green x 1; red x 2 green x 4 0.366666666666667 ## 7 x 2.75 blue x 3; green x 2; red x 2 green x 3 0.457142857142857 ## 8 x 3.3 blue x 3; green x 3; red x 2 green x 2 0.525 ## 9 x 3.65 blue x 3; green x 4; red x 2 green x 1 0.577777777777778再包裝2個函數,一個計算單個變量為節點的各種可能決策的Gini impurity, 另一個計算所有變量依次作為節點的各種可能決策的Gini impurity。
Gini_impurity_for_all_possible_branches_of_one_variable <- function(data, variable, class, Init_gini_impurity=NULL){uniq_value <- sort(unique(data[[variable]]))delimiter_value <- zoo::rollmean(uniq_value,2)impurity <- as.data.frame(do.call(rbind, lapply(delimiter_value, Gini_impurity_for_split_branch, data=data, variable_column=variable, class_column=class,Init_gini_impurity=Init_gini_impurity)))if(is.null(Init_gini_impurity)){decreasing = F} else {decreasing = T}impurity <- impurity[order(impurity[[colnames(impurity)[5]]], decreasing = decreasing),]return(impurity) }Gini_impurity_for_all_possible_branches_of_all_variables <- function(data, variables, class, Init_gini_impurity=NULL){one_split_gini <- do.call(rbind, lapply(variables,Gini_impurity_for_all_possible_branches_of_one_variable, data=data, class=class,Init_gini_impurity=Init_gini_impurity))if(is.null(Init_gini_impurity)){decreasing = F} else {decreasing = T}one_split_gini[order(one_split_gini[[colnames(one_split_gini)[5]]], decreasing = decreasing),] }測試下:
Gini_impurity_for_all_possible_branches_of_one_variable(data, 'x', 'color')## Variable Threshold Left_branch Right_branch Gini_impurity ## 5 x 1.95 blue x 3; red x 2 green x 5 0.24 ## 3 x 1.45 blue x 3 green x 5; red x 2 0.285714285714286 ## 4 x 1.85 blue x 3; red x 1 green x 5; red x 1 0.316666666666667 ## 6 x 2.25 blue x 3; green x 1; red x 2 green x 4 0.366666666666667 ## 2 x 0.8 blue x 2 blue x 1; green x 5; red x 2 0.425 ## 7 x 2.75 blue x 3; green x 2; red x 2 green x 3 0.457142857142857 ## 8 x 3.3 blue x 3; green x 3; red x 2 green x 2 0.525 ## 1 x 0.25 blue x 1 blue x 2; green x 5; red x 2 0.533333333333333 ## 9 x 3.65 blue x 3; green x 4; red x 2 green x 1 0.577777777777778兩個變量的各個閾值分別進行決策,并計算Gini impurity,輸出按Gini impurity由小到大排序后的結果。根據變量x和閾值1.95(與上面選擇的閾值2獲得的決策結果一致)的決策可以獲得本步決策的最好結果。
variables <- c('x', 'y') Gini_impurity_for_all_possible_branches_of_all_variables(data, variables, class="color")## Variable Threshold Left_branch Right_branch Gini_impurity ## 5 x 1.95 blue x 3; red x 2 green x 5 0.24 ## 3 x 1.45 blue x 3 green x 5; red x 2 0.285714285714286 ## 31 y 1.75 blue x 3 green x 5; red x 2 0.285714285714286 ## 4 x 1.85 blue x 3; red x 1 green x 5; red x 1 0.316666666666667 ## 6 x 2.25 blue x 3; green x 1; red x 2 green x 4 0.366666666666667 ## 41 y 2.05 blue x 3; green x 1 green x 4; red x 2 0.416666666666667 ## 2 x 0.8 blue x 2 blue x 1; green x 5; red x 2 0.425 ## 21 y 1.25 blue x 2 blue x 1; green x 5; red x 2 0.425 ## 51 y 2.15 blue x 3; green x 1; red x 1 green x 4; red x 1 0.44 ## 7 x 2.75 blue x 3; green x 2; red x 2 green x 3 0.457142857142857 ## 71 y 2.9 blue x 3; green x 2; red x 2 green x 3 0.457142857142857 ## 61 y 2.5 blue x 3; green x 2; red x 1 green x 3; red x 1 0.516666666666667 ## 8 x 3.3 blue x 3; green x 3; red x 2 green x 2 0.525 ## 81 y 3.15 blue x 3; green x 3; red x 2 green x 2 0.525 ## 1 x 0.25 blue x 1 blue x 2; green x 5; red x 2 0.533333333333333 ## 11 y 0.75 blue x 1 blue x 2; green x 5; red x 2 0.533333333333333 ## 9 x 3.65 blue x 3; green x 4; red x 2 green x 1 0.577777777777778 ## 91 y 3.4 blue x 3; green x 4; red x 2 green x 1 0.577777777777778再決策第二個節點、第三個節點
第一個決策節點找好了,后續再找其它決策節點。如果某個分支的點從屬于多個class,則遞歸決策。
遞歸決策終止的條件是:
再添加分支不會降低Gini impurity
某個分支的數據點屬于同一分類組 (Gini impurity = 0)
運行后,獲得兩個決策節點,繪制決策樹如下:
從返回的Gini gain表格可以看出,第二個節點有兩種效果一樣的分支方式。
這樣我們就用暴力方式完成了決策樹的構建。
隨機森林
data2 <- data.frame(x=c(0.4,0.8,1.1,1.1,1.2,1.3,2.3,2.4,3), ? ? ? ? ? ? ? ? ? ? ? y=c(2.9,0.8,1.8,2.4,2.3,1.2,2.1,3,1.2), ? ? ? ? ? ? ? ? ? ? ? color=c(rep(‘blue’,3),rep(‘red’,3),rep(‘green’,3)))
original_gini <- Gini_impurity(data2$color)uniq_x <- sort(unique(data2$x)) delimiter_x <- zoo::rollmean(uniq_x,2) t(sapply(delimiter_x, split_branch_gini, data=data2, variable_column='x', class_column='color', original_gini=original_gini))library(rpart) library(rpart.plot) library(rattle) fit <- rpart(color ~ x, data = data) fancyRpartPlot(fit) plot(fit, branch = 1)https://victorzhou.com/blog/intro-to-random-forests/
https://victorzhou.com/blog/gini-impurity/
https://stats.stackexchange.com/questions/192310/is-random-forest-suitable-for-very-small-data-sets
https://towardsdatascience.com/understanding-random-forest-58381e0602d2
https://www.stat.berkeley.edu/~breiman/RandomForests/reg_philosophy.html
https://medium.com/@williamkoehrsen/random-forest-simple-explanation-377895a60d2d
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》課件合集 本站qq群851320808,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【机器学习】机器学习算法 随机森林学习 之决策树的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原始servlet+hibernate+
- 下一篇: 【推荐系统】双塔模型中的负采样