CART决策树

CART决策树

概述

  1. CART决策树不同于ID3仅用于分类, CART既可用于分类, 又可用于回归(分类即是否结婚, 回归即几岁)
  2. 回归不难理解, 就是先分类构造出决策树. 接下来回归预测这个人几岁, 把他先分类到所属类, 所属类的均值/中值等就认为是他的岁数, 即回归结果
  3. CART只能是二叉, 不像ID3和C4.5那样可以多叉

CART分类树

纯度公式

构造分类树

如下图进行构造“是否结婚”的决策树

CART决策树_image_1_20240518224833.png

先算算最初的GINI值


按照{“学生”}、{“老师”、“上班族”}分叉

CART决策树_image_2_20240518224833.png

再算算GINI值, 两部分GINI值加权平均


可见分类后熵值降低了

再采取其他分类方式, 如{“学生”、“老师”}、{“上班族”}, 如{看电视时间<=5}、{看电视时间>5}

然后找出最优的分叉, 每次分叉后重新遍历所有分类, 找最优分叉

CART回归树

纯度公式

使用标准差作为纯度公式

构造回归树

将下图构造年龄回归树

CART决策树_image_1_20240518224833.png

先算年龄标准差


CART决策树_image_2_20240518224833.png

标准差不能平均, 是直接相加


可见这种分类反而使得熵值变大

同理继续看看其他分类, 选取最优分类

最后得出的分类, 每个类求出均值或中值, 作为回归结果

参考资料

决策树系列(五)——CART