CART决策树
概述
- CART决策树不同于ID3仅用于分类, CART既可用于分类, 又可用于回归(分类即是否结婚, 回归即几岁)
- 回归不难理解, 就是先分类构造出决策树. 接下来回归预测这个人几岁, 把他先分类到所属类, 所属类的均值/中值等就认为是他的岁数, 即回归结果
- CART只能是二叉, 不像ID3和C4.5那样可以多叉
CART分类树
纯度公式
构造分类树
如下图进行构造“是否结婚”的决策树

先算算最初的GINI值
按照{“学生”}、{“老师”、“上班族”}分叉

再算算GINI值, 两部分GINI值加权平均
可见分类后熵值降低了
再采取其他分类方式, 如{“学生”、“老师”}、{“上班族”}, 如{看电视时间<=5}、{看电视时间>5}
然后找出最优的分叉, 每次分叉后重新遍历所有分类, 找最优分叉
CART回归树
纯度公式
使用标准差作为纯度公式
构造回归树
将下图构造年龄回归树

先算年龄标准差

标准差不能平均, 是直接相加
可见这种分类反而使得熵值变大
同理继续看看其他分类, 选取最优分类
最后得出的分类, 每个类求出均值或中值, 作为回归结果