C4.5决策树

C4.5决策树

概述

C4.5针对ID3的几个缺点做了改进

ID3缺点 C4.5改进
信息增益会偏好多分叉的属性 采用信息增益率来替代
不能对连续数据进行处理 加入了连续数据的处理方法
树结构可能过于复杂,导致过拟合 加入了剪枝处理

C4.5和ID3一样还是多叉树

纯度公式

分裂信息度量/内在信息/Instrisic Information

父类本身的不确定性

注意分清

信息增益率/Information Gain Ratio

这就是C4.5的纯度公式

离散数据处理

和ID3没区别, 只是换了个纯度公式

连续数据处理

比如根据温度, 判断要不要出门

先将温度升序排列, 如下

序号 天气 温度 是否出门
1 17
2 23
3 25
4 27
5 28
6 30

然后选择温度的分割点, 6个温度, 就有5个分割点{<=17, >17}, {<=23, >23}….

然后有一条简单的策略减少分割点数, 分割点左右的是否出门项, 必须是不同的

如{<=25, >25}, 分割点左右两项是3号/4号, 都是出门的, 那么这样分割就把同类分开了, 所以不这么分割

因此, 该表仅有4个分割点

接下来就是算各个分割点的信息增益率了, 然后进行二分叉

参考资料

数据挖掘领域十大经典算法之C4.5算法(超详细附代码)

C4.5 算法对于连续性属性的处理方法介绍