C4.5决策树
概述
C4.5针对ID3的几个缺点做了改进
ID3缺点 | C4.5改进 |
---|---|
信息增益会偏好多分叉的属性 | 采用信息增益率来替代 |
不能对连续数据进行处理 | 加入了连续数据的处理方法 |
树结构可能过于复杂,导致过拟合 | 加入了剪枝处理 |
C4.5和ID3一样还是多叉树
纯度公式
分裂信息度量/内在信息/Instrisic Information
父类本身的不确定性
如
注意分清
信息增益率/Information Gain Ratio
如
这就是C4.5的纯度公式
离散数据处理
和ID3没区别, 只是换了个纯度公式
连续数据处理
比如根据温度, 判断要不要出门
先将温度升序排列, 如下
序号 | 天气 | 温度 | 是否出门 |
---|---|---|---|
1 | 晴 | 17 | 是 |
2 | 阴 | 23 | 否 |
3 | 阴 | 25 | 是 |
4 | 晴 | 27 | 是 |
5 | 阴 | 28 | 否 |
6 | 晴 | 30 | 是 |
然后选择温度的分割点, 6个温度, 就有5个分割点{<=17, >17}, {<=23, >23}….
然后有一条简单的策略减少分割点数, 分割点左右的是否出门项, 必须是不同的
如{<=25, >25}, 分割点左右两项是3号/4号, 都是出门的, 那么这样分割就把同类分开了, 所以不这么分割
因此, 该表仅有4个分割点
接下来就是算各个分割点的信息增益率了, 然后进行二分叉