当前位置: 首页>> 舆情简评 >>正文

机器学习算法实践-决策树

2020-03-03 13:56 作者:蚁坊软件研究院浏览次数:7233 标签: 机器学习 深度学习算法

"速读全网"舆情，了解传播路径，把握发展态势——点击试用鹰眼速读网全网舆情监测分析系统

决策树是一种基本的分类与回归方法。

在分类问题中，表示基于特征对实例进行分类的过程，可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布[1]。

在回归问题中，回归树总体流程类似于分类树，分枝时穷举每一个特征的每一个阈值，来寻找最优切分特征j和最优切分点s，衡量的方法是平方误差最小化。分枝直到达到预设的终止条件(如叶子个数上限)就停止。

0 决策树主要学习内容

1. 决策树模型：掌握决策树模型：根结点，子结点，叶结点。

2. 特征选择：如何从特征空间中选择最优特征作为结点，常用方法信息熵，信息增益，信息增益比，基尼指数。

3. 不同特征选择对应不同算法:

ID3(基于信息增益作为特征选择的度量）

C4.5(基于信息增益比作为特征选择的度量)

CART(基于基尼指数作为特征选择的度量)

4. 决策树的修剪：缩小树结构规模、缓解训练集上的过拟合，提高模型的泛化能力。

1、决策树模型

决策树呈树形结构，由结点和有向边组成。结点有两种类型：内部结点和叶结点，内部节点表示一个特征或属性，叶结点表示一个类别。

决策树分类，从根结点开始，对实例进行特征选择，根据最优特征选择将实例分配到其子结点(如何求最优特征，这将是决策树的重中之重)，这时，每一个子结点对应着该特征的一个取值，如此递归地对实例进行测试并分配，直到达到叶结点，将实例全部分到叶结点的类中。

决策树在逻辑上以树的形式存在，包含根结点、内部结点(子结点)和叶结点。

1）根结点：包含数据集中的所有数据的集合，根结点有且仅有一个。

2）内部结点：每个内部结点可看作一个判断条件，并且包含数据集中满足从根节点到该结点所有条件的数据的集合。根据内部结点的判断结果，将内部结点所包含的数据集分到两个或多个子结点中。

3）叶结点：叶结点为最终的类别，包含在该叶结点的数据属于该类别。

例：

提出问题：

为何要用特征“香不香”为根节点呢?为何不选“辣不辣”或者“甜不甜”为根节点呢？

答:这是因为“香不香”这一特征相比其他特征更具有将训练数据分类的能力。

那是如何判断这一特征更具有将训练数据分类的能力呢？

答:这需要进行特征选择，常用方法有信息增益、信息增益比、基尼指数。

2、特征选择及用其分类的算法

2.1 前期准备工作

首先需要介绍一下信息熵，条件熵。

2.1.1信息熵

在信息论中，一个特征所带的信息量又称信息熵，熵度量了事物的不确定性，越不确定的事物，它的熵就越大。

当概率为0.5时，熵的取值最大，也就是说，随机变量不确定性最大。

2.1.2 条件熵

如有两个随机变量呢？

设有随机变量(X,Y),其联合概率分布为：

2.2 信息增益[1]

信息增益，主要看一个特征能够为分类系统带来多少信息，带来的信息越多，则该特征越重要。没它和有它的信息量（信息熵）差值就是这个特征给系统带来的信息量，也称信息增益。简单来说就是在现有训练集包含的信息熵和已知某特征下的信息熵的差值即该特征的信息增益。

由于熵和条件熵中的概率通常无法直接得到，所以在实际中用频率代替概率。使用频率的熵和条件熵也分别称经验熵和条件经验熵。

2.2.1 基于信息增益的ID3算法[1]

ID3算法的核心：是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。

选择信息增益最大的特征A2(有工作)作为结点的特征，由于A2有两个可能取值，从这一结点可引发两个子结点，一个“是”有工作，一个“否”有工作。据实例，在D2训练集下(9个人)，有工作的3人属于同类(批准贷款申请)，所以为一个叶结点。类标记为“是”，另一个无工作的6人也属于同类(未批准贷款申请)，也可为一个叶结点，类标记为“否”。

该决策树模型图为：