决策树基础-【官方】百战程序员_IT在线教育培训机构

百战程序员，全站22050+开发课程+文档，学习精选优质好课快人一步！观看视频快捷键ALT+N

Python全系列教程

3567个小节阅读：5930.1k

全部开发者教程

143_申请评分卡3031

29_Mysql

数据结构与算法

01_Python入门

02_编程的基本概念

03_字符串

04_序列

05_控制语句

06_函数用法和底层分析

07_面向对象基础

08_面向对象进阶

09_异常机制

10_文件

11_模块

12_GUI编程（选学）

13_项目开发实例（选学）

14_pygame模块操作

16_并发编程（线程、进程、协程）

17_网络编程

19_装饰器

21_正则表达式

22_Python新特性汇总

23_源码深度剖析和内存管理

25_统计学基础

26_Django初级

27_Tornado

28_tornado项目

31_Hadoop 离线体系：Hive

32_Hadoop 分布式文件系统HDFS

34_电商大数据

35_Git的使用

36_docker容器扩展

37_Redis

38_深度学习-认识深度学习_PyTorch入门

39_神经网络基础

40_卷积神经网络（CNN）

41_迁移学习

43_CNN目标检测

42_生成对抗网络_GAN

44_循环神经网络与NLP

46_scrapy框架使用

47_爬虫基础

49_移动端爬虫

50_爬虫反反爬

51_办公自动化

52_算法与数据结构

53_数据可视化PowerBI

56_Flask视图高级

57_Flask高级

58_机器学习预备知识

59_KNN与交叉检验

61_线性回归与梯度下降法

62_逻辑回归与Softmax回归

63_多项式回归、过拟合、模型正则化

64_分类算法的评价

65_KMeans聚类与降维算法

67_SVM与朴素贝叶斯算法

68_Kaggle竞赛

69_SPSS

70_HTML5

71_二手车价格预测

72_旅游景点票价预测

73_工资分类预测

74_广告点击转化率预测

75_文本分类-自然语言处理

76_音乐推荐系统

77_银行客户流失分析

78_申请评分卡

80_JavaScript语言

81_基础知识

82_描述统计

83_抽样分布

84_参数估计

85_假设检验

86_方差分析

87_协方差与相关系数

88_非参数方法

89_线性回归

93_Django项目阶段-电商项目

96_Linux操作系统概述与安装

97_Linux常用命令

98_python操作mysql

98_Linux用户权限和软件安装与管理

99_Django初级

100_Django中级

101_Django高级

102_SPSS

103_智能推荐系统

104_关联规则分析与Apriori算法

105_Gensim与LDA主题模型

106_Git

107_Flask百战电商后台项目

111_数据获取函数

109_量化交易概论

110_量化交易平台

112_量化选股

113_量化择时

114_量化策略的机器学习算法运用

115_量化交易策略的回测

116_量化交易策略的因子

117_量化交易策略实战

118_电商大数据购买行为分析项目

119_数据分析_数学知识

120_Anaconda环境搭建

121_Linux 环境编程基础

122_项目-音乐播放器

127_Pandas基本使用3015

128_Python开发环境搭建

129_内存管理

130_Django项目3018

131_docker容器扩展

133_数据分析案例_案例2_电影数据分析3021

134_数据分析案例_案例3_机场延迟分析

135_数据分析案例_案例1_足球数据分析

136_二手车价格预测

137_旅游景点票价预测

138_工资分类预测

139_广告点击转化率预测

140_文本分类-自然语言处理

141_音乐推荐系统

142_银行客户流失分析

鸿蒙应用开发

C语言快速入门

JAVA全系列教程

面向对象的程序设计语言

Python全系列教程

Python3.x版本，未来主流的版本

人工智能教程

顺势而为，AI创新未来

大厂算法教程

算法，程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务教程

目前业界流行的框架组合

web前端全系列教程

通向WEB技术世界的钥匙

大数据全系列教程

站在云端操控万千数据

AIGC全能工具班

A A

White Night

阅读(870)

决策树基础

什么是决策树

决策树学习的算法通常是一个递归地选择最优特征(选择方法的不同，对应着不同的算

法)，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。这

一过程对应着对特征空间的划分，也对应着决策树的构建。

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法
决策树一般是自上而下生成的
决策树既可以解决分类问题，也可以解决回归问题

信息增益与信息增益比

熵(entropy)

熵(entropy)表示随机变量不确定性的度量。设X是一个取有限个值的离散随机变量，其

概率分布为

P (X = x_{i}) = p_{i}, i = 1, 2, . . ., n

则随机变量X的熵定义为

H (X) = - \sum_{i = 1}^{n} p_{i} l o g p_{i}

信息增益

特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件

下D的经验条件熵H(D|A)之差，即

g (D, A) = H (D) - H (D | A)

信息增益大的特征具有更强的分类能力

举个例子：

g(D,A~2~),g(D,A~3~),g(D,A~4~)的计算方法类似

信息增益比

信息增益值的大小是相对于训练数据集而言的，并没有绝对意义。当某个特征的取值种

类非常多时，会导致该特征对训练数据集的信息增益偏大。反之，信息增益值会偏小。使用

信息增益比（information gain ratio）可以对这一问题进行校正。这是特征选择的另一准

则。

特征A对训练数据集D的信息增益比g~R~(D,A)定义为其信息增益g(D,A)与训练数据集D关于

特征A的值的熵H~A~(D)之比，即

g_{R} (D, A) = \frac{g (D, A)}{H_{A} (D)}

决策树的ID3和C4.5生成算法

ID3算法生成决策树的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树
C4.5在生成决策树的过程中，用信息增益比来选择特征

注意：
决策树生成只考虑了对训练数据更好的拟合，可以通过对决策树进行剪枝，从而减小模型的复杂度，达到避免过拟合的效果

实时效果反馈

1. 关于决策树，下列说法正确的是:

A 决策树只能解决分类问题

B 决策树只能解决回归问题

C 决策树是自下而上生成的

D 决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法

2. 关于信息增益与信息增益比，下列说法正确的是:

A 信息增益越大，特征的分类能力越弱

B 信息增益值的大小具有绝对意义

C C4.5在生成决策树的过程中，用信息增益比来选择特征

D 以上说法均不正确

答案

1=>D 2=>C

实战_AdaBoost_信用卡精准营销模型基尼指数与CART决策树

北京市昌平区回龙观镇南店村综合商业楼2楼226室