目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5930.1k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(672)
赞(0)

基尼指数与CART决策树

image-20220520175458311

基尼指数(Gini index)

在分类问题中,假设有K个类,样本点属于第k类的概率为p~k~,则概率分布的基尼指数定义为

Gini(p)=k=1Kpk(1pk)=1k=1Kpk2

Gini指数越小表示集合的纯度越高,反之,集合越不纯

例如:有三个类别,它们所占的比例分别为{1/3,1/3,1/3},则基尼指数为

G=1-(1/3)^2^-(1/3)^2^-(1/3)^2^=0.666;

若三个类别所占的比例分别为{1/10,2/10,7/10},则基尼指数为

G=1-(1/10)^2^-(2/10)^2^-(7/10)^2^=0.46;

若三个类别所占的比例分别为{1,0,0},则基尼指数为

G=1-1^2^=0;

CART决策树

分类与回归树(classification and regression tree,CART)模型是应用广泛的决策树学习方法。CART既可以用于分类也可以用于回归。

CART分类树默认使用基尼指数选择最优特征

各类算法总结

image-20220520182508426

  • ID3:信息增益标示按某种特性分类后,剩余特性的信息熵的大小的衰减程度,信息熵越小,

    证明已经分好的类别就更加的纯粹单一

  • C4.5:选择了信息增益比替代信息增益;由于ID3算法会倾向于选取特征值较多的特征

    进行分类(因为这样会让信息增益很大),比如:区分每个学生的成绩采用学生的学号进行区分,那么每个学生对应一个学号,则按照学号分的话,每个分组中就只有一个样本,并且信息熵为0,显然这个不是我们想要的,因此我们引入了信息增益比,每次选择分类特性的时候,根据信息增益比进行选取

  • 基尼系数:代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好

实时效果反馈

1. 若三个类别所占的比例分别为{1,0,0},则基尼指数为:

A 0

B 1

C 2

D 3

2. 关于CART决策树,下列说法正确的是:

A CART决策树只能用于分类

B CART决策树只能用于回归

C CART分类树默认使用基尼指数选择最优特征

D 以上说法均不正确

答案

1=>A 2=>C

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2