目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5930.4k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(171)
赞(0)

WOE编码

分箱后的值不能直接进模型,常用WOE(Weight of Evidence,即证据权重)的形式进行分箱后的编码。WOE是一种衡量某个分箱对目标变量影响的指标,它是对一个特定分箱中“好样本”与“坏样本”比例的对数比。

image-20231123170033098

试想我们当前处理的是一个二分类问题共100条记录,一个自变量只有两个值v1, v2。

v1有50条记录,其中40条对应好样本,另外10条对应坏样本。

v2有50条记录,其中25条对应好样本,另外25条对应坏样本。

可见v1的WOE值远远高于v2的,直观上我们也可以看出来,v1确实有更好的区分度。

image-20231123182739158

WOE编码对于卡方分箱的主要作用有:

  • 提供分箱停止条件

    在卡方分箱的递归合并过程中,当相邻间的WOE值差 Absolute(WOE变化) 足够小时,可以停止合并,避免过度合并。

  • 最终评价分箱效果

    通过分箱前後的IV值(所有WOE的加权和)差异,评价分箱方案的优劣。IV值越大表示变量区分度越强。

  • 寻找最优分箱数

    比较不同分箱数下,IV指标得到的增益,找到让IV收敛最快的分箱数解。

IV代表“信息价值”(Information Value)

在信用评分和统计建模中。IV用于评估预测变量在预测一个二元结果(如违约与否)时的预测能力。

它是一种权衡变量预测能力的量化指标,广泛用于金融领域的信用风险评估

计算IV的步骤:

  1. 分箱:首先将预测变量分成几个组或箱子。例如,如果我们评估年龄对信用违约风险的影响,我们可能会根据年龄范围将借款人分组。

  2. 计算每个箱子的好坏比:在每个箱子内,分别计算好客户和坏客户的比例。好客户是指未发生预测事件的客户,坏客户是指发生了预测事件的客户。

  3. 计算WOE:对于每个箱子,计算"证据权重"(Weight of Evidence, WOE)。WOE是好比例与坏比例的自然对数。计算公式为:

    WOE=ln()
  4. 计算IV:IV是每个箱子的WOE乘以好坏比的差,然后对所有箱子求和。

IV=()WOE

怎么取理解不同大小的iv值

  • IV < 0.02:预测变量几乎没有预测能力。
  • 0.02 <= IV < 0.1:预测变量具有弱的预测能力。
  • 0.1 <= IV < 0.3:预测变量具有中等的预测能力。
  • 0.3 <= IV < 0.5:预测变量具有强的预测能力。
  • IV >= 0.5:预测变量可能太好以至于怀疑数据的完整性,或者变量过于与目标变量相关。
Python入门

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2