Python全系列 教程
3567个小节阅读:5930.4k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
分箱后的值不能直接进模型,常用WOE(Weight of Evidence,即证据权重)的形式进行分箱后的编码。WOE是一种衡量某个分箱对目标变量影响的指标,它是对一个特定分箱中“好样本”与“坏样本”比例的对数比。
试想我们当前处理的是一个二分类问题共100条记录,一个自变量只有两个值v1, v2。
v1有50条记录,其中40条对应好样本,另外10条对应坏样本。
v2有50条记录,其中25条对应好样本,另外25条对应坏样本。
可见v1的WOE值远远高于v2的,直观上我们也可以看出来,v1确实有更好的区分度。
WOE编码对于卡方分箱的主要作用有:
提供分箱停止条件
在卡方分箱的递归合并过程中,当相邻间的WOE值差 Absolute(WOE变化) 足够小时,可以停止合并,避免过度合并。
最终评价分箱效果
通过分箱前後的IV值(所有WOE的加权和)差异,评价分箱方案的优劣。IV值越大表示变量区分度越强。
寻找最优分箱数
比较不同分箱数下,IV指标得到的增益,找到让IV收敛最快的分箱数解。
在信用评分和统计建模中。IV用于评估预测变量在预测一个二元结果(如违约与否)时的预测能力。
它是一种权衡变量预测能力的量化指标,广泛用于金融领域的信用风险评估
分箱:首先将预测变量分成几个组或箱子。例如,如果我们评估年龄对信用违约风险的影响,我们可能会根据年龄范围将借款人分组。
计算每个箱子的好坏比:在每个箱子内,分别计算好客户和坏客户的比例。好客户是指未发生预测事件的客户,坏客户是指发生了预测事件的客户。
计算WOE:对于每个箱子,计算"证据权重"(Weight of Evidence, WOE)。WOE是好比例与坏比例的自然对数。计算公式为:
计算IV:IV是每个箱子的WOE乘以好坏比的差,然后对所有箱子求和。
怎么取理解不同大小的iv值