XGBoost-Norm模型在信用建模中的分析研究.pdf
《XGBoost-Norm模型在信用建模中的分析研究.pdf》由会员分享,可在线阅读,更多相关《XGBoost-Norm模型在信用建模中的分析研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、栏目编辑:梁丽雯 E-mail:liven_2023年第9期6565Research|技术应用一、引言金融机构基于用户历史信贷表现行为、资产、征信等信息评估客户的信贷风险,用以支持反欺诈、申请准入、风险定价、行为评分等信用风险管理的各个决策环节,进一步有效地控制风险和损失。信用建模是信用风险管理的重要技术,能够全面、客观、统一地对客户作出评估。金融机构正在逐渐采用基于机器学习的信用建模技术,实践中主要有Logistic和XGBoost两种模型,也有研究者研究CNN、RNN等深度学习技术在信用建模中的应用。Logistic算法模型解释性高,需要对数据进行深入分析;XGBoost对建模前的数据分析
2、和特征工程要求低且效果好,模型解释性稍差。信用建模是一个类别不均衡的二分类任务,好客户远远大于坏客户,样本不均衡会导致模型的输出出现偏移,影响模型的效果和迭代效率。本文基于XGBoost和Batch Normalize机制,提出了XGBoost-Norm模型,以解决类别不均衡问题,改善模型效果。基于BCE(Binary Cross Entropy)、WBCE(Weighted Binary Cross Entropy)、Focal(Focal Loss)3种损失XGBoost-Norm模型在信用建模中的分析研究 贵阳农村商业银行覃邑龙陈小刚摘要:文章提出一种基于XGBoost的扩展模型XGBo
3、ost-Norm,用以解决信用建模中的类别不均衡问题。XGBoost-Norm借鉴了Batch-Normalize机制对每个学习器的输出进行变换,在常用损失函数上进行了多次独立重复试验和试验结果分析。结果显示:XGBoost-Norm模型在常用的损失函数下,AUC显著提升(0.6%),模型复杂度显著上升;相同AUC指标下,以BCE为损失函数时模型复杂度显著降低。XGBoost-Norm模型能够解决类别不均衡问题,改善模型效果。关键词:信用建模;XGBoost;类别不均衡作者简介:覃邑龙(1974-),男,湖南常德人,经济学博士,数据资产管理部副总经理(主持工作),研究方向:管理科学、金融工程;
4、陈小刚(1990-),男,贵州遵义人,工学硕士,工程师,研究方向:信用风险。收稿日期:2023-06-15栏目编辑:梁丽雯 E-mail:liven_2023年第9期6666Research|技术应用函数,在Kaggle公开的数据集GMC(Give Me Some Credit)上进行了大量独立重复试验,采用假设检验的方法对试验结果进行了分析研究。结果表明,XGBoost-Norm在3种损失函数下有效地提升了模型的AUC指标,在相同AUC指标条件下,采用BCE损失函数可以有效降低模型复杂度。二、相关研究信用建模是一个类别不均衡的二分类任务,研究者针对类别不均衡的问题发表了大量的文章。类别不均衡
5、将导致数据稀缺、决策面偏移、类别重叠等问题。数据不均衡问题主要从数据和算法两个方面进行解决,数据方面主要是重采样、样本生成等技术,算法方面主要是代价敏感函数、事后校准等技术。Niu K、Yao G等人使用了重采样技术进行集成学习模型的训练,每一个基模型均是通过重采样后的均衡数据集进行训练的,在类别不平衡的信用评分数据集上取得了理想效果。Lin TY等人提出了用Focal来解决CV领域的类别不平衡和难例挖掘问题,并在信用建模中得到广泛的推广使用。Liang C等人基于XGBoost对WBCE和Focal等损失函数在信用建模中的应用进行了充分研究,相对于BCE,WBCE和Focal等损失函数能够在
6、类别不平衡的数据集上取得理想效果。Dedy T等人提出了一种代价敏感函数,在迭代过程中根据指标的变化动态地修改损失函数的权重系数。Mushava J等人提出了用非对称分布的GEV替换XGBoost中对称的Sigmoid函数,并结合代价敏感的CS-XGBoost、Focal、WBCE等损失函数在不同数据集上进行了充分的对比分析。在深度学习领 域有很多 技 术 和 方 法可以在XGBoost的扩展中进行借鉴。Ioffe S等人提出了以Batch Normalize机制来加快深度学习网络的训练,通过在网络的中间层加入Batch Normalize层,保证网络输出的分布稳定可控,避免出现梯度弥散现象,
7、加快网络的迭代优化。对于XGBoost模型在类别不均衡数据的情况下会导致每个学习器的输出出现偏移的问题,可以借鉴Batch Normalize机制,解决类别不均衡问题,改善模型效果。三、XGBoost扩展研究XGBoost-Norm模型基于XGBoost框架和Batch Normalize机制,对XGBoost每个学习器的输出进行变换,控制XGBoost输出的分布,避免因类别不均衡导致输出分布不可控,达到改善模型效果的目的。(一)XGBoost原理假设有N个样本的数据集D=(xi,yi)|xiRm,yi0,1,|D|=N,XGBoost通过递推的叠加弱学习器Booster实现Boosting机
8、制。ft(x)是第t个Booster单独的输出,wtj是第t个Booster的第j个叶子节点的取值,Rtj代表第t个Booster的第j个叶子节点的划分域。rt代表第t个Booster的权重(学习率),一般情况采用固定学习率r。zt是代表XGBoost从0到t个Booster的综合输出,其递推关系如式(1)所示。(1)ft(x)=wtjI(xRtj)Ttk=1zt=zt-1+rtft(x)=rkfk(x)tk=1 通过XGBoost的输出zt和标签y定义损失函数l(y,zt),损失函数在zt-1进行如式(2)所示的二阶泰勒展开。其中,g是l(y,zt-1)对zt-1的一阶导数,h是l(y,zt
9、-1)对zt-1的二阶导数。(2)l(y,zt)=l y,zt-1+ft(x)l(y,zt-1)+gft(x)+hft(x)XGBoost对优化的树ft(x)的规模Tt和叶子节点权重wtj进行正则化,结合损失函数,得到最终的优化目标函数如式(3)所示。第t个Booster的优化问题是每个叶子节点优化问题的求和,其叶子节点权重wtj的最优解如式(4)所示。XGBoost的整体递推框架如图1所示。栏目编辑:梁丽雯 E-mail:liven_2023年第9期6767Research|技术应用 (3)min gtift(xi)+htift(xi)+Tt+wtjj=1TtftiN21=Gtjwtj+(H
10、tj+)wtj+Ttj=1Tt21(4)Gtj=gti,Htj=hti,wtj=-iRtjiRtjHtj+Gtj模型的效果。以GMC数据为例,采用BCE损失函数的情况下偏离现象如图3所示,随着XGBoost迭代的次数增加,树的输出值分布逐渐左偏,偏向了样本量更大的负类。图1XGBoost架构l?x,z?g hwzl?x,z?g hwzl?x,z?g hwzl?x,z?g hwzzzzz?zxyz图2损失函数012-2-1012zl(y,z)BCEWBCEFocal012-2-1012zl(y,z)BCEWBCEFocal图3XGBoost输出分布-2-10z?50 100 150 200本文基
11、于XGBoost框架提出了XGBoost-Norm模型,以解决由于样本不均衡导致XGBoost输出分布不可控的问题。XGBoost-Norm对每个Booster的输出z进行了正态标准化,并乘上一个缩放因子a,以达到控制z的输出分布的目的。计算路程如公式(6)所示。XGBoost-Norm的整体递推框架如图4所示。变换后的输出s的分布是N(0,a),通过参数a就能有效地控制模型的输出分布。(6)i=1i=1NNN1N1=zi,2=(zi-)2zi-2+esi=Normalize(zi)=a(三)模型验证本文采用了多次独立试验的方案,通过假设检验的方法对模型效果进行分析。本文对评估指标AUC信用建
12、模常用的损失函数有二分类交叉熵BCE、针对数据类别不均衡的加权二分类交叉熵WBCE、考虑难例样本的Focal损失。在本文中,统一定义为正样本占比,Focal中=2,定义y=0代表好客户,y=1代表坏客户,好客户远远多于坏客户;3个损失函数的定义如式5所示;3种损失函数的损失如图2所示,左图为负样本损失,右图为正样本损失。(5)p=1/(1+e-z)lbce(y,z)=ylnp+(1-y)ln(1-p)lwbce(y,z)=ylnp+(1-y)(1-p)ln(1-p)lfocal(y,z)=y(1-p)lnp(1-y)(1-p)pln(1-p)(二)XGBoost-Norm由于存在样本不均衡的问
13、题,XGBoost在每个Booster的输出z的分布出现不可控偏离的现象,影响栏目编辑:梁丽雯 E-mail:liven_2023年第9期6868Research|技术应用和模型复杂度的分析依次进行正态分布检验、方差齐性检验、显著性检验。正态分布检验的目的是决定方差齐性检验的参数设置,方差齐性检验的结果决定显著性检验的参数设置。本文将显著性水平统一设定为0.05。四、试验分析(一)实验方法定义未经扩展的XGBoost模型为XGBoost-Base。本文基于GMC数据集完成XGBoost-Base、XGBoost-Norm两种模型在3种损失函数下的试验,并提取试验数据。为了验证试验的稳定性,实验
14、设置25%的验证集合,对原始数据集进行训练集和验证集的比例划分,一次划分进行一次试验,重复100次(试验100次均为独立试验)。进行多次随机数据划分和试验可以更加充分地评估模型的性能,可以对模型效果的显著性进行假设检验。为了控制参数对算法模型的影响,本文所有方法采用了统一的XGBoost设置参数,具体的参数含义和设置值见表1所列。(二)XGBoost-Norm参数优化根据公式(6),XGBoost-Norm模型包含超参数a,不同的参数模型表现不同,设置不同的超参数a,以表1为模型参数配置,在不同的损失函数下进行100次独立的试验,以AUC为最终优化指标。试验结果最优参数见表2所列,各个损失条件
15、下AUC和复杂度在参数a取值不同条件下的性能分布如图5、图6、图7所示。(三)模型效果分析根据试验结果,依次对试验统计结果进行正态性检验、方差齐性检验、显著性T检验,根据每次检验的结果确定下一阶段的参数设置。考虑AUC指标,原假设H0为XGBoost-Norm相对于XGBoost-Base没有明显提升(单侧检验);考虑模型复杂度指标,以XGBoost-Base模型效果为基准,选择XGBoost-Norm和XGBoost-Base模型指标效果最接近的情况,分析两种模型在同等AUC指标效果下的模型复杂度情况,原假设H0为XGBoost-Norm相对于XGBoost-Base复杂度没有明显降低(单侧
16、检验)。当BC E作为损失 函数,XGBoo st-B a se 和XGBoost-Norm试验分析结果见表3所列:XGBoost-Norm的AUC指标有明显提升,同等AUC指标下复杂度明显降低。多次试验的AUC指标分布和迭代过程如图8所示:XGBoost-Norm的迭代过程更加高效和平稳。图4XGBoost-Norm架构?参数含义取值max_depth树的最大深度5lambdaL2正则项控制参数10subsample随机抽取样本集比例0.85colsample_bytree按树抽取的特征比例0.75min_child_weight孩子节点最小的样本权重和2gamma进一步进行划分的最小损失0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XGBoost Norm 模型 信用 建模 中的 分析研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。