基于机器学习的银行个人信用风险评估研究.pdf
《基于机器学习的银行个人信用风险评估研究.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的银行个人信用风险评估研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、Modeling and Simulation 建模与仿真建模与仿真,2023,12(4),3747-3755 Published Online July 2023 in Hans.https:/www.hanspub.org/journal/mos https:/doi.org/10.12677/mos.2023.124343 文章引用文章引用:薛琦,罗鄂湘.基于机器学习的银行个人信用风险评估研究J.建模与仿真,2023,12(4):3747-3755.DOI:10.12677/mos.2023.124343 基于机器学习的银行个人信用风险评估研究基于机器学习的银行个人信用风险评估研究 薛薛
2、 琦,罗鄂湘琦,罗鄂湘 上海理工大学管理学院,上海 收稿日期:2023年4月24日;录用日期:2023年7月11日;发布日期:2023年7月18日 摘摘 要要 本文运用本文运用CCF竞赛提供的中原银行个人信用贷款违约数据,进行了数据清洗和特征工程的工作,从初始竞赛提供的中原银行个人信用贷款违约数据,进行了数据清洗和特征工程的工作,从初始的的38个特征缩减到个特征缩减到18个特征,结合个特征,结合5C理论和预期收入理论探究了影响银行个人信用风险的重要因素,理论和预期收入理论探究了影响银行个人信用风险的重要因素,经过特征重要性排序排名前五的因素是:信贷周转余额合计、贷款发放日期据初始日期天数、借款
3、人贷经过特征重要性排序排名前五的因素是:信贷周转余额合计、贷款发放日期据初始日期天数、借款人贷款评分平均分、当前贷款利率和匿名变量款评分平均分、当前贷款利率和匿名变量f0。为提升银行对个人信用风险评估的准确率,本文基于随机。为提升银行对个人信用风险评估的准确率,本文基于随机森林模型比较了森林模型比较了SMOTE、随机欠采样和、随机欠采样和SMOTEENN三种非平衡数据的处理方法进行实验,三种非平衡数据的处理方法进行实验,SMOTEENN组合采样的效果最好;然后建立了决策树、随机森林、组合采样的效果最好;然后建立了决策树、随机森林、AdaBoost和和LightGBM共共4个机器学习模型,结果个
4、机器学习模型,结果表明平衡后表明平衡后LightGBM的准确率最高,达到了的准确率最高,达到了96.1%。关键词关键词 机器学习算法,个人信用风险评估,特征工程,机器学习算法,个人信用风险评估,特征工程,SMOTEENN Research on Bank Personal Credit Risk Assessment Based on Machine Learning Qi Xue,Exiang Luo Business School,University of Shanghai for Science and Technology,Shanghai Received:Apr.24th,202
5、3;accepted:Jul.11th,2023;published:Jul.18th,2023 Abstract In this paper,using the personal credit loan default data of Zhongyuan Bank provided by the CCF competition,the data cleaning and feature engineering was carried out and the initial 38 features were reduced to 18 features.Then the important f
6、actors affecting the bank personal credit risk were explored by combining the 5C theory and expected income theory,and the top five factors ranked by feature importance were:total credit working balance,loan disbursement date according to the initial date days,borrowers average loan score,current lo
7、an interest rate and anonymous 薛琦,罗鄂湘 DOI:10.12677/mos.2023.124343 3748 建模与仿真 variable f0.In order to improve the accuracy of bank personal credit risk assessment,this paper compared three methods of processing unbalanced data,SMOTE,random under sampling and SMOTEENN,based on the random forest model
8、,and SMOTEENN combined sampling had the best effect;then a total of four machine learning models,decision tree,random forest,AdaBoost and LightGBM,were established and its showed that LightGBM had the highest accuracy rate after ba-lancing,reaching 96.1%.Keywords Machine Learning Algorithms,Personal
9、 Credit Risk Assessment,Feature Engineering,SMOTEENN Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 随着中国经济的发展,人们开始追求更有品质的生活。政府为了刺激经济和鼓励金融创新,也逐渐放宽了金融监管政策,
10、使得近年来银行的贷款总额始终呈现上升趋势。根据中国银保监会统计数据,2022年末的贷款总额达到了 1,827,315 亿元,同比年初增长了 179,152 亿元。但与此同时,银行也愈发受到信用风险的威胁,商业银行的不良贷款余额始终呈现上升趋势。同时数据也显示,2022 年末的不良贷款余额达到了 29,829 亿元,较年初增长了 1359 亿元。为了提升个人信用风险评估模型准确度,降低银行面临的个人信用风险,专家学者主要在探究个人信用风险影响因素和改进评估方法两个方面做出了许多努力。在对影响因素的探究上,顾洲一等(2022)发现客户忠诚度、客户历史信贷数据、信贷合同特征是与个人信用风险评估高度相
11、关的三个重要特征1。Wang 等(2022)发现首付款金额、担保余额、抵押物价值(元)、担保方式、房屋数量、月房产成本、家庭月收入、分期还款方式、审批期限、是否欠息、账户是否贬值、安全系数是相对重要的因素2。张丽颖等(2022)基于 Kaggle 的 Loan Defaulter 数据集,发现性别、家庭人数以及借款人所在城市、住房类型、总收入、所属行业、职业类型、工作年限、受教育程度、消费贷款额度、贷款金额、贷款年金等都是影响客户违约的重要因素3。针对评估方法,Durand(1941)最早使用了线性判别法评估个人信用风险4,Davis(1992)发现分类树机器学习算法优于传统算法5。后续越来越
12、多的专家开始使用机器学习算法进行个人信用风险评估,到今天,各种集成算法逐渐被广泛应用。张承钿等(2022)结合集成算法的思想和 XGBoost 低偏差的特性设计了一种异构集成模型(HEM)来评估个人信用,通过 UCI 德国个人信用数据集验证,模型相对于传统的LR、DT、SVM 和 XGBoost 集成模型的 AUC 值平均提升了 7.38%6。深度学习算法也逐渐走入大家的视线,Dastile 等(2021)将表格数据集转换为图像,使用 2D 卷积神经网络(CNNs)进行了信用评估,结果优于其他信用评分方法7。本文根据 CCF 竞赛提供的中原银行个人信用贷款违约数据,基于 5C 理论和预期收入理
13、论分析了影响个人信用风险评估的主要因素。同时使用多种平衡数据集的采样方法,基于多种机器学习算法对银行个人信用风险进行评估,通过比较模型精度,选择准确度更高的模型。2.银行个人信用风险影响因素分析银行个人信用风险影响因素分析 信用风险(Credit Risk)是指由于借款人在偿还借款或债务时可能无法按时、足额偿还本金和利息,而Open AccessOpen Access薛琦,罗鄂湘 DOI:10.12677/mos.2023.124343 3749 建模与仿真 对另一方造成财务损失的可能性或经济损害的风险,是商业银行是最为关键和复杂的风险。银行个人信用风险指银行在向个人提供信贷时,可能遭受到的潜
14、在损失的风险,即个人贷款违约的风险。这种风险是由于借款人从银行等金融机构获得信用贷款后,没有按照规定时间还款而导致的8。银行个人信用风险会给银行带来损失,因此银行会在发放贷款之前进行信用评估。常用的评估理论是“5C”理论,即针对借款人的品格(Character)、能力(Capacity)、资本(Capital)、担保(Collateral)和条件(Conditions)5 个方面进行信用评估。同时,预期收入理论由 H.V.Prochnow 在 1945 年首次提出,该理论认为,借款人的预期收入能够被作为偿还贷款能力的衡量标准。如果预期收入水平高,借款人则会倾向于提前还款以减少利息支出,银行也很
15、乐意向其提供与预期收入相匹配的贷款金额。本文所用数据来自 CCF 大数据与计算智能大赛提供的,中原银行实际业务场景下的个人信用贷款违约数据。该数据集包含了 1 万条脱敏记录,共有 38 个特征变量和 1 个标签,包括用户基本属性信息和借贷相关信息。由于数据来自实际场景,数据集保证了样本的真实性和客观性。根据 5C 理论和预期收入理论将 38 个特征变量进行分类,如表 1 所示。同时,由于本文使用的是非抵押信用贷款数据集,不存在担保(Collateral)这一维度的数据。Table 1.Feature classification based on 5C and expected income
16、theory 表表 1.基于 5C 和预期收入理论的特征分类 类别 因素 品格 Character del_in_18month 借款人过去 18 个月逾期 30 天以上违约事件数、scoring_low 借款人在贷款评分中所属的下限范围、scoring_high 借款人在贷款评分中所属的上限范围、known_outstanding_loan 借款人档案中未结信用额度的数量、known_dero 贬损公共记录数量、pub_dero_bankrup 公开记录清除数量 能力 Capacity employment_type 所在公司类型(世界五百强、国有企业、普通企业)、industry 工作领域
17、(传统工业、商业、互联网、金融)、work_year 工作年限、debt_loan_ratio 债务收入比 资本 Capital home_exist 房屋状态 条件 Conditions total_loan 贷款数额、year_of_loan 贷款年份、interest 当前贷款利率、monthly_payment 分期付款金额、class 贷款级别、censor_status 审核情况、issue_date 贷款发放的日期、use 贷款用途类别、recircle_b 信贷周转余额合计、recircle_u 循环额度利用率 预期收入 early_return 借款人提前还款次数、early
18、_return_amount 借款人提前还款累积金额、early_return_amount_3mon 近 3 个月内提前还款金额 其他 loan_id 贷款记录唯一标识、user_id 借款人唯一标识、initial_list_statu 贷款的初始列表状态、app_type 是否个人申请、earlies_credit_mon 借款人最早报告的信用额度开立的月份、title 借款人提供的贷款名称、policy_code 是否公开可用策略、post_code 借款人申请时邮政编码、region 地区编码、f 系列匿名特征匿名特征 f0f4,为一些借款人行为计数特征的处理 3.建模过程建模过程
19、本文使用了 Python 语言作为分析和建模的工具,建模流程如图 1 所示。薛琦,罗鄂湘 DOI:10.12677/mos.2023.124343 3750 建模与仿真 Figure 1.Modeling process 图图 1.建模流程图 3.1.数据清洗数据清洗 数据清洗(Data Cleaning)是指检测和纠正数据中存在的缺失、异常值、重复值等。它的主要目的是提高数据的质量,确保数据准确、完整、一致。只有在充分检查和清理数据后,才能提高数据的质量和可靠性,以便于后续的数据分析和建模。本文的数据清洗主要进行了以下步骤。3.1.1.不相关的变量处理、数据类型的转换不相关的变量处理、数据类
20、型的转换 本文首先删除了不相关的变量。贷款记录唯一标识 loan_id 和借款人唯一标识 user_id 无实际意义。信用额度开立时间 earlies_credit_mon 仅为额度开立的时间,与是否贷款、何时贷款没有直接关系,且该数据存在一定的年份缺失问题。然后进行了数据类型的转换,通过构建工作年限 work_year、贷款等级 class、工作类型 employer_type和所在行业 industry 的字典,结合 map 函数的使用进行数值化处理。并将贷款发放时间 issue_date 使用to_datetime 函数转换成标准日期格式,然后将其分成年份 issue_date_year
21、 和月份 issue_date_mon;将贷款发放时间 issue_data 和设定的初始 base_time 相减,将日期转化数值型数据天数 issue_date_diff;在完成上述两步后,删除原始字段 issue_date。在完成上述处理后,共剔除了 4 个特征,增加了 3 个特征,得到了 37 个特征。3.1.2.缺失值、异常值值处理缺失值、异常值值处理 本文数据集中有 7 列存在缺失值,根据不同特征的特点,我们对工作年限 work_year 使用众数进行填充,对公开记录中清除数量 pub_dero_bankrup 和匿名变量 f0f4 使用中位数来补齐。由于匿名变量 f0f4的缺失表
22、现出了极强的相关性,说明 f0f4 的缺失存在某种关系,具体将在特征工程部分进行分析。薛琦,罗鄂湘 DOI:10.12677/mos.2023.124343 3751 建模与仿真 而针对离群值,在信用评估领域中,它们的存在通常具有意义,可能会包含其他有用的信息,比如一些潜在的风险。因此,我们不会轻易对其进行处理。而对于方差明显过小的特征,例如公开可用的策略 policy_code、匿名变量 f1 等,在后续的特征选择中一并进行处理。同时针对不一致的数据,即样本中存在提前还款次数 early_return 为 0,但提前还款金额 early_return_amount 却不为 0 的情况。鉴于这
23、些样本中提前还款金额具体可见,我们猜测使该部分提前还款次数填写错误。因此,我们将这部分提前还款次数由 0 更正为 1。本文缺失值和异常值的处理仅进行了填补和修改,此时仍剩余 10000 个样本和 37 个特征。3.2.特征组合特征组合 有时候将不同的特征组合在一起,可以得到更有信息量和预测能力的特征变量,进而改善模型的性能。结合前文的分析,本文针对该数据集作如下几点特征组合:评分上下限两个特征 scoring_low 和 scoring_high 相关性较高,但代表程度却较低。因此我们将评分上下限组合起来,通过加权平均值构造特征平均分 scoring_ave。在缺失值处理时,我们看出 f0f4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 银行 个人信用 风险 评估 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。