基于K-means聚类与粗糙集的个人信用集成分类模型_张怡.pdf
《基于K-means聚类与粗糙集的个人信用集成分类模型_张怡.pdf》由会员分享,可在线阅读,更多相关《基于K-means聚类与粗糙集的个人信用集成分类模型_张怡.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide基于K-means聚类与粗糙集的个人信用集成分类模型张怡,谢晓金(上海工程技术大学 数理与统计学院,上海 201620)摘要:针对个人信用数据大多数据类型杂糅以及传统K-means聚类初始簇中心和个数难以确定的问题,提出一种改进的K-means聚类与粗糙集相结合的个人信用集成分类模型。首先,基于样本空间密度衡量样本点的聚集程度,以确定初始簇中心,并引入改进的自适应思想动态调整簇中心个数进行K-means聚类,从而实现对连续型数据的离散化;其次,运用粗糙集进行属性约简,获得特征子集
2、;最后,结合代价敏感构建以L1-逻辑回归、弹性网-逻辑回归、贝叶斯、决策树和神经网络为基模型的集成模型,实现对个人信用数据的有效分类。实验结果表明,本文提出的集成分类模型在UCI数据集上,较已有模型的G-means平均提高约2.96%,最大提高约5.35%,F-value平均提高约3.42%,最大提高约6.83%。关键词:个人信用;K-means聚类;粗糙集;样本空间密度;自适应;不平衡数据DOI:10.11907/rjdk.221099开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP181 文献标识码:A文章编号:1672-7800(2023)002-0142-06P
3、ersonal Credit Integration Classification Model Based on K-means Clustering and Rough SetZHANG Yi,XIE Xiao-jin(School of Mathematics and Statistics,Shanghai University of Engineering Science,Shanghai 201620,China)Abstract:An improved personal credit integration classification model combining K-means
4、 clustering and rough set was proposed to solve the problem that most personal credit data have mixed data types and it is difficult to determine the initial cluster center and number of traditional K-means clustering.Firstly,the clustering degree of sample points was measured based on the density o
5、f sample space to determine the initial cluster centers,and the improved adaptive idea was introduced to dynamically adjust the number of cluster centers for K-means clustering,so as to realize the discretization of continuous data.Secondly,rough set is used for attribute reduction to get the featur
6、e subset;Finally,an integrated model based on L1-logistic regression,elastic net-logistic regression,Bayes,decision tree and neural network is constructed combining cost sensitivity to achieve effective classification of unbalanced personal credit data.Experimental results show that compared with th
7、e existing models,the proposed integrated classification model can improve G-means by 2.96%and maximum by 5.35%on average,and F-value by 3.42%and maximum by 6.83%on UCI data set.Key Words:personal credit;K-means clustering;rough set;density of pattern distribution;self-adaption;unbalanced dataset0 引
8、言随着个人信贷业务的兴起,个人信用风险的不确定性给金融机构带来了巨大损失。因此,针对个人信用风险进行分类成为当今社会的一项重要任务。个人信用分类是金融风险预测在消费贷款中的一项重要应用,其目的是区分“好”和“坏”客户。目前,已有不少学者对个人信用风险进行了相应研究。陆健健等1通过集成随机森林(RF)、GBDT 算法和收稿日期:2022-02-08基金项目:浦东新区科技发展基金产学研专项资金(人工智能)项目(PKX2020-R02)作者简介:张怡(1996-),女,CCF学生会员,上海工程技术大学数理与统计学院硕士研究生,研究方向为机器学习和数据挖掘;谢晓金(1996-),男,上海工程技术大学数
9、理与统计学院硕士研究生,研究方向为机器学习和数据挖掘。本文通讯作者:张怡。第 2 期张怡,谢晓金:基于K-means聚类与粗糙集的个人信用集成分类模型XGBoost三种算法后建立的个人信用评估模型,并依据所得相关多元评价指标对个人信用评估进行对比研究。张东梅等2基于主成分分析和单类 K近邻对混合数据进行预处理,并结合Bootstrap方法找到最佳决策边界,对个人信贷数据具有较好的分类效果。刘占峰等3基于模糊粗糙集提出的FRIS算法在个人信用数据评估中优于传统的线性判别分析、逻辑回归和K近邻算法。而个人信用数据中离散型和连续型数据并存的问题使得分类性能大幅降低4。针对个人信用数据属性杂糅问题的研
10、究,大多从聚类角度对连续型数据进行离散化。石凯等4给出多维高斯分布假设下MCMC算法,具有高度精确的区分效果。李艳等5运用K-means聚类处理混合数据,根据信息熵定义属性重要性度量,建立了变精度正域的约简方法,但基于欧式距离的传统 K-means 聚类忽略了空间要素。谢娟英等6基于样本空间分布密度改进传统的K-means聚类,充分解释了其优化算法的客观性。张立军等7基于K-means聚类和粗糙集构建集成型分类模型,但无法规避初始点和聚类个数随机选取的弊端。陈晋音等8针对混合数据问题,提出了一种自适应选取的改进聚类算法。钟志峰等9提出一种自适应改进的K-means聚类算法,规避了初始点选取的随
11、机性。郭婧等10采用菌群优化算法增强 K-means聚类的有效性,得到更好的聚类性能。已有文献大多采用K-means聚类对连续型数据进行离散化,并与属性约简相结合,如采用聚类的思想,在不降低分类性能的前提下,降低求解约简的时间消耗11。综上,针对个人信用数据属性杂糅的问题,本文旨在提出一种改进的K-means聚类和粗糙集的个人信用集成分类模型。1 预备知识1.1基本概念定义定义1 样本空间密度density(xi)=j=1nd(xi,xj)l=1nd(xl,xj),i=1,2,.,n(1)其中,d(xi,xj)表示数据xi与xj之间的欧式距离。density(xi)越小,说明特定空间内样本密集
12、程度越高;反之则越低6。定义定义2 聚类误差平方和Jej=x Cj1Nj|xi-j|2(2)其中,xi是第j个簇的第i个样本点,Cj表示第j个簇的样本点集合,Nj是第j个簇中样本点的个数,j是第j类的聚类中心。因此,Jej可以反映簇内数据的密集程度,即Jej值越小说明第j个簇内的聚类效果越好9。1.2基于粗糙集理论的属性约简粗糙集理论5,13的主要思想是利用已知信息,对未知领域进行近似描述。设目标信息系统S是一个四元组S=U,A,V,f,其中U为论域,V是属性值域,f是映射关系。A是一个非空有限的属性集合,由两个相互独立的子集,即条件属性集C和决策属性集D组成。针对C中非空子集B的重要度计算公
13、式为:(B)=C(D)-C-B(D)C(D)(3)其中,近似质量函数C()用于度量特征子集的贡献度14。2 算法改进2.1改进的K-means聚类本文针对 K-means 聚类初始点和k值随机选取的缺陷,结合肘部法则15和改进的自适应思想,提出一种基于样本空间密度和自适应的改进K-means聚类,解决个人信用数据中离散和连续型数据并存的问题。改进的K-means聚类步骤具体如下:输入:数据集X=(x1,x2,.xN)、初始簇中心个数k、簇内聚类评估阈值Jej min、簇内样本点最小个数Nmin和邻域半径调节系数cR16,簇中心集C=,邻域内的数据集D=。输出:簇中心集C。(1)根据“肘部法则”
14、划分样本点,划分远离群点集X1,得到优化样本集X2。(2)根据式(1)计算优化样本集X2中每个样本点xi的密度值density(xi),取最小的density(xi)值所对应的样本点xi,利用式(4)计算该样本的邻域半径R及其M邻域内的数据集D。M=xj|0 d(xi,xj)R(4)其中R=ncR1ni=1ne-density(xi),n是样本点个数,cR(0 cR 1)是邻域半径调节系数。(3)将 样 本 点xi加 入 到 初 始 簇 中 心 内,即C=C xi,并从优化样本集X2中删除数据集D。(4)若簇中心集中簇的个数与设置的k相等,即len(C)=k,则至步骤5,否则返回步骤2。(5)
15、计算优化后数据集X2内每个样本点xi到C中每个簇中心Cj的距离,并将其划分到距离最小的相应的簇内。(6)计算k个簇集中的簇中心,若簇中心没有发生变化,则至步骤7,否则返回步骤5。(7)根据式(2)计算各簇的聚类误差平方和Jej,并计算各簇内的数据样本个数Nj。(8)根据下列情形条件更新簇中心个数和簇中心集:情形一:若Nj Nmin,Jej Jej min,则将距离中心点最近的样本增加为新的簇中心点,并令k=k+1;情形三:若上述情况都不满足,则保持不变。若簇中心集不发生变化,则至步骤 9,否则返回步骤5。(9)计算远离群点集X1中的每个样本点到各簇中心的距离。若存在样本点到第k个簇中心的距离小
16、于该簇中样本点到簇中心的最大距离,则将该样本点分配到距离它最近的簇中,并从远离群点集X1中删除该样本点,返回步骤6;否则,则至步骤10。(10)输出最终的簇中心集C。本文改进的K-means聚类流程见图1。图中第一个条件判别逻辑为传统的 K-means 聚类迭代准则,在此基础上,设定簇内聚类评估指标阈值Jej min和簇内最小样本点个数的阈值Nmin以实现自动化更新簇中心点和个数。改进的自适应思想体现在第二个条件判别逻辑,即根据肘部准则再次判别远离群点样本集是否发现变化,以此进行迭代更新,从而降低远离群点样本对聚类结果的噪声影响。2.2改进的K-means聚类与粗糙集的个人信用分类模型基于改进
17、的K-mean聚类和粗糙集的个人信用集成分类模型主要步骤如下:(1)获取数据集,并将数据进行预处理。首先,计算缺失比,小于5%者,予以删除;反之,使用均值插补法予以填补;其次,进行标准化处理;最后,按照7:3划分训练集和测试集。(2)基于 2.1节改进 K-means聚类对训练样本中的连续型数据进行离散化处理。(3)运用粗糙集对离散化后的训练集进行属性约简,得到特征子集。(4)为解决不平衡问题,将特征子集加入到基于代价敏感12的集成分类模型(以决策树、支持向量机、逻辑回归和神经网络为基模型)中,以Bagging17思想进行集成,最终分类结果由动态加权投票法18决定。即:Cprej=i=1TiI
18、ji(5)其中,i表示第i个弱分类器的G-means得分,Iji表示弱分类器的示性函数,即:Iji=1,hi(x)=Cj0,hi(x)Cj(6)Fig.1Improved K-means clustering flow图1改进的K-means聚类流程 144第 2 期张怡,谢晓金:基于K-means聚类与粗糙集的个人信用集成分类模型3 实验设置与结果分析3.1样本选取与数据来源选取 UCI 上常用的个人信用数据集,分别为 Australian Data Set和Credit Approval Data Set。由表1可知,各数据集均有离散型和连续型数据并存的特点。3.2数据预处理与参数设置在数
19、据预处理中,首先,计算各自变量的缺失比,小于5%者删除对应样本点,大于 5%者使用均值插补法。其次,对数据进行极大-极小标准化处理,即:xij=xij-minmax-min(7)最后,按照7:3划分训练集和测试集。具体参数设置如表2所示。其中,kt表示第t次迭代时簇中心个数,N为样本个数。由图2可知,根据“肘部准则”可得最佳初始簇个数k的取值为4。文献 9 指出簇内聚类评估b和簇内样本点最小个数N需根据经验给出固定值,而本文采用自适应参数选取的思想,即b由第t次迭代的样本平均聚类误差乘以适当权重q(1 q 2)确定;同理,N由第t次迭代的簇内样本平均个数乘以适当权重p(0 p 1)确定。以簇内
20、样本点最小个数N为例,若权重p越小,越容易出现孤立点(即簇个数越多,越容易过拟合);否则,则会忽略局部样本点聚类(即簇个数越少,越容易欠拟合)。因此,本文折中选取权重p和q。基于初步的数值实验结果,本文选取p=0.5和q=1.5。式(4)中邻域半径cR要尽可能地反映样本的空间分布,过大或过小都无法达到最优的聚类效果19,故结合肘部准则所得初始簇个数k=4,邻域半径调节系数cR值取0.000 05。3.3基于改进K-means聚类的数据离散化针对训练集中的连续型数据,利用改进K-means聚类方法,可得离散化后的训练集和簇中心,表3展示了基于Australian Data Set的离散化结果和簇
21、中心。由表3可知,从聚类离散化结果看,改进的K-means聚类离散化后的连续型数据更为稀疏,有利于提高后续模型训练和泛化能力;从簇中心结果可见,本文根据改进的自适应思想,将聚类所得簇中心剔除了两个无效簇中心,有效降低了模型的复杂度。3.4基于粗糙集的属性约简在数据标准化和聚类处理后,基于粗糙集原理,将训练集进行属性约简,约简后的特征子集如表4所示。3.5性能评价指标在个人信用分类研究中,金融机构更多地关注少数类样本(失信者)的预测准确度。同时,在不平衡数据问题中,对多数类和少数类的整体分类精度进行考虑,是衡量Table 1Data description表 1数据描述数据集Australian
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 means 粗糙 个人信用 集成 分类 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。