Borderline-mixup不平衡数据集分类方法.pdf
《Borderline-mixup不平衡数据集分类方法.pdf》由会员分享,可在线阅读,更多相关《Borderline-mixup不平衡数据集分类方法.pdf(10页珍藏版)》请在咨信网上搜索。
1、Borderline-mixup 不平衡数据集分类方法吴振煊1,郭躬德1,王晖21(福建师范大学计算机与网络空间安全学院,福州350117)2(贝尔法斯特女王大学电子电气工程和计算机科学学院,贝尔法斯特BT95BN)通信作者:郭躬德,E-mail:;王晖,E-mail:h.wangqub.ac.uk摘要:不平衡数据集问题从 20 年前就已经引起人们的重视,提出的相关解决方法层出不穷.Mixup 是这几年比较流行的数据合成方法,其相关变体比比皆是,但是针对不平衡数据集提出的 Mixup 变体寥寥无几.本文针对不平衡数据集分类问题,提出了 Mixup 的变体Borderline-mixup,其使用
2、支持向量机选择边界样本,增加边界样本在采样器中被采样的概率,构建两个边界采样器,替代了原有的随机采样器.在 14 个 UCI 数据集以及 CIFAR10 长尾数据集上的实验结果表明,Borderline-mixup 相比于 Mixup 在 UCI 数据集中都有提升,最高能达到 49.3%的提升,在CIFAR10 长尾数据集中,也能达到 3%3.6%左右的提升.显然,我们提出的 Mixup 变体在不平衡数据集分类中是有效的.关键词:Mixup;支持向量机;不平衡数据集;边界样本;分类引用格式:吴振煊,郭躬德,王晖.Borderline-mixup 不平衡数据集分类方法.计算机系统应用,2023,
3、32(11):7382.http:/www.c-s- Imbalanced Data Sets Classification MethodWUZhen-Xuan1,GUOGong-De1,WANGHui21(CollegeofComputerandCyberSecurity,FujianNormalUniversity,Fuzhou350117,China)2(SchoolofElectronics,ElectricalEngineeringandComputerScience,QueensUniversityBelfast,BelfastBT95BN,UK)Abstract:Theprobl
4、emofimbalanceddatasetshasattractedpeoplesattentionsincetwodecadesago,andvarioussolutionshavebeenproposed.Mixupisapopulardatasynthesismethodinrecentyears,withmanyvariantsextended.However,therearenotmanyMixupvariantsproposedforimbalanceddatasets.ThisstudyproposesaMixupvariant,namelyBorderline-mixup,to
5、addresstheclassificationproblemofimbalanceddatasets,whichusesasupportvectormachine(SVM)toselectboundarysamplesandincreasestheprobabilitythattheboundarysampleissampledinthesampler.Twoboundarysamplersareconstructedtoreplacetheoriginalrandomsampler.Extensiveexperimentshavebeenconductedon14UCIdatasetsan
6、dCIFAR10long-taildatasets.TheresultsshowthatBorderline-mixuphasoutperformedMixupconsistentlyonUCIdatasetsbyupto49.3%andonCIFAR10long-taildatasetsbyabout3%3.6%.Therefore,theproposedBorderline-mixupiseffectiveintheclassificationofimbalanceddatasets.Key words:Mixup;supportvectormachine(SVM);imbalancedd
7、atasets;boundarysamples;classification近年来,神经网络的发展十分迅速,在不同领域的应用都取得了优异的表现.众所周知,数据对于神经网络是至关重要的.然而和许多实验中所使用的数据集不同,真实世界的数据通常是呈不平衡分布的,尤其在一些异常检测的应用中,比如医疗诊断、欺诈检测、入侵检测等,这是因为异常事件相对于正常事件而言计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(11):7382doi:10.15888/ki.csa.009297http:/www.c-s
8、-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(61976053,62171131);福建省自然科学基金(2022J01398)收稿时间:2023-04-30;修改时间:2023-05-29;采用时间:2023-06-06;csa 在线出版时间:2023-09-15CNKI 网络首发时间:2023-09-19SpecialIssue专论综述73通常是罕见的.类别不平衡问题早在 20 年前就已经得到人们的广泛关注1,2,在这种情况下,数据集的不平衡分布会给大多数假设数据是相对平衡分布的机器学习算法带来严重的困难3.比如在反向传播的神经网络中,多数
9、的类别样本往往会通过主导梯度向量来主导神经网络的训练过程,即将类与类之间的边界由多数类推向少数类,以减少分类误差.这会导致神经网络在少数的类别样本上表现不佳.针对不平衡数据集分类,已经提出了许多相关的解决方法.这些方法可以简单地分为 3 大类,第 1 类是重加权,其中包括代价敏感学习和分类器阈值调整,目的都是为了在算法层面上给予少数类更大的权重.代价敏感学习考虑了不同误分类情况的不同代价4,设置错误分类少数样本的代价大于错误分类多数样本的代价.通过在训练期间调整不同类别的损失值来达到对类别进行重新平衡的目的.相关的方法有 Focalloss5、Class-balancedloss6等.分类器阈
10、值调整是从修正分类结果的角度出发,通过调整阈值,使得模型更关注少数类.第 2 类是集成学习,集成学习利用多个分类器,通过各种投票机制获得最终结果,从而提高单个分类器的准确性7,已经成功应用在不平衡数据集中8,并成为了类不平衡问题的一种流行的解决方法9.第 3 类是重采样,又可以细分为对少数类进行过采样、对多数类进行欠采样或者是两种方法结合使用,目的是为了从数据层面上使不平衡数据集变得较为平衡.其中,随机采样是最简单的一种采样方法,但是,对少数类进行随机过采样,容易造成少数类样本的过拟合;对多数类进行随机欠采样,又会损失多数类样本的相关特征信息.于是,有人提出基于数据生成的采样,即对数据进行合成
11、来增加相应类别的样本数量,从而提升神经网络在不平衡数据集上的性能.SMOTE10就是一种合成少数样本的过采样技术,通过随机选择少数样本附近的邻近点,在两者之间的连线上随机选择一点作为新合成的少数类样本.Mixup11也是一种基于数据生成的过采样技术,随机选择数据集中的两个样本,将样本和样本标签分别进行混合.有研究表明12,Mixup 在不平衡数据集上能够有效地提升网络的性能.虽然 Mixup 从发表至今,提出的变体层出不穷,但其许多变体都是对平衡的数据集进行研究实验,在不平衡数据集上的研究比较少,其中较为熟知的有 Remix13、Balanced-mixup14、Label-occurr-en
12、ce-balancedmixup15.本文提出一种新的不平衡数据集分类方法:边界混合(Borderline-mixup),它由两个边界采样器组合而成.在边界采样器中,我们不再盲目地选择样本进行混合,而是找到位于边界附近的样本,增加它们被采样的概率.因为边界样本最容易被错误分类,将混合的重点放在边界区域上可能会比放在整个少数类样本区域上有更好的表现.我们使用 4 层的多层感知机对 UCI 数据集中的 10 个二分类以及 4 个多分类的不平衡数据集进行实验,结果表明 Borderline-mixup 在提升模型性能方面是有效的.除此之外,我们还在基准的不平衡数据集 CIFAR10-LT 上进行了实
13、验,实验结果表明,我们提出的 Borderline-mixup 相较于 Mixup 的性能最高能提升 3.6%.1相关工作 1.1 重采样重采样一般分为过采样和欠采样,最简单的一种采样方法就是随机采样.对少数类进行随机过采样,虽然扩大了数据集,但是因为对少数类样本进行了多次复制,容易造成过拟合.而对多数类进行随机欠采样,会丢弃一些样本,即有可能损失部分有用信息.针对随机过采样的问题,有人提出,过采样的时候不要只是简单地复制样本,而是通过一些方法来生成新样本,从而降低过拟合的风险,比如通过 SMOTE10方法,对少数类进行合成新样本,从而达到过采样的目的.至于随机欠采样,有人提出了依据信息的欠采
14、样,主要有两种方法:EasyEnsemble 和 BalanceCascade16,目的是克服随机欠采样中的信息丢失.1.2 重加权重加权的主要思想就是根据类别样本的数量调整不同类别的权重,以重新定义每个类别中样本的重要性,从而达到对类别进行重新平衡的目的.这里的权重可以是误分类的代价,也可以是分类器的阈值.调整误分类的代价的方法又称为代价敏感学习,许多研究都提出了各种重新加权的方法来处理数据集不平衡的问题,包括 Focalloss5、Class-balancedloss6等.调整分类器阈值也是一种重加权的方法.有研究表明17,18,在数据集不平衡的情况下,默认的分类阈值的实验结果永远不是最优
15、的.最优阈值通常是通过最大化某个评估指标(比如 g-mean18、F1-score19等)或者是依据正类的先验概率来确定的.计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第11期74专论综述SpecialIssue 1.3 集成学习集成学习是一种利用多种机器学习算法,根据对数据提取的特征得出预测结果,并用投票机制获得最终结果的方法.有效地利用了每个算法的信息,从而使得最终得到的模型具有更好的性能.集成方法已经被广泛运用在数据集不平衡的问题中,许多集成模型2022被提出用于解决类不平衡问题.1.4 采样方法常见的数据采样策略可以用式(1)来概括:pj=nqjKk=1nq
16、k(1)D=(xj,yj),j=1,NKnkkN=Kk=1nkpjjqq=0q=1q=12在数据集中,一共有个类,表示第 类里包含的样本数,样本总数.表示第 类数据被采样的概率.常见的取值是 0,1,1/2.如果,则称为基于类别的采样;如果则是基于实例的采样,即随机采样;被称为平方根采样14.1.5 Mixup 及其相关变体1.5.1MixupD(xi,yi)(xj,yj)(x,y)yiyjMixup 是由 Zhang 等人11提出的一种正则化技术,也是一种数据增强方法.是为了提供神经网络的泛化能力而提出的.其思想是随机选择数据集中的两个样本对,通过式(2)得到它们的样本及标签的凸组合,其中
17、和是对应标签的独热编码,随后在样本的凸组合上训练网络.x=xi+(1)xj y=yi+(1)yj(2)Beta(,),(0,)0,1其中,得到.1.5.2RemixxyMixup 对样本和标签使用的是相同的混合因子来混合特征空间和标签空间中的样本,而 Remix13给样本和标签提供不同的混合因子和,以便于为少数类分配更高的权重.x=xxi+(1x)xj y=yyi+(1y)yj(3)其中:y=0,ni/nj and x 1,ni/nj 1/and 1x x,otherwise(4)y=3=0.5这里的 和 是作者定义的两个超参数,便于更加合理地控制的值.并且,作者通过实验表明,设置和得到的实验
18、结果最优.在后续的实验部分,我们也沿用这样的设置,用于对比实验.1.5.3Balanced-mixupSISCxIxCSC不同于 Mixup 使用两个基于实例的采样器来随机选择两个样本进行混合,Balanced-mixup14使用一个基于实例的采样器和一个基于类别的采样器,采样得到的样本分别表示为和.基于类别的采样器能够对样本进行平衡采样,使得采样得到的数据分布是平衡的,这样混合得到的数据分布会更加平衡.x=xI+(1)xC y=yI+(1)yC(5)1.5.4Label-occurrence-balancedmixupSC1SC2XC1XC2和 Balanced-mixup14类似,Labe
19、l-occurrence-balancedmixup15使用了两个基于类别的采样器和来代替 Mixup 原有的两个基于实例的采样器,得到的样本分别表示为和.这样混合得到的数据是接近于完全平衡的.x=xC1+(1)xC2 y=yC1+(1)yC2(6)为了方便起见,后面我们用 Label-mixup 指代 Label-occurrence-balancedmixup.1.6 支持向量机支持向量机(supportvectormachine)是一种常见的二分类模型,通过扩展可以实现多分类的任务.它的目标是找到特征空间上的一个超平面,不仅要使得两类数据分开,而且各个类别的样本点中离这个超平面最近的点,
20、即支持向量,到超平面的距离要最大化.通过确定超平面来实现分类.D=(xi,yi),i=1,N yi1,1yi(w(xi)+bi)1i,i 0,i12 w2+Ciiw,bwTx+b=0 xiiC以二分类为例,数据集,.SVM 的目标函数可以表示为在满足的条件下,最小化.其中,是超平面的参数,是一个将样本从低维到高维的映射,是松弛变量,是惩罚参数,用于控制对误分类点的容忍程度.1.7 边界混合方法现有的边界混合方法大多都是将选取的边界样本和 SMOTE 方法结合使用,文献 23 通过计算少数类中每个样本的 k 个最近邻样本中多数类样本的个数,2023年第32卷第11期http:/www.c-s-计
21、 算 机 系 统 应 用SpecialIssue专论综述75来确定该样本是否属于边界样本,对取得的少数类的边界样本采取 SMOTE 方法进行过采样.文献 24,25分别定义了区分边界样本与非边界样本的标准,对满足标准的少数类样本,使用 SMOTE 方法进行过采样,对非边界中的多数类样本,则进行欠采样,从而达到重采样的目的.这些研究确定边界样本的方法都是通过K-means 算法选取样本的 k 个最近邻样本,研究这些近邻样本和被选取样本之间的关系,从而确定被选取样本是否为边界样本.并且只对少数类的边界样本进行过采样,对多数类的边界样本则不进行处理.我们提出的方法使用 SVM 确定边界样本,即支持向
22、量,相比于自定义边界样本的标准,使用支持向量作为边界样本更加合理.且对多数类和少数类的边界样本,我们都增加了它们的采样概率,并且我们设置少数类的边界样本的采样概率高于多数类的边界样本,这样不仅区分了边界样本和非边界样本、少数类和多数类的重要程度,也对多数类和少数类的边界样本一视同仁,相对于它们的非边界样本,均增加了相同倍数的采样概率.重采样之后,我们使用 Mixup 方法进行实验,该方法和 SMOTE 方法的根本区别在于,SMOTE是在同一类别里进行数据合成,即假设邻近样本共享相同的类,而 Mixup 是随机组合,不考虑类别,即合成的数据可能属于同一类别,也可能属于不同类别,模拟了不同类别之间
23、的邻近关系,这给模型带来了更多的正则化好处.2Borderline-mixupMixup11思想是随机选择两个数据对,得到这两个数据对的样本和标签对应凸组合,来达到数据增强的目的.这里可以理解为 Mixup11是利用两个随机采样器来选择数据.类似的,Balanced-mixup14是采用一个类平衡采样器和一个随机采样器来选择数据,而Label-mixup15则是选用两个类平衡采样器来进行实验.不管是随机采样器还是类平衡采样器,其对于样本的选择都是一视同仁的,即每个类的样本与样本之间,都有着相同的被采样的概率.而我们认为,在分类任务中,不应该对特征空间中的每个样本点都给予相等的重视.那些能够帮助
24、我们区分其他类别的样本点理应得到更多的重视.2.1 边界采样在数据集不平衡问题中,少数类样本可以分为两种:本身数量并不少,只是相对于多数类其占的比例较少,即相对稀缺;以及本身数量就是很少,即绝对稀缺.且有研究表明26,相对稀缺不一定会引起分类器的性能下降.但是对于绝对稀缺的这种情况,则需要研究人员尽可能地挖掘出少数类样本的有效信息.对于少数类绝对稀缺的情况,可以从类别之间的可分性出发,如果类别之间的边界样本重叠较少,即可分性较强,那么类别不平衡并不会对分类器性能造成太大的影响.从这个角度出发,我们认为边界样本的重要性是要高于非边界样本的,即边界样本理应得到更多的重视.在选择边界样本的问题上,我
25、们受到了支持向量机的启发,使用其选择边界样本,即将超平面附近的支持向量作为边界样本,赋予它们更高的采样概率,用于后续实验.研究表明,特征空间中的最优分类超平面的权重可以表示为支持向量的线性组合27,这就说明,最优超平面是独立于除支持向量之外的其他样本.文献 26表明,支持向量机对类别不平衡问题不敏感,因为它们的分类基于少量的支持向量,并且大量的训练数据可以被认为是冗余的,因此,他们认为 SVM 是处理不平衡数据集的好选择.这也在一定程度上证明了我们在不平衡分类中选择支持向量作为边界样本的合理性.于是,我们设计了一个边界采样器,具体构建过程如下:(1)使用 SVM 对不平衡数据集进行分类,根据每
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Borderline mixup 不平衡 数据 分类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。