分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于超球和ASSRFOA的多生支持向量机.pdf

基于超球和ASSRFOA的多生支持向量机.pdf

上传人：自信****多点

文档编号：2195671

上传时间：2024-05-22

格式：PDF

页数：10

大小：1.81MB

《基于超球和ASSRFOA的多生支持向量机.pdf》由会员分享，可在线阅读，更多相关《基于超球和ASSRFOA的多生支持向量机.pdf（10页珍藏版）》请在咨信网上搜索。

1、基于超球和 ASSRFOA 的多生支持向量机莫源乐,朱嘉静,刘勇国,张云,李巧勤(电子科技大学信息与软件工程学院中医知识与数据工程实验室,成都610054)通信作者:朱嘉静,E-mail:摘要:支持向量机(supportvectormachine,SVM)是一种基于结构风险最小化的机器学习方法,能够有效解决分类问题.但随着研究问题的复杂化,现实的分类问题往往是多分类问题,而 SVM 仅能用于处理二分类任务.针对这个问题,一对多策略的多生支持向量机(multiplebirthsupportvectormachine,MBSVM)能够以较低的复杂度实现多分类,但缺点在于分类精度较低.本文对 MBS

2、VM 进行改进,提出了一种新的 SVM 多分类算法:基于超球(hypersphere)和自适应缩小步长果蝇优化算法(fruitflyoptimizationalgorithmwithadaptivestepsizereduction,ASSRFOA)的MBSVM,简称 HA-MBSVM.通过拟合超球得到的信息,先进行类别划分再构建分类器,并引入约束距离调节因子来适当提高分类器的差异性,同时采用 ASSRFOA 求解二次规划问题,HA-MBSVM 可以更好地解决多分类问题.我们采用 6 个数据集评估 HA-MBSVM 的性能,实验结果表明 HA-MBSVM 的整体性能优于各对比算法.关键词:超球

3、;多生支持向量机;多分类;自适应缩小步长;果蝇优化算法引用格式:莫源乐,朱嘉静,刘勇国,张云,李巧勤.基于超球和 ASSRFOA 的多生支持向量机.计算机系统应用,2023,32(9):4352.http:/www.c-s- Birth Support Vector Machine Based on Hypersphere and ASSRFOAMOYuan-Le,ZHUJia-Jing,LIUYong-Guo,ZHANGYun,LIQiao-Qin(KnowledgeandDataEngineeringLaboratoryofChineseMedicine,SchoolofInformati

4、onandSoftwareEngineering,UniversityofElectronicScienceandTechnologyofChina,Chengdu610054,China)Abstract:Supportvectormachine(SVM)isamachinelearningmethodbasedonstructuralriskminimizationandcansolveclassificationproblems.However,withthecomplexityofresearchproblems,therealclassificationproblemsareofte

5、nmulti-classificationones,whereasSVMcanonlybeadoptedtodealwithbinaryclassificationtasks.Tothisend,themultiplebirthsupportvectormachine(MBSVM)combinedwiththeone-against-allstrategycanrealizemulti-classificationwithlowcomplexity,buttheclassificationaccuracyislow.ThisstudyimprovesMBSVMandproposesanewSV

6、Mmulti-classificationalgorithmwhichisamultiplebirthsupportvectormachinebasedonthehypersphereandfruitflyoptimizationalgorithmwithadaptivestepsizereduction(ASSRFOA).ThealgorithmisreferredtoasHA-MBSVM.Throughtheinformationobtainedfromhyperspherefitting,firstlyallclassesaredividedintoseveralblocksandthe

7、nclassifiersareconstructedforeachclass.Theconstraintdistanceregulationfactorisintroducedtoproperlyimprovethedifferenceoftheclassifiers.Atthesametime,ASSRFOAisemployedtosolvethequadraticprogrammingproblemsandHA-MBSVMcanbettersolvethemulti-classificationproblems.Sixdatasetsareutilizedtoevaluatetheperf

8、ormanceofHA-MBSVM.TheexperimentalresultsshowthattheoverallperformanceofHA-MBSVMisbetterthanthatofthecomparisonalgorithms.Key words:hypersphere;multiplebirthsupportvectormachine(MBSVM);multi-classification;adaptivestepsizereduction;fruitflyoptimizationalgorithm(FOA)计算机系统应用ISSN1003-3254,CODENCSAOBNE-m

9、ail:ComputerSystems&Applications,2023,32(9):4352doi:10.15888/ki.csa.009216http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(62202084);国家科技基础资源调查专项(2022FY102002);中国博士后科学基金(2021M690028);中央高校基本业务费(ZYGX2021YGLH012,ZYGX2021J020);四川省自然科学基金(2022NSFSC0883,2022NSFSC0958);四川省重点研发计划(2022YFS0059,202

10、3YFS0338)收稿时间:2023-02-13;修改时间:2023-03-14;采用时间:2023-03-30;csa 在线出版时间:2023-07-14CNKI 网络首发时间:2023-07-17SpecialIssue专论综述43SVM1是一种基于结构风险最小化的机器学习方法,在解决小样本、高维问题和非线性问题等方面表现出良好的泛化能力和预测性能,在生物医学25、故障分析69、图像识别1012等领域中被广泛应用,并具有可观的分类效果13,14.随着研究问题的复杂化,现实的分类问题不单纯是二分类任务,存在多分类的现象,而 SVM 仅能用于处理二分类任务.针对这个问题,现有的工作已做出重要的

11、贡献1519.其中一对一(one-against-one,OAO)策略、一对一对余(one-against-one-against-rest,OAOAR)策略、一对多(one-against-all,OAA)策略是 3 种最常用的间接求解多分类问题的分解策略20.对于一个具有 K 个类别的多分类问题,结合 OAO 策略的一对一支持向量机(one-against-onesupportvectormachine,OAOSVM)任选两个类别的样本,分别作为正反两类,构建 K(K1)/2 个 SVM 分类器.结合 OAOAR 策略的支持向量分类-回归机(supportvectorclassificat

12、ion-regressionmachineforK-classclassification,K-SVCR)21在正反两类的基础上,增加了其余类,减少了样本的误分.将孪生支持向量机(twinsupportvectormachine,TWSVM)22与 OAA 策略结合,Yang 等人提出了MBSVM23,通过将“最近”的决策方式转变为“最远”的决策方式,有效减少了约束条件,因而具有较低时间复杂度.MBSVM 虽然在算法效率上具有明显优势,但其分类精度不够高.主要原因有两点24,一是用超平面进行拟合的类别之间可能相距较远,很难使得超平面离它们同时都近;二是约束条件较少,二次规划问题(quadrat

13、icprogrammingproblem,QPP)的求解容易陷入局部最优.对于第 1 个问题,为达到更好的超平面拟合效果,我们希望根据不同类别之间的相似度将所有类别划分成若干块,块内类别的样本相似度相对较高,块间类别的样本相似度相对较低;对于第 2 个问题,应该采用全局性更好的求解算法.ASSRFOA 是一种新型的群智能优化算法,相比于其他算法,它继承了果蝇优化算法(fruitflyoptimizationalgorithm,FOA)优秀的全局寻优能力,同时通过改进候选解生成机制和搜索步长,并引入柯西变异,有效地改善了陷入局部最优的共性问题2527.本文将采用 ASSRFOA 作为 QPP 的

14、求解算法.基于以上讨论,本文从 MBSVM 存在的问题出发,提出一种新的 SVM 多分类算法:基于超球(hypersphere)28和 ASSRFOA 的 MBSVM,简称 HA-MBSVM.该算法框架如图 1 所示,首先通过拟合超球,获取各类样本对应超球的球心和半径.利用球心和半径,计算各类别之间的相似度判定值,然后将所有类别划分成若干块,块内类别样本相似度相对较高,块间类别样本相似度相对较低,最后再为各类别构建分类器并采用 ASSRFOA求解 QPP.我们还引入了约束距离调节因子用以进一步提升 HA-MBSVM 的性能.本文中的算法仅介绍使用了核方法的情形,核函数选择径向基核函数(radi

15、albasisfunction,RBF),规定矢量加粗表示,标量不加粗.拟合超球相似度较低类别划分分类器构建分类器计算相似度判定值相似度判定值球心和半径ASSRFOA约束距离调节因子相似度较高相似度较高图 1HA-MBSVM 算法框架综上所述,本文的主要贡献如下.(1)提出了一种新的 SVM 多分类算法.利用拟合超球所得信息完成类别划分,构建更准确的分类器.(2)将 ASSRFOA 应用于 QPP 的求解,ASSRFOA良好的全局性有利于提高 HA-MBSVM 的性能.(3)采用 6 个数据集对 HA-MBSVM 的性能进行评估.实验结果表明,HA-MBSVM 算法的性能优于常见的 SVM 多

16、分类算法以及 MBSVM.1相关工作本节将介绍与 HA-MBSVM 密切相关的 3 项工作.其中,第 1.1 节介绍 MBSVM23,这是本文算法的改进出发点;第 1.2 节介绍超球相关内容,HA-MBSVM 采用文献 28 中生成超球的方法为各类别的样本拟合超球,获取球心和半径用于后续的类别划分;第 1.3 节介绍的 ASSRFOA 算法25将用于求解 QPP.1.1 多生支持向量机为方便讨论,假定对于多分类问题,有训练集:T=(xi,y1),(xl,yl)(1)计算机系统应用http:/www.c-s-2023年第32卷第9期44专论综述SpecialIssue(xi,yi)x

17、i Rnyi1,K其中,为第 i 个样本,为特征向量,为类别标签,l 是样本数,K 为类别数.Ak RlknBk=AT1,ATk1,ATk+1,ATKTk=1,K,lk对于训练集(1),假设第 k 类样本构成矩阵,训练集(1)中除去第 k 类样本的剩余样本构成矩阵,为第 k类样本的数量.MBSVM 每次选取一个类的样本作为负样本,其他类的所有样本作为正样本,寻找一个超平面,要求该超平面离正样本尽可能近,离负样本尽可能远,即获得式(2)22,29.K(x,E)vk+bk=0,k=1,K(2)vk RlbkE=AT1,ATKT,K(x,E)RlK(x,y)vkbk其中,和为模型参数,为由核函数产生

18、的行向量.为了计算和,需要解决如下 QPP 问题,如式(3)所示.minvk,bk,k12K(Bk,E)vk+ek1bk2+CkeTk2ks.t.K(Ak,E)vk+ek2bk ek2kk 0(3)k RlkAkCk 0ek1 Rllkek2 RlkK(Ak,E)K(Bk,E)K(x,y)lkl(llk)l其中,为中样本对应松弛变量的列向量,为惩罚参数,和为元素全是 1 的列向量,和分别为由核函数产生的和的矩阵.由拉格朗日优化方法可将式(3)转为对偶问题(4).maxkeTk2k12TkRk(STkSk)1RTkks.t.0 kCk(4)k RlkSk=K(Bk,E)ek1,Rk=K(Ak,E

19、)ek2STkSkI 0其中,为拉格朗日乘子的非负列向量,.为避免矩阵的病态化导致不可求逆,需要为对偶问题(4)添加一个正则化项,其中为一固定的小标量,I 为适当大小的单位矩阵,于是对偶问题(4)可写成22:maxkeTk2k12TkRk(STkSk+I)1RTkks.t.0 kCk(5)由各类别对应 QPP 求解得到的超平面,MBSVM的决策函数计算新样本到各超平面的距离,相距最远的超平面对应的类别即为新样本的预测类别标签.1.2 超球Aknkrk朱美琳等人提出的球结构支持向量机,通过为每个类别拟合超球来解决多分类问题28.对于训练集(1),当为拟合超球时,假定为最小超球的球心,为最Ak小超

20、球的半径,要求该最小超球尽可能包含中所有样本点,通过引入松弛变量,允许存在样本点位于超球外侧.于是,可得到如下优化问题(6).min(rk)2+Cklki=1kis.t.?xkink?2(rk)2+kiki 0,i=1,lk(6)xkiAkkixkiCk 0其中,为中第 i 个样本点的特征向量,为对应的松弛变量,为惩罚参数.引入核函数并利用拉格朗日优化方法,可将式(6)转为对偶问题(7).maxlki=1kiK(xki,xki)lki=1lkj=1kikjK(xki,xkj)s.t.lki=1ki=10 kiCk,i=1,lk(7)ki其中,为式(6)中第 i 个约束条件对应的拉格朗日乘子.通

21、过求解式(7),可以得到满足要求的拉格朗日乘子,进而得到超球的球心和半径.1.3 ASSRFOA 具体步骤Xaxis RD、Yaxis RD步骤 1.初始化最大迭代次数 Maxgen、果蝇种群规模 Sizepop、味道浓度方差阈值和果蝇群体位置,D 为待求解未知量的个数.步骤 2.赋予果蝇个体随机的搜索方向和距离.Xi=Xaxis+RandYi=Yaxis+Rand(8)Rand RDXiYii=1,Sizepop其中,其元素均为 1,1 之间的随机数,和为各果蝇个体基于群体位置随机分散后所处的位置,.Xi=(pi,pD),Yi=(q1,qD),Disti RDSDi RD步骤 3.设利用式

22、(9)计算果蝇个体到原点的间距,再利用式(10)计算味道浓度判定值.Disti=(p21+q21,p2D+q2D)(9)SDi=sign(Rand)p21+q21,sign(Rand)p2D+q2D(10)Rand 其中,随机数1,1,sign 函数如式(11)所示30.2023年第32卷第9期http:/www.c-s-计算机系统应用SpecialIssue专论综述45sign(x)=1,x 00,x=01,x 0(11)SDismelli步骤 4.把代入到味道浓度判定函数 Fitness(即目标函数),计算出味道浓度值.smelli=Fitness(SDi)(12)步骤 5.找

23、出果蝇种群中味道浓度值最优的果蝇,并记录此果蝇的位置信息和相应的味道浓度值.Currentbest,bestindex=max(Smell)(13)bestindex 1,SizepopSmell=(smelli,smellSizepop)其中,Currentbest 为最优味道浓度值,为最优味道浓度值对应下标,.2步骤 6.计算味道浓度方差值,且当迭代次数不为 0 时,转至步骤 7,否则转至步骤 8.2=1SizepopSizepopi=1smelliSizepopi=1smelliSizepop2(14)步骤 7.判断 Currentbest 是否优于历史最优味道浓度值 Globalbes

24、t,是则通过式(15)和式(16)保留 Current-best 并更新果蝇群体位置,然后转至步骤 8,否则直接转至步骤 8.Globalbest=Currentbest(15)Xaxis=XbestindexYaxis=Ybestindex(16)2 步骤 8.判断是否陷入局部最优,若,则转至步骤 9,否则转至步骤 10.步骤 9.利用式(17)对果蝇个体位置进行柯西变异,然后转至步骤 11.Xi=Xi+XiC(0,1)Yi=Yi+YiC(0,1)(17)其中,C(0,1)为标准柯西分布.步骤 10.根据式(18)更新果蝇个体位置,然后转至步骤 11.Xi=Xaxis+e(g)MaxgenR

25、andYi=Yaxis+e(g)MaxgenRand(18)e(g)Maxgen其中,为搜索步长,为步长调控因子,为指数调节因子,g 为当前迭代次数.步骤 11.当前迭代次数不大于 Maxgen,执行步骤3 至步骤 10,否则执行步骤 12.步骤 12.输出全局最优解.2HA-MBSVM 2.1 类别划分在 MBSVM 中,被作为正类的样本间可能相距较远,很难构建一个超平面离它们同时都近.于是我们尝试先将所有类别根据彼此间的相似度和给定阈值划分成若干块,块内类别样本相似度相对较高,块间类别样本相似度相对较低,之后再分别以各块的样本作为约束条件来构建多个超平面,从而避免因单个超平面难以同时有效地

26、满足多个差异较大的类别样本的约束而导致分类器性能下降.相似度判定值既应考虑超球球心,也应考虑超球半径31,由此我们得到如下相似度判定值的计算式(19).dab=nanbra+rb(19)nanbrarbdabS0=0,K1dmax其中,和,和分别为第 a 类和第 b 类样本对应超球的球心和半径.值越小则两类样本相似度越高,反之越低.我们将所有类别从 0 开始标号,得到类别标签集.由式(19)可以计算出各类别两两之间的相似度判定值,其中的全局最大值如式(20)所示.dmax=maxa,bS0,abdab(20)S0S=S1,S2S1S2dmaxS=S1,Si,Sm Si=si1,sij,sini

27、sijnii=1,mAlgorithm2(dab,Si)对进行一次类别划分,将其分为差异性较大的两块,块中的类别相似度较高,得到此时类别划分集,其中和为类别标签的集合.然后再对各块分别进行一次类别划分,重复上述过程,块停止划分的标准为块中类别之间最大的相似度判定值与的比值不大于给定阈值或块中只剩下一个类别.由此得到最终的类别划分集,其中为第 i 块中第 j 个类别标签,m 为块总数,为第 i 块中的标签数,.完整的类别划分算法见算法 1,一次类别划分算法的细节见算法 2,用 len(x)表示 x 中的类别标签数,用 a 和 b 暂存类别标签,用表示对算法 2 的调用.2.2 分类器构建MBSV

28、M 在为各类别构建分类器时,每次选取一个类的样本作为负样本,其他类的所有样本作为正样本,要求超平面离正样本尽可能近,离负样本尽可能远.这种做法虽然能够有效减少 QPP 的约束条件,提高训练效率,但在这种做法下,决策函数将新样本归入相距最远的超平面对应的类别.在样本空间中,与某一超平计算机系统应用http:/www.c-s-2023年第32卷第9期46专论综述SpecialIssue面对应类别不同的样本也可能离该超平面较远,因此相比于“最近”的决策方式,“最远”的决策方式错误分类的可能性更高.sijSiSj S(1 j m,j,i),Si=Sisij,SjSiSisij我们利用 HA

29、-MBSVM 为各类别构建分类器时,每次选取一个类的样本作为正样本,假设该类别标签位于类别划分集S的块中,其余块为依次以和中类别的样本为负样本,构建 m 个子分类器(当中仅有一个类别时,构建m1 个子分类器),即寻找 m 个超平面,如式(21)所示,要求超平面离正样本尽可能近,离负样本尽可能远,构建过程如图 2 所示.Sls1lsijSiSismlsmjsmnmSmSm1Sm2构建分类器负样本正样本子分类器远近s1js1n1SiS1S2S3S4SmS图 2HA-MBSVM 分类器构建示意图算法 1.完整的类别划分nkrkk=0,K1S0输入:各类样本对应超球的球心和半径,;类别标签集;划分停

30、止阈值.输出:类别划分集 S.dmax1.由式(19)计算出各类别两两之间的相似度判定值,由式(20)得到其中的全局最大值;flagtrue2.;SS03.;4.WHILEflag/*不断进行划分,直到所有块均满足停止条件*/flagfalse5.;SiS6.FORINS/*依次处理当前中所有的块*/dmaxmaxa,bSi,a1dmaxdmax8.IFANDTHEN/*若不满足停止条件,则进行一次类别划分*/Si1,Si2Algorithm2(dab,Si)9.;/*调用算法 2*/SiSi1,SSSi210.;flagtrue11.;12.ENDIF13.ENDFOR14.ENDWHIL

31、E15.RETURNS;sijPij RlijnQkij Rlkijn,k=1,m,lijlkij假设类别对应正样本构成矩阵,各子分类器对应负样本构成矩阵和分别为正样本和负样本的数量.K(x,Ekij)vkij+bkij=0,k=1,m(21)vkijbkijEkij=PTij,(Qkij)TTK(x,Ekij)Rlij+lkijK(x,y)其中,和为模型参数,为由核函数产生的行向量.类似于 MBSVM,我们有如下 QPP式(22).minvkij,bkij,kij12?K(Pij,Ekij)vkij+ek1ijbkij?2+Ckij(ek2ij)Tkijs.t.K(Qkij,Ekij)vki

32、j+ek2ijbkij ek2ijkijkij 0(22)kij RlkijQkijCkij 0ek1ij Rlijek2ij Rlkij其中,为中样本对应松弛变量的列向量,为惩罚参数,和为元素全是 1 的列向量.算法 2.一次类别划分Si输入:各类别间的相似度判定值;待划分块.Si1Si2输出:类别划分结果和.len(Si)=2Si1.IFTHEN/*若中仅有两个类别标签,则可直接输出结果*/SiSi1Si22.将中的两个类别标签分别作为和;Si1Si23.RETURN和;4.ENDIFa,b arg mina,bSi,a 0其中,与为维度相同的向量,为 RBF 的带宽.表 1数据集具体信

33、息数据集样本个数样本维数类别数iris15043wine178133zoo101177tae15173lymph148184dermatology366346 3.1 分类性能对比我们将 HA-MBSVM 与 OAOSVM、一对多支持向量机(one-against-allsupportvectormachine,OAASVM)、MBSVM 进行性能对比,4 项评估指标分别为准确率,查准率,查全率和 F1 值,采用 5 折交叉验证寻找最优参数.具体实验设置见如下.210,29,28,24C22,23,24,2121C122,24,2100.2,0.4,0.6,0.8,1223,21.75,20.

34、5,27C223,29,21520,21,22,23,24,25,26对于 OAOSVM、OAASVM、MBSVM,RBF 带宽的候选值集合为,惩罚参数的候选值集合为.对于 HA-MBSVM,在拟合超球时,RBF 带宽和惩罚参数的候选值集合均为,类别划分停止阈值的候选值集合为;在构建分类器时,RBF 带宽的候选值集合为,惩罚参数的候选值集合为,约束距离调节因子 d 的候选值集合为.各类别样本在拟合超球和构建分类器时使用统一的初始参数,两个环节中的 QPP 使用 ASSRFOA 完成求解.对于 ASSRFOA 中的初始化参数,在拟合超球时的最大迭代次数 Maxgen1计算机系统应

35、用http:/www.c-s-2023年第32卷第9期48专论综述SpecialIssue90,150,210 106默认为 100,在构建分类器时的最大迭代次数 Maxgen2候选值集合为,其余 ASSRFOA 中的参数采用文献 25 中实验的取值作为默认参数值,即种群规模 Sizepop=30,步长调控因子=0.2,指数调节因子=2,味道浓度方差阈值=.表 2 为 6 个数据集上,HA-MBSVM 与其他 3 种算法关于 4 项评估指标 5 折交叉验证的最佳(以准确率为基准)平均结果.表 3 为 3 个对比算法在最佳平均结果下的最优参数,表 4 为 HA-MBSVM 在最佳平均结果下的最

36、优参数.表 2HA-MBSVM 与其他 3 种算法的分类性能对比数据集算法准确率查准率查全率F1值irisOAOSVM0.98000.98190.98210.9812OAASVM0.97330.97560.97560.9756MBSVM0.96670.96560.96560.9647HA-MBSVM0.98670.98590.98880.9867wineOAOSVM0.99430.98670.99520.9901OAASVM0.99430.99440.99560.9948MBSVM0.98900.98750.98930.9878HA-MBSVM0.99470.99490.99440.9944z

37、ooOAOSVM0.95140.90600.89760.8901OAASVM0.95000.90520.88020.8830MBSVM0.96050.93810.91550.9156HA-MBSVM0.96100.93050.92950.9151taeOAOSVM0.59720.59630.59790.5901OAASVM0.62260.62490.64020.6182MBSVM0.63610.65450.63750.6254HA-MBSVM0.70190.71320.70820.6995lymphOAOSVM0.84660.74210.73110.7286OAASVM0.85710.7836

38、0.77710.7761MBSVM0.85220.73530.74100.7356HA-MBSVM0.87910.79360.76670.7735dermatologyOAOSVM0.96910.96640.95590.9587OAASVM0.96640.96630.95840.9605MBSVM0.96900.96710.96800.9650HA-MBSVM0.97210.97230.95180.9565表 3对比算法的最优参数(评估指标为准确率)数据集OAOSVMOAASVMMBSVMCCCiris222420222022wine202120212222zoo212320222020tae

39、22210232102325lymph222423222420dermatology222122202122由表 2 可知,除了 dermatology 数据集,HA-MBSVM 在所有数据集上的所有指标均为最优或仅稍次于最优;在 iris 和 tae 数据集上,HA-MBSVM 的 4 项指标全部优于其他算法;在 tae 数据集上,HA-MBSVM的提升幅度尤为显著,相比于表现最差的算法,4 项指标的提升幅度可达 17.53%19.60%,这证明了 HA-MBSVM 的有效性和较好的通用性.从整体上看,HA-MBSVM 在所有数据集上对 MBSVM 的分类性能都有所提升,但在 zoo 和 d

40、ermatology 数据集上,提升幅度有限,HA-MBSVM 与 MBSVM 表现相似,这一方面是因为这两个数据集的样本个数较少而类别数较多,所以各类别数据分布的差异性不突出,不易生成合适的类别划分结果,另一方面是因为数据集本身分布相对均衡,在不进行类别划分等操作的情况下就能达到较好的分类性能.表 4HA-MBSVM 的最优参数(评估指标为准确率)数据集1C12C2Maxgen2diris22220.620.752315020wine22220.420.752321023zoo22220.6222159020tae24220.423299022lymph22220.420.75239023d

41、ermatology22220.6222159026 3.2 参数讨论2在本节中,我们讨论类别划分停止阈值和构建分类器时 RBF 的带宽对算法性能的影响.对于,我们将 HA-MBSVM 中的其他参数固定为表 4 中的最优参数,的候选值集合为 0.2,0.4,0.6,0.8,1,在各数据集上进行 5 次 5 折交叉验证实验,取5 次实验的平均准确率为实验结果,具体数值如表 5 所示.用于控制类别划分的过程,取值越小,对类别标签集进行划分的次数越多,产生的标签块越多.由表 5 可见,不同数据集的最优取值不完全相同,但较多地集中在 0.4 与 0.6 之中.这是因为 5 折交叉验证中每一折的实验

42、都会采用相同的进行类别划分,0.4 与0.6 的取值能够较好地依据每一折训练集的数据分布产生合适的类别划分结果.除了 tae 和 wine 数据集,HA-MBSVM 在其余数据集上,不为 1 时的性能均显著优于为 1 时的性能,这说明了进行类别划分再构建分类器的必要性与有效性.此外,同一数据集上不同取值的实验结果可能较为接近,如 iris 数据集上,取值为 0.4 与 0.6 时的实验结果仅相差 0.0013,这是因为相近的取值可能会产生相同的类别划分结果.2对于,我们将 HA-MBSVM 中其他参数固定为表 42023年第32卷第9期http:/www.c-s-计算机系统应

43、用SpecialIssue专论综述49223,21.75,20.5,27222222的最优参数,的候选值集合为,具体实验结果如表 6 所示.为 RBF 的带宽,利用核函数可以将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分.的改变实质上是 HA-MBSVM 向高维度映射的特征空间复杂度的改变.当增大时,高维特征空间的复杂度降低,线性可分程度也将降低;而当趋向于 0 时,高维特征空间的复杂度趋向于无穷,此时虽能将任意数据映射为线性可分,但往往会造成严重的过拟合问题32.由表 6可见,当取值较小时,除 iris 数据集外,HA-MBSVM在其余数据集上的性能都出现严重下

44、降,而当取较大值时,HA-MBSVM 在所有数据集上的表现都很差,220.7522这是高维特征空间复杂度的极端变化带来的影响.此外,不同数据集的最优取值不完全相同,但主要集中在和之中,这是因为这两个取值相对适中,映射的高维特征空间的复杂度能够较好地权衡样本的线性可分程度与模型的泛化能力.表 5HA-MBSVM 在不同取值下的准确率数据集0.20.40.60.81iris0.96000.96400.96270.95870.9227wine0.98660.98760.98450.98980.9865zoo0.91700.93270.93700.93050.8846tae0.59190.63970

45、.60030.60510.6141lymph0.81470.81330.82380.82040.7873dermatology0.95420.95520.94810.94290.87442表 6HA-MBSVM 在不同取值下的准确率数据集2321.7520.520.752223.2524.525.7527iris0.94670.94000.95470.96000.96400.93070.35870.33330.3333wine0.46940.98230.96490.99100.91930.97730.94820.44500.3566zoo0.53070.62180.87330.94080.93

46、070.92890.77590.40620.4061tae0.59310.61830.48830.43670.41560.36690.39340.33420.3379lymph0.54790.60280.78870.80950.81100.77360.79530.57960.4937dermatology0.31030.32150.90050.95130.95370.95080.89780.51060.3193 3.3 消融实验为了更好理解 HA-MBSVM 中不同部分对算法整体性能提升的影响,我们设计了 HA-MBSVM 的 5 种变体,进行全面的消融实验.首先,我们将 MBSVM 设置为

47、base 模型,以此为基础逐步添加 HA-MBSVM 中不同的设计组件,得到对应的变体如下所示.22,24,2100.2,0.4,0.6,0.8(I)base+超球与类别划分:base 中的 RBF 带宽与惩罚参数取表 3 中 MBSVM 的最优参数,拟合超球时RBF 带宽与惩罚参数候选值集合为,划分停止阈值的候选值集合为.90,150,210(II)base+ASSRFOA:base 中的 RBF 带宽与惩罚参数取表 3 中 MBSVM 的最优参数,ASSRFOA 最大迭代次数的候选值集合为.210,29,28,2422,23,24,212(III)base+“最近”的决策方式:base 中

48、的 RBF 带宽候选值集合为,惩罚参数候选值集合为.(IV)base+超球与类别划分+ASSRFOA+“最近”的决策方式:我们通过将 HA-MBSVM 中的约束距离调节因子固定为 1,其余参数取表 4 中 HA-MBSVM 的最优参数来实现该变体.(V)base+超球与类别划分+ASSRFOA+“最近”的21,22,23,24,25,26决策方式+约束距离调节因子:该变体即为 HA-MBSVM.我们取约束距离调节因子候选值集合为,其余参数取表 4 中的最优参数.依据如上参数设定,我们在各数据集上进行 5 次5 折交叉验证实验,最优结果作为单次实验结果,5 次实验的平均结果作为最终实验结果,如图

49、 3 所示.由图 3 可知,变体(I)、(II)、(III)在各数据集上表现不一,从整体上看,这 3 种变体无法有效提升 base 模型性能.变体(I)添加了超球与类别划分模块,但仍采用“最远”的决策方式,在各数据集上表现均较差,这说明“最远”的决策方式不适用于进行了类别划分的情况.变体(II)仅将 QPP 求解算法换为 ASSRFOA,除了dermatology,在其他数据集上均有两项以上的指标优于 base 模型,尤其在 iris 和 lymph 上,各指标均优于base 模型,这说明使用 ASSRFOA 求解 QPP 的有效性.但由于变体(II)缺少超球与类别划分模块,且未采用“最近”的

50、决策方式和添加约束距离调节因子,所以性能提升幅度有限.变体(III)采用“最近”的决策方式,但缺少超球与类别划分模块,在各数据集上表现很不稳定,在 iris 和 tae 上各指标均优于 base 模型,但在 zoo和 dermatology 上所有指标均不如 base 模型,这说明“最近”的决策方式和超球与类别划分模块结合使用的计算机系统应用http:/www.c-s-2023年第32卷第9期50专论综述SpecialIssue重要性.对于变体(IV),仅在 zoo 上的查准率和 F1 值以及 dermatology 上的准确率和查全率略低于 base 模型,其余数据集上 4 项指

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 ASSRFOA 支持向量

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。