基于Voting机制的IMA-BP不平衡数据分类算法.pdf
《基于Voting机制的IMA-BP不平衡数据分类算法.pdf》由会员分享,可在线阅读,更多相关《基于Voting机制的IMA-BP不平衡数据分类算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、投稿网址:2023 年 第23 卷 第27 期2023,23(27):11698-08科 学 技 术 与 工 程Science Technology and EngineeringISSN 16711815CN 114688/T引用格式:黄富幸,韩文花.基于 Voting 机制的 IMA-BP 不平衡数据分类算法J.科学技术与工程,2023,23(27):11698-11705.Huang Fuxing,Han Wenhua.Classification algorithm of IMA-BP for unbalanced data based on Voting mechanismJ.Sci
2、ence Technologyand Engineering,2023,23(27):11698-11705.基于 Voting 机制的 IMA-BP 不平衡数据分类算法黄富幸,韩文花(上海电力大学自动化工程学院,上海 200090)摘 要 针对传统分类模型在实际应用中对提取到的不平衡数据特征进行分类时分类结果精度低的问题,提出使用蜉蝣算法(mayfly algorithm,MA)优化的反向传播(back propogation,BP)神经网络分类模型。同时为了提升算法前期全局搜索能力和后期局部搜索能力,引入阻尼比系数和非线性惯性权重因子,构建出改进蜉蝣算法(improved mayfly a
3、lgorithm,IMA)优化的 BP神经网络(IMA-BP)分类器。根据该分类器分类具有随机的特点,引入集成学习中的投票(Voting)机制,将 IMA-BP 作为弱分类器,将各弱分类器的分类结果通过软投票方法融合,构成了一个 Voting 机制的 IMA-BP 分类模型。为验证分类模型的性能,使用 UCI 数据库中的数据集将该模型与其他的模型进行比较,结果表明 Voting 机制的 IMA-BP 分类模型对 4 个数据集的分类准确率分别为 88.67%、96.67%、91.25%、93.52%,都要高于其他模型,说明该分类模型具有较好准确性和可行性,对一些分类任务具有较强的指导作用和应用价
4、值。关键词 神经网络;蜉蝣算法;阻尼比系数;非线性惯性权重因子;投票机制中图法分类号 TP183;文献标志码 A收稿日期:2022-12-06;修订日期:2023-07-11基金项目:国家自然科学基金(51906133)第一作者:黄富幸(1997),男,汉族,江苏南通人,硕士研究生。研究方向:智能优化算法、分类。E-mail:。通信作者:韩文花(1976),女,汉族,山东日照人,博士,副教授。研究方向:无损检测、智能优化算法。E-mail:hanwenhua 。Classification Algorithm of IMA-BP for Unbalanced Data Based onVoti
5、ng MechanismHUANG Fu-xing,HAN Wen-hua(School of Automation Engineering,Shanghai University of Electric Power,Shanghai 200090,China)Abstract Aiming at the problem that the accuracy of classification results is low when the traditional classification model is used toclassify the unbalanced data featur
6、es extracted in practical applications,a BP neural net-work classification model optimized by mayflyalgorithm(MA)was proposed.In order to improve the global search ability in the early stage and local search ability in the late stage,damping ratio coefficient and nonlinear inertia weight factor were
7、 introduced to construct the improved mayfly algorithm(IMA)opti-mized BP neural network(IMA-BP)classifier.According to the random feature of the classifier,Voting mechanism in ensemble learn-ing was introduced.Taking IMA-BP as a weak classifier,the classification results of each weak classifier were
8、 fused by soft Votingmethod,and an IMA-BP classification model with voting mechanism was constructed.To verify the performance of the classificationmodel,the model was compared with other models using four datasets from the UCI database.The results show that the classificationaccuracy of the IMA-BP
9、classification model of the Voting mechanism for the four datasets is 88.67%,96.67%,91.25%and93.52%,respectively,which is higher than that of other models.It shows that the classification model has good accuracy and feasibili-ty,and has a strong guiding role and application value for some classifica
10、tion tasks.Keywords neural network;mayfly algorithm;damping ratio coefficient;nonlinear inertia weight factor;Voting mechanism 深度学习1是机器学习领域中的一个热门的研究方向。能够通过无监督或有监督的方式2-3,表现出高效强大的分类能力和特征学习能力。深度学习是学习样本数据的内在规律和表示层次,使得模型能够识别文字、图像和声音等数据。通过不断研究发展,许多深度学习模型4-7相继被研究开发出来。使得分类模型在垃圾分类、损伤识别、医疗和故障诊断等方面运用也越来越热门8-10
11、。分类模型在实际应用中对提取到的不平衡数据特征进行分类时,其准确率要求也越来越高,也有越来越多的学者对分类算法进行优化。罗金满等11提出了一种结合 K 最近邻分类算法和改进粒子群算法的变电站设备分类识别方法提高了设备的分类识别精度。刘宇韬等12提出了一种基于自适应增强学习框架的最小二乘支持向量机算法(adaptiveboosting-least squares support vector machines,Ada-投稿网址:2023,23(27)黄富幸,等:基于 Voting 机制的 IMA-BP 不平衡数据分类算法11699Boost-LSSVM),应用于玻璃纤维损伤识别问题来提高损伤识别
12、的准确率。虽然以上方法分类准确率效果尚可,但是分类模型中或多或少都有存在一定的分类错误,分类模型的准确率还有得提高。深度学习中有关神经网络的研究有很多,但相比之下,反向传播(back propogation,BP)神经网络的理论是最完善的,具备良好的泛化能力、自适应、鲁棒性和学习性。BP 神经网络的输入层、隐含层和输出层这简单的三层结构能够很好地处理精度低的数据。现阶段 BP 神经网络现在已经被广泛应用在图像处理、函数逼近和分类识别等方面 Comes等13使用遗传算法(genetic algorithm,GA)来优化人工神经网络对来复合材料层合板的损伤位置和严重程度进行识别,使得识别变得准确。
13、耿文莉等14提出了一种灰色神经网络的安全风险评估模型,对风险信息准确分类,能确保网络云平台大数据存储的安全性能。钟蒙等15提出了 BP 神经网络与灰色关联度分析结合起来对公路的货运量进行预测,得到了较高的准确率。王丽等16用混沌天牛优化算法群优化 BP 神经网络,使得网络分类准确率提高。虽然总体优化使得网络效果有所提升,但BP 神经网络还是存在收敛速度差,容易掉入局部最优的陷阱的缺点17。因此,为了提高分类的准确率,现使用改进蜉蝣算法(improved mayfly algorithm,IMA)优化 BP 神经网络,并将其作为弱分类器,再将多个弱分类器得出的结果通过集成学习投票(Voting)
14、机制进行融合,来进一步提高分类性能,最终形成一个 Voting机制的 IMA-BP 多分类算法模型。最后将该模型与其他分类模型用数据库中的数据集来进行测试对比,来验证本文所构建的分类算法模型的准确性和有效性。1 原理及方法1.1 BP 神经网络BP 神经网络是一种多层前馈神经网络18-19,它的主要结构可分为 3 层:输入层、隐含层和输出层,如图 1 所示。BP 神经网络的性能主要由它的网络结构、阈值、权重和学习效率等因素决定。网络结构主要是隐藏神经元,其主要影响 BP 神经网络所需的训练次数。隐含层神经元太少需要增加训练次数来取得更好的结果,若隐含层神经元太多,那么训练时间会绵长且容易过拟合
15、。所以经过多次实验,隐含层神经元需要满足关系式y f(xi)vtij+fr,f(yi)f(xi)(7)式(7)中:vtij为雌性蜉蝣 i 在 j 维度 t 时刻的速度;ytij为雌性蜉蝣i在j维度t 时刻的位置;3为社会作用正吸引系数;为蜉蝣的能见度系数;rmf表示雌性蜉蝣与雄性蜉蝣的距离;f 为随机游走系数,只有当雌性蜉蝣没有被雄性蜉蝣攻击时起作用;r 为-1,1的一个随机数。1.2.3 雄雌蜉蝣的交配雄雌蜉蝣交配过程,可以使用交叉算子来表示,从雄性蜉蝣种群中选择一个样本为父本,从雌性蜉蝣种群中选择一个样本为母本。这两个样本在各自种群适应度排名相同。采用优胜劣汰的机制,将最优个体的雄性和雌性
16、蜉蝣进行繁殖得到最优个体,将其表示为O1=Lxmale+(1-L)yfemaleO2=Lyfemale+(1-L)xmale(8)式(8)中:O 为雌雄蜉蝣繁衍的后代;xmale为父本;yfemale为母本;L 为-1,1的一个随机数。1.3 蜉蝣算法的改进虽然蜉蝣算法与其他群智能优化算法相比有拥有良好的性能和优势,但是算法在前期的全局搜索能力较弱,这可能会导致后期难以达到理想解。为了提高蜉蝣算法的全局搜索能力,同时加强局部搜索能力,使用以下两种方法改进。(1)阻尼比系数。借鉴粒子群改进算法中粒子速度权重 g 的改变能优化算法的思想。在调试蜉蝣算法中,发现随机舞蹈系数 d 和随机游走系数 f
17、的改变同样对算法有所影响,因此引入阻尼比系数 damp,使得随机舞蹈系数 d 和随机游走系数 f 随着迭代次数的变化而稳定递减,表达式为d=ddampf=fdamp(9)引入阻尼比系数后,每一次迭代都会将随机舞蹈系数 d 和随机游走系数 f 进行一次运算,同时将运算结果给下一次迭代使用。此方法能够加强算法的全局搜索和局部搜索,防止算法陷入局部最优。(2)非线性惯性权重因子。惯性权重因子对算法的搜索能力和开发能力有着良好的指导性作用。当惯性权重因子较大时算法有较好的全局搜索能力,较小时算法的开发能力较强,有较好的局部搜索能力。因此,为了达到前期惯性权重因子较大,后期惯性权重因子较小的要求,循环时
18、的惯性因子计算公式为(t)=1-tTmax()2(10)式(10)中:t 为迭代次数;Tmax为最大迭代次数。当算法中引入非线性惯性权重因子后,雌性蜉蝣和雄性蜉蝣的位置更新表示为xt+1i=xti+vt+1iyt+1i=yti+vt+1i(11)当算法进行迭代运算时,惯性权重因子会从最大非线性的减小到 0。通过加入非线性惯性权重因子能够提升算法在前期的全局搜索能力,同时能够加强后期局部搜索能力。1.4 改进蜉蝣算法性能分析将改进的蜉蝣算法与基础的蜉蝣算法 MA、粒子群算法(particle swarm optimization,PSO)、遗传算法 GA 这 3 种优化算法进行比较。将这 4 种
19、优化算法应用于函数寻优中,找到函数最小值时的最优解,然后对算法的优化效果进行比较,函数表达式为F=x2-6x+9(12)在寻优时,将 4 种算法的初始种群都设为 20,迭代次数都设置为 10,解的上下限范围都设为(2,4)。最后各个优化算法得出的最优解与迭代次数如图 2 所示。从图 2 中可以看出,PSO 和 GA 得到最优解次数分别为第 8 次和第 7 次,而 MA 得出的最优解在第 3 次,改进后的 IMA 在第 2 次就得到了最优解,可以表明 IMA 优化效果好,且改进后算投稿网址:2023,23(27)黄富幸,等:基于 Voting 机制的 IMA-BP 不平衡数据分类算法11701图
20、 2 各优化算法比较Fig.2 Comparison of optimization algorithms法能够提升算法前期全局搜索能力和后期局部搜索能力,使算法能够更快地搜索到最优解。2 IMA-BP 混合模型与 Voting 机制2.1 IMA-BP 混合模型针对传统 BP 神经网络模型对数据分类结果精度低的问题,引入改进蜉蝣算法(improved mayflyalgorithm,IMA)来对 BP 神经网络的权值和阈值进行优化,流程图如图 3 所示。通过改进后的蜉蝣算法与 BP 神经网络相结合,改进后的蜉蝣算法可以优化网络的权值和阈值。将通过算法优化后的网络权值和阈值传递到 BP 神经网
21、络分类模型中,再对数据进行训练与分类,通过这种方法能有效预防BP 神经网络在分类时陷入一个局部极值,能够提高BP 神经网络的训练效率、速度和学习能力,且优化了网络的性能,获得更加准确的分类结果。IMA-BP模型的步骤如下。步骤 1 输入数据,将数据划分为了测试集和训练集。步骤 2 初始化蜉蝣算法的参数,主要为迭代次数、种群大小、蜉蝣的初始位置和速度等参数。步骤 3 将 BP 神经网络分类模型和训练集得出的分类准确率作为适应度函数来计算蜉蝣个体的适应度值。步骤 4 根据适应度值对蜉蝣群体历史最优位置 pbest和蜉蝣个体历史最优位置 gbest进行更新。步骤 5 根据引入的阻尼比系数和非线性惯性
22、权重因子对雄性蜉蝣和雌性蜉蝣的速度和位置进行更新。步骤 6 雄雌蜉蝣进行交配,若生成子代后的适应度值较优则替换掉对应的较差个体,此时子代的初始速度为 0。步骤 7 判断是否满足输出条件(迭代次数是否达到限定次数).如果满足条件则输出最优值,如果不满足则返回步骤 3。步骤 8 将步骤 7 中输出的最优值,即经过蜉蝣算法优化后的最优权值和阈值分别传递反馈给BP 神经网络分类模型,再将准备好的训练集放入模型对模型进行学习与训练,最后将测试集放入模型中进行分类,得出分类结果和准确率。图 3 IMA-BP 流程图Fig.3 IMA-BP flow chart IMA-BP 混合模型的算法伪代码如下所示。
23、IMA-BP 混合模型伪代码输入:训练集 train,测试集 test输出:准确率 Accuracy建立神经网络模型初始化神经网络参数 W,b初始化雄性和雌性蜉蝣的种群和速度求出各蜉蝣适应度值(网络对训练集的分类准确率)得出 gbestWhile 未满足中止条件 更新雌雄蜉蝣的速度和解 评估解 雌雄蜉蝣排序 雌雄蜉蝣交配 评估子代 将子代划为雌性和雄性种群 更新 pbest和 gbestEnd将 gbest给 W,b 赋值通过优化后的网络对测试集进行分类计算出准确率 Accuracy 通过伪代码可以对算法进行复杂度分析。算法执行所消耗的时间可以称为时间复杂度,可以检投稿网址:11702科 学
24、技 术 与 工 程Science Technology and Engineering2023,23(27)验算法的性能。在算法中,包含着雌性蜉蝣和雄性蜉蝣两个种群,假设种群数量分别为 N 和 M,当算法的维度为 k,且迭代次数为 G 时,那么该算法的时间复杂度为 O(N+M)kG。2.2 Voting 机制集成学习(ensemble learning,EL)在机器学习、深度学习中有重要的应用。集成学习顾名思义就是把所建立的不同模型通过某些机制或按要求设定的标准进行集成融合,从而能够得到一个更加强大稳健的模型。集成学习的方法有多数票机制、套袋法和 Adaboost 等。由于 BP 神经网络的分
25、类具有随机性,为了提升分类算法的准确率,将 IMA-BP 分类算法作为一个弱分类器,把多个弱分类器得出的结果通过集成学习中投票(Voting)机制来进行融合,形成一个强分类器,如图 4 所示。图 4 集成学习Fig.4 Integrated learning集成学习中的投票(Voting)机制可以分为硬投票(hard voting)和软投票(soft voting)。硬投票表示各弱分类器在权重相同的情况下进行投票,其原理为多数投票原则,满足少数服从多数。同时投票中如果弱分类器的某一分类结果超过半数,那么选择该结果,如果没有半数,那么结果则无输出。软投票也称加权平均概率投票,虽然软投票的原理也是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Voting 机制 IMA BP 不平衡 数据 分类 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。