基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf
《基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf》由会员分享,可在线阅读,更多相关《基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 41 卷 第 3 期2023 年 5 月 广西师范大学学报(自然科学版)Journal of Guangxi Normal University(Natural Science Edition)Vol.41 No.3May 2023DOI:10.16088/j.issn.1001-6600.2022062401http:田晟,张津铭,李成伟,等.基于 BS_Bagging-cLightGBM 模型的电动汽车故障预测方法J.广西师范大学学报(自然科学版),2023,41(3):9-19.TIAN S,ZHANG J M,LI C W,et al.Fault prediction of ele
2、ctric vehicle based on BS_Bagging-cLightGBM modelJ.Journal of GuangxiNormal University(Natural Science Edition),2023,41(3):9-19.基于 BS_Bagging-cLightGBM 模型的电动汽车故障预测方法田 晟,张津铭,李成伟,李 嘉(华南理工大学 土木与交通学院,广东 广州 510641)摘 要:针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以 LightGBM 为基学习器改进的 Bagging 集成电动汽车故障预测模
3、型:在 Bagging 集成学习中使用 Borderline_SMOTE 方法对训练集重新采样,改善训练子集的数据不平衡程度,避免小类样本信息缺失;将权重系数和正则化项嵌入 LightGBM基学习器的损失函数中,提高训练中小类样本的错分类代价。实验结果表明,该模型可有效提高故障查全率、宏平均和AUC 值,其中 AUC 值达到 0.898 4,故障样本的查全率为 0.808 3,在电动汽车不平衡数据集上的故障分类性能显著优于传统单一模型和其他对比算法。关键词:故障诊断;LightGBM 模型;Bagging 集成学习;不平衡数据;Borderline_SMOTE中图分类号:U472;TP181
4、文献标志码:A 文章编号:1001-6600(2023)03-0009-11在新能源汽车产业高速发展的势态下,安全运行在其产业发展中的地位越发重要1-2。故障预测是纯电动汽车安全运行和维护的重要环节。大量纯电动汽车的运行数据接入到大数据监控平台,通过提取并分析这些车辆的监控数据,提前进行故障预警具有重要研究价值和现实意义。目前针对故障预测问题主要展开了 3 种方式的研究:基于统计方法、基于模型和基于数据驱动。其中基于统计方法的故障预测3利用统计分析方法挖掘概率信息实现预测,但是误检率较高。基于模型的故障预测4通过数学模型和随机仿真模拟过程进行故障预测,准确率较高,但依赖复杂情况下模型的准确构建
5、。随着数据集向大样本、高维度变化,故障情况也愈加复杂,机器学习在故障预测中受到更多的关注5-9,如灰色模型、人工神经网络、基于树的方法10等。刘金硕等11对电力计量设备构建基于梯度提升树(gradient boosting decision tree,GBDT)的故障和寿命周期预测模型,该方法的预测评估指标均在 90%以上。杨正森12根据生产数据,建立基于极端梯度提升树(extreme gradient boosting tree,XGBoost)和LightGBM 模型的产品故障预测模型。以上机器学习方法对平衡数据集已取得较好的分类性能,但对存在类别不平衡性的故障数据,机器学习会更多学习多数
6、类样本提供的信息,忽视小类(故障)样本的错分类代价,导致小类样本的分类查全率很低13。然而,现实情况中故障样本的错分类代价更高。针对数据类别不平衡的故障分类问题,诸多学者从不同层面展开研究。数据层面多数通过调整采样方法,改善类别间的不平衡性,以适应传统机器学习训练过程。Bauder 等14针对类不平衡数据,分别结合6 种不同采样方法(欠采样和过采样)建立对比实验,以 RF 模型为例,对数据集采样后,AUC 值从 0.793 8提高到 0.827 9,但是在数据集类别比例达到 0.75 0.25 后 AUC 值开始下降,验证了重采样方法的有效性,并验证过度抽样会造成不良影响。Guo 等15将小类
7、样本合成过采样技术(synthetic minorityoversampling technique,SMOTE)与主动学习结合使用,用于大规模、不平衡数据集的训练,得到更稳定和优良的性能,实验表明随着迭代次数的增加,AUC 曲线不断上升,以 AL 算法为例上升到 0.67,提高了收稿日期:2022-06-24 修回日期:2022-11-10基金项目:广东省自然科学基金(2021A1515011587,2020A1515010382)通信作者:田晟(1969),男,江西九江人,华南理工大学副教授,博士。E-mail:广西师范大学学报(自然科学版),2023,41(3)24.07%。Seiffe
8、rt 等16对于数据中的大类样本进行欠采样研究,再使用自适应增强(adaptive boosting,AdaBoost)方法,但由于抽样过程的随机性,结果缺乏通用性。重采样方式可以从数据层面改变不平衡性,并用于传统机器学习模型,但是对类别间的平衡程度仍存在问题,易发生过度抽样、过拟合等问题,模型缺乏稳定性。另一部分学者从算法层面17改进传统机器模型。颜诗旋等18基于 LightGBM 模型使用类别权重修正损失函数,一定程度提高了汽车故障分类效果。肖梁等19以 Bagging 集成学习为基础,构建多个平衡数据集进行训练,文中模型对 5 个数据集测试的 AUC 值在 0.750.99 间波动,在其
9、中 3 个数据集上相对于其他对比模型得到最高的 AUC 值,体现出较好的分类性能,但对分类场景有限制,泛化性能较弱。Costa等20对随机森林模型的损失函数进行修改,加入类别权重,有效提高了故障类别的查全率,但是依据模型参数由经验法指定,泛化性能较低。根据相关文献发现,目前分别对不平衡数据集的分类和基于平衡数据集的故障预测领域展开了很多研究,但是很少有人针对具有类别不平衡特性的电动汽车故障预测问题展开模型优化研究。针对这一问题,为实现对小类故障样本的稳定分类能力,本文同时从数据层面和算法层面进行串行优化,提出一种以改进的 cLightGBM 模型为基分类器,Borderline_SMOTE 为
10、采样方法的BS_Bagging集成汽车故障预测方法:首先,优化 LightGBM 算法,修改其损失函数,调整类别权重并引入 L1 正则化项,加强算法对小类样本的学习;其次,提出以 LightGBM 为基学习器的 Bagging 集成学习模型,以获取模型更好的泛化性能;最后,在数据层面,在 Bagging 集成学习模型中使用不同参数的 Borderline_SMOTE 方法对少数类样本进行过采样,和多数类样本共同组成不同的训练子集,在避免损失数据信息和过度抽样的情况下,改善训练数据集的不平衡程度。对比实验证明,BS_Bagging-cLightGBM 模型有效提高纯电动汽车故障预测模型的性能。1
11、 背景知识1.1 LightGBM 原理简介LightGBM 算法是 Ke 等21在 2017 年提出的基于决策树的梯度提升算法,具有内存消耗低、准确性高、可并行化快速学习大规模数据等特点。梯度提升算法(gradient boosting)的基本思想是通过串行训练生成多个弱学习,并将其逐步加入生成强学习器,分阶段逐步优化。迭代过程中,使用上轮基学习器的损失函数的负梯度(残差)拟合当前的基学习器。假设输入数据集为 T=(x(i),y(i)ni=1,损失函数为 L(y,F(x),迭代次数为 M,则损失函数的负梯度rim可以表示为:rim=-L(y(i),F(x(i)F(x(i)F(x)=Fm-1(
12、x),i=1,n。(1)用残差 rim去训练基学习器 hm(x),使当前模型 Fm(x)的损失函数最小,求解最佳拟合值 m,m=argminni=1L(y(i),Fm-1(x(i)+hm(x(i)。(2)最后通过权重系数将拟合的基学习器累加到现有模型,生成一个强学习器16-17:Fm=Fm-1(x)+mhm(x)。(3)LightGBM 模型作为改进的轻量级 gradient boosting 算法,分别通过使用直方图(histogram)算法和利用按叶子(leaf-wise)策略代替按层生长(level-wise)策略,解决了梯度提升算法中决策树寻找最优分裂节点过程中的训练速度和内存消耗问题
13、。直方图优化算法将连续的变量划分为一系列离散值计算,使决策树寻找最佳分裂点的计算量显著减少。另外,按叶子(leaf-wise)策略加速生长决策,遍历一层样本数据时,计算当前全部叶子的分裂增益后,只分裂其中增益最多的叶子,向下循环分裂。相对于 level-wise 生长策略,误差更小、精度更高、速度更快。1.2 Bagging 集成学习原理简介集成学习的本质是对同一预测任务训练多个基学习器,再采用一定的综合策略整合各基学习器来形01http:成一个强学习器,以获取更好的泛化性能,实现更精准预测。集成学习方法按基学习器之间的关系可以分为以 Boosting 为代表的串行式和以 Bagging 为代
14、表的并行式,其中并行式集成学习使用同种基学习器并行训练,训练基学习算法和训练并行类集成具有几乎相同计算复杂度,具有速度优势。Bagging 集成学习的基本思想是:在训练集上通过自助采样法进行 n 次随机有放回抽样,然后利用 n个采样子集并行训练 n 个基分类器,在验证集上调整这些基分类器的超参数,最后通过综合策略生成一个强分类器并在测试集上进行预测。1.3 Borderline_SMOTE 原理简介小类样本合成过采样技术(synthetic minority oversampling technique,SMOTE)是利用样本相近的小类样本之间进行插值的增加虚拟样本的一种过采样方法15,能增加
15、小类样本数量,降低类别不平衡比例,提高分类器性能,但也造成泛化、重叠和噪声等问题。Borderline_SMOTE 在其基础上进行细化改进,考虑小类样本内部分布差别,将小类样本分为安全、危险和噪声等 3 类,有筛选地使用部分少数类样本合成新样本,进一步改善数据集,如图 1 所示。假设整个训练集为 T,小类样本集合为 P=p1,p2,pk,多数类样本集合为 N=n1,n2,nq,则Borderline_SMOTE 的具体算法步骤如下:1)对小类样本中的每个样本 pi,计算其在整个训练集中的 m 个最近邻,并统计最近邻中多数类样本的个数 m(0mm)。AUBUKCUABC图 1 Borderlin
16、e_SMOTE 算法示意Fig.1 Schematic diagram of the Borderline_SMOTE algorithm2)若 m=m,则说明 pi的最邻近均为多数类样本,标记该样本点为噪音类,不参与后续计算;若m2mm,则说明 pi的最邻近中多数类样本更多,是易被错分类的点,标记该样本点为危险类,并放入集合 Ddanger=pi;若 0mm2,则标记该样本点为安全类,不参与后续计算。3)得到边缘小类样本集合 Ddanger=p1,p2,pd,0dk。4)对标记为样本 pi,选择 k 个最近邻小类样本(通常 k=5),计算样本 pi与 k 个近邻样本的距离 dk,加入随机数进
17、行线性插值,生成无重复的新小类样本:Ssyntheticj=pi+rand(0,1)dk,j=1,2,k。2 模型建立本文针对具有类别不平衡特点的电动汽车数据集进行故障预测方法研究,为实现对故障样本(小类)更好的分类预测,分别从集成学习的数据方面和单个基学习器的算法方面提出改进方案,最后提出BS_Bagging-cLightGBM电动汽车故障预测模型。2.1 基于 Borderline_SMOTE 改进 Bagging 集成学习集成学习通过综合策略结合多个基学习器优点得到强学习器,提高分类性能。针对电动汽车在进行故障预测、质量控制、安全设计等任务时所收集的大数据类别不平衡的特点22:正常样本(
18、大类)数量远多于故障样本(小类)数量,并且故障样本漏检比正常样本误检的代价更高,本文基于 Bagging 集成学习建立电动汽车故障预测分类模型。Bagging 集成学习是经典的并行式集成学习算法,通过训练多个互相不依赖的基学习器,再通过组合策略将其结合成强学习器,从而获得更好的分类效果。决策树、神经网络等基分类器容易受到样本扰动,因此 Bagging 集成学习中的数据采样方法是影响基分类器的丰富性和准确性的关键步骤。传统 Bagging 算法采用自助采样法,有放回地在数据集中随机采11广西师范大学学报(自然科学版),2023,41(3)样形成多个训练子集供基学习器训练。此方法随机性较强,易造成
19、部分信息缺失,尤其在面对类别不平衡明显的电动汽车数据时,很有可能加剧数据集的不平衡程度,不利于基学习器训练。因此,为改善数据不平衡同时保障数据子集之间的差异性,本文选择可调整过采样倍率的 Borderline_SMOTE 采样方法,保留训练集中的多数类样本,对于有筛选地使用部分少数类样本进行不同程度的过采样,形成保留原数据集特征但又有所差异的多个训练子集。此方法一方面可以避免小类样本信息缺失,改善数据类别不平衡程度,不破坏原有数据集特征;另一方面可以为基学习器提供多个有差异的数据集用于训练,保障基学习器间的独立性。2.2 改进的 LightGBM 模型为实现基学习器对于数据量大、维度高的电动汽
20、车数据的快速训练要求,选择 LightGBM 模型作为故障预测的基学习器。LightGBM 模型作为基于决策树的梯度提升算法,在加入使用直方图(histogram)算法和利用按叶子(leaf-wise)生长后,降低了算法困难程度,对于大样本分类有显著的速度优势。对于存在不平衡性的数据样本,正常样本的损失计算会在 LightGBM 模型的损失函数中被更加重视,在训练中更偏向于对正常样本的学习,而忽视故障样本14。因此本文对 LightGBM 模型的损失函数加入类别权重,增加对有故障样本的损失计算,并引入 L1 正则化项,避免造成过拟合。模型中的损失函数能够体现真实和训练的分类结果之间差异情况,损
21、失函数值越小,练习效果越好。因此,损失函数的设定会影响模型训练结果。在标准 LightGBM 模型中,对于有 n 个样本的数据集T=(x(i),y(i)ni=1,yi为训练样本 xi所对应的运行状态(正常或故障),即其损失函数为yi=1,xi属于故障样本,0,xi属于正常样本,L()=il(y(i),y(i)。(4)式中yi对应单棵决策树对于样本 xi的类别预测。在损失函数中嵌入权重系数 ai,同时为避免模型对于训练集过度学习造成过拟合,引入正则化项限制决策树的复杂度。正则化项主要包括 L1 正则化和 L2 正则化,其中 L1 正则化可以产生稀疏权值矩阵,有利于进行特征剔除,适用于本文汽车数据
22、情况。改进后的损失函数为L()=iai l(y(i),y(i)+1。(5)式中:ai为类别权重,模型中对应使用项调整各类别数据在参数寻优过程中的权重,强调故障样本错分类代价;1是 L1 正则化项,特征参数 由决策树自动获得,正则化参数 通过随机搜索选择。2.3 BS_Bagging-cLightGBM 电动汽车故障预测模型为提高集成分类器对类别不平衡的电动汽车数据的分类性能,本文 2.1 节和 2.2 节分别从各基学习器间的数据多样性、有效性和单个基学习器的性能两方面,串行优化电动汽车故障预测模型。从数据层面对选择 Borderline_SMOTE 方法采集多个基学习器的训练子集,避免信息缺失
23、,改善类别不平衡程度,保障数据子集间的差异化。算法层面,对 LightGBM 模型的损失函数加入类别权重,提高模型训练过程中对小类样本的关注。最终构建一个以 cLightGBM 模型为基学习器,Borderline_SMOTE 为采样方法的 Bagging 集成学习故障预测模型,改进后的模型称为 BS_Bagging-cLightGBM 模型。本文基于 BS_Bagging-cLightGBM 模型预测电动汽车故障的技术路线如图 2 所示。具体步骤如下:步骤 1:数据获取。读取原始故障数据集中的 3 690 580 个样本,并探查数据格式和样本描述情况。步骤 2:数据预处理。进行数据对齐和切片
24、、异常值剔除、缺失值填充、为样本增加类别编码等预处理工作。步骤 3:数据特征工程。按照数据特征工程的方法自动化构建特征,并对其进行特征缩放,得到模拟真实环境的故障数据集,改善建模效果。步骤 4:构建 Bagging 集成学习模型。将特征子集数据集划分为训练集、验证集和测试集,使用Borderline_SMOTE 算法对训练集中的有故障样本进行不同采样倍率的过采样,形成 10 份训练子集分别训21http:练 cLightGBM 模型,在验证集上使用网格调参法寻找这些基分类器的最优超参数,如损失函数类别权重,其中过采样倍率在 00.1。最后通过平均投票法的综合策略生成一个强分类器并在测试集上进行
25、预测。步骤 5:模型评估。基于新测试集的样本,使用训练完成的强学习器模型进行预测,输出各样本的类别。最后基于最终的预测结果和实际类别,输出混淆矩阵,并计算评估指标。*!DKKM)*!D3/,(+KKSample set 1Sample set 2Sample set 10cLightGBM model 1 cLightGBM model 2 cLightGBM model 10.cLightGBM model 1 to cLightGBM model 10Sample set 3cLightGBM model 3 40*32BBorderline_SMOTE-Bagging-cLightGBM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BS_Bagging cLightGBM 模型 电动汽车 故障 预测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。