分销赏收藏举报申诉 / 11

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf

基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf

上传人：自信****多点

文档编号：581338

上传时间：2024-01-02

格式：PDF

页数：11

大小：2.81MB

《基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf》由会员分享，可在线阅读，更多相关《基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法.pdf（11页珍藏版）》请在咨信网上搜索。

1、第 41 卷第 3 期2023 年 5 月广西师范大学学报(自然科学版)Journal of Guangxi Normal University(Natural Science Edition)Vol.41 No.3May 2023DOI:10.16088/j.issn.1001-6600.2022062401http:田晟,张津铭,李成伟,等.基于 BS_Bagging-cLightGBM 模型的电动汽车故障预测方法J.广西师范大学学报(自然科学版),2023,41(3):9-19.TIAN S,ZHANG J M,LI C W,et al.Fault prediction of ele

2、ctric vehicle based on BS_Bagging-cLightGBM modelJ.Journal of GuangxiNormal University(Natural Science Edition),2023,41(3):9-19.基于 BS_Bagging-cLightGBM 模型的电动汽车故障预测方法田晟,张津铭,李成伟,李嘉(华南理工大学土木与交通学院,广东广州 510641)摘要:针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以 LightGBM 为基学习器改进的 Bagging 集成电动汽车故障预测模

3、型:在 Bagging 集成学习中使用 Borderline_SMOTE 方法对训练集重新采样,改善训练子集的数据不平衡程度,避免小类样本信息缺失;将权重系数和正则化项嵌入 LightGBM基学习器的损失函数中,提高训练中小类样本的错分类代价。实验结果表明,该模型可有效提高故障查全率、宏平均和AUC 值,其中 AUC 值达到 0.898 4,故障样本的查全率为 0.808 3,在电动汽车不平衡数据集上的故障分类性能显著优于传统单一模型和其他对比算法。关键词:故障诊断;LightGBM 模型;Bagging 集成学习;不平衡数据;Borderline_SMOTE中图分类号:U472;TP181

4、文献标志码:A 文章编号:1001-6600(2023)03-0009-11在新能源汽车产业高速发展的势态下,安全运行在其产业发展中的地位越发重要1-2。故障预测是纯电动汽车安全运行和维护的重要环节。大量纯电动汽车的运行数据接入到大数据监控平台,通过提取并分析这些车辆的监控数据,提前进行故障预警具有重要研究价值和现实意义。目前针对故障预测问题主要展开了 3 种方式的研究:基于统计方法、基于模型和基于数据驱动。其中基于统计方法的故障预测3利用统计分析方法挖掘概率信息实现预测,但是误检率较高。基于模型的故障预测4通过数学模型和随机仿真模拟过程进行故障预测,准确率较高,但依赖复杂情况下模型的准确构建

5、。随着数据集向大样本、高维度变化,故障情况也愈加复杂,机器学习在故障预测中受到更多的关注5-9,如灰色模型、人工神经网络、基于树的方法10等。刘金硕等11对电力计量设备构建基于梯度提升树(gradient boosting decision tree,GBDT)的故障和寿命周期预测模型,该方法的预测评估指标均在 90%以上。杨正森12根据生产数据,建立基于极端梯度提升树(extreme gradient boosting tree,XGBoost)和LightGBM 模型的产品故障预测模型。以上机器学习方法对平衡数据集已取得较好的分类性能,但对存在类别不平衡性的故障数据,机器学习会更多学习多数

6、类样本提供的信息,忽视小类(故障)样本的错分类代价,导致小类样本的分类查全率很低13。然而,现实情况中故障样本的错分类代价更高。针对数据类别不平衡的故障分类问题,诸多学者从不同层面展开研究。数据层面多数通过调整采样方法,改善类别间的不平衡性,以适应传统机器学习训练过程。Bauder 等14针对类不平衡数据,分别结合6 种不同采样方法(欠采样和过采样)建立对比实验,以 RF 模型为例,对数据集采样后,AUC 值从 0.793 8提高到 0.827 9,但是在数据集类别比例达到 0.75 0.25 后 AUC 值开始下降,验证了重采样方法的有效性,并验证过度抽样会造成不良影响。Guo 等15将小类

7、样本合成过采样技术(synthetic minorityoversampling technique,SMOTE)与主动学习结合使用,用于大规模、不平衡数据集的训练,得到更稳定和优良的性能,实验表明随着迭代次数的增加,AUC 曲线不断上升,以 AL 算法为例上升到 0.67,提高了收稿日期:2022-06-24 修回日期:2022-11-10基金项目:广东省自然科学基金(2021A1515011587,2020A1515010382)通信作者:田晟(1969),男,江西九江人,华南理工大学副教授,博士。E-mail:广西师范大学学报(自然科学版),2023,41(3)24.07%。Seiffe

8、rt 等16对于数据中的大类样本进行欠采样研究,再使用自适应增强(adaptive boosting,AdaBoost)方法,但由于抽样过程的随机性,结果缺乏通用性。重采样方式可以从数据层面改变不平衡性,并用于传统机器学习模型,但是对类别间的平衡程度仍存在问题,易发生过度抽样、过拟合等问题,模型缺乏稳定性。另一部分学者从算法层面17改进传统机器模型。颜诗旋等18基于 LightGBM 模型使用类别权重修正损失函数,一定程度提高了汽车故障分类效果。肖梁等19以 Bagging 集成学习为基础,构建多个平衡数据集进行训练,文中模型对 5 个数据集测试的 AUC 值在 0.750.99 间波动,在其

9、中 3 个数据集上相对于其他对比模型得到最高的 AUC 值,体现出较好的分类性能,但对分类场景有限制,泛化性能较弱。Costa等20对随机森林模型的损失函数进行修改,加入类别权重,有效提高了故障类别的查全率,但是依据模型参数由经验法指定,泛化性能较低。根据相关文献发现,目前分别对不平衡数据集的分类和基于平衡数据集的故障预测领域展开了很多研究,但是很少有人针对具有类别不平衡特性的电动汽车故障预测问题展开模型优化研究。针对这一问题,为实现对小类故障样本的稳定分类能力,本文同时从数据层面和算法层面进行串行优化,提出一种以改进的 cLightGBM 模型为基分类器,Borderline_SMOTE 为

10、采样方法的BS_Bagging集成汽车故障预测方法:首先,优化 LightGBM 算法,修改其损失函数,调整类别权重并引入 L1 正则化项,加强算法对小类样本的学习;其次,提出以 LightGBM 为基学习器的 Bagging 集成学习模型,以获取模型更好的泛化性能;最后,在数据层面,在 Bagging 集成学习模型中使用不同参数的 Borderline_SMOTE 方法对少数类样本进行过采样,和多数类样本共同组成不同的训练子集,在避免损失数据信息和过度抽样的情况下,改善训练数据集的不平衡程度。对比实验证明,BS_Bagging-cLightGBM 模型有效提高纯电动汽车故障预测模型的性能。1

11、背景知识1.1 LightGBM 原理简介LightGBM 算法是 Ke 等21在 2017 年提出的基于决策树的梯度提升算法,具有内存消耗低、准确性高、可并行化快速学习大规模数据等特点。梯度提升算法(gradient boosting)的基本思想是通过串行训练生成多个弱学习,并将其逐步加入生成强学习器,分阶段逐步优化。迭代过程中,使用上轮基学习器的损失函数的负梯度(残差)拟合当前的基学习器。假设输入数据集为 T=(x(i),y(i)ni=1,损失函数为 L(y,F(x),迭代次数为 M,则损失函数的负梯度rim可以表示为:rim=-L(y(i),F(x(i)F(x(i)F(x)=Fm-1(

12、x),i=1,n。(1)用残差 rim去训练基学习器 hm(x),使当前模型 Fm(x)的损失函数最小,求解最佳拟合值 m,m=argminni=1L(y(i),Fm-1(x(i)+hm(x(i)。(2)最后通过权重系数将拟合的基学习器累加到现有模型,生成一个强学习器16-17:Fm=Fm-1(x)+mhm(x)。(3)LightGBM 模型作为改进的轻量级 gradient boosting 算法,分别通过使用直方图(histogram)算法和利用按叶子(leaf-wise)策略代替按层生长(level-wise)策略,解决了梯度提升算法中决策树寻找最优分裂节点过程中的训练速度和内存消耗问题

13、。直方图优化算法将连续的变量划分为一系列离散值计算,使决策树寻找最佳分裂点的计算量显著减少。另外,按叶子(leaf-wise)策略加速生长决策,遍历一层样本数据时,计算当前全部叶子的分裂增益后,只分裂其中增益最多的叶子,向下循环分裂。相对于 level-wise 生长策略,误差更小、精度更高、速度更快。1.2 Bagging 集成学习原理简介集成学习的本质是对同一预测任务训练多个基学习器,再采用一定的综合策略整合各基学习器来形01http:成一个强学习器,以获取更好的泛化性能,实现更精准预测。集成学习方法按基学习器之间的关系可以分为以 Boosting 为代表的串行式和以 Bagging 为代

14、表的并行式,其中并行式集成学习使用同种基学习器并行训练,训练基学习算法和训练并行类集成具有几乎相同计算复杂度,具有速度优势。Bagging 集成学习的基本思想是:在训练集上通过自助采样法进行 n 次随机有放回抽样,然后利用 n个采样子集并行训练 n 个基分类器,在验证集上调整这些基分类器的超参数,最后通过综合策略生成一个强分类器并在测试集上进行预测。1.3 Borderline_SMOTE 原理简介小类样本合成过采样技术(synthetic minority oversampling technique,SMOTE)是利用样本相近的小类样本之间进行插值的增加虚拟样本的一种过采样方法15,能增加

15、小类样本数量,降低类别不平衡比例,提高分类器性能,但也造成泛化、重叠和噪声等问题。Borderline_SMOTE 在其基础上进行细化改进,考虑小类样本内部分布差别,将小类样本分为安全、危险和噪声等 3 类,有筛选地使用部分少数类样本合成新样本,进一步改善数据集,如图 1 所示。假设整个训练集为 T,小类样本集合为 P=p1,p2,pk,多数类样本集合为 N=n1,n2,nq,则Borderline_SMOTE 的具体算法步骤如下:1)对小类样本中的每个样本 pi,计算其在整个训练集中的 m 个最近邻,并统计最近邻中多数类样本的个数 m(0mm)。AUBUKCUABC图 1 Borderlin

16、e_SMOTE 算法示意Fig.1 Schematic diagram of the Borderline_SMOTE algorithm2)若 m=m,则说明 pi的最邻近均为多数类样本,标记该样本点为噪音类,不参与后续计算;若m2mm,则说明 pi的最邻近中多数类样本更多,是易被错分类的点,标记该样本点为危险类,并放入集合 Ddanger=pi;若 0mm2,则标记该样本点为安全类,不参与后续计算。3)得到边缘小类样本集合 Ddanger=p1,p2,pd,0dk。4)对标记为样本 pi,选择 k 个最近邻小类样本(通常 k=5),计算样本 pi与 k 个近邻样本的距离 dk,加入随机数进

17、行线性插值,生成无重复的新小类样本:Ssyntheticj=pi+rand(0,1)dk,j=1,2,k。2 模型建立本文针对具有类别不平衡特点的电动汽车数据集进行故障预测方法研究,为实现对故障样本(小类)更好的分类预测,分别从集成学习的数据方面和单个基学习器的算法方面提出改进方案,最后提出BS_Bagging-cLightGBM电动汽车故障预测模型。2.1 基于 Borderline_SMOTE 改进 Bagging 集成学习集成学习通过综合策略结合多个基学习器优点得到强学习器,提高分类性能。针对电动汽车在进行故障预测、质量控制、安全设计等任务时所收集的大数据类别不平衡的特点22:正常样本(

18、大类)数量远多于故障样本(小类)数量,并且故障样本漏检比正常样本误检的代价更高,本文基于 Bagging 集成学习建立电动汽车故障预测分类模型。Bagging 集成学习是经典的并行式集成学习算法,通过训练多个互相不依赖的基学习器,再通过组合策略将其结合成强学习器,从而获得更好的分类效果。决策树、神经网络等基分类器容易受到样本扰动,因此 Bagging 集成学习中的数据采样方法是影响基分类器的丰富性和准确性的关键步骤。传统 Bagging 算法采用自助采样法,有放回地在数据集中随机采11广西师范大学学报(自然科学版),2023,41(3)样形成多个训练子集供基学习器训练。此方法随机性较强,易造成

19、部分信息缺失,尤其在面对类别不平衡明显的电动汽车数据时,很有可能加剧数据集的不平衡程度,不利于基学习器训练。因此,为改善数据不平衡同时保障数据子集之间的差异性,本文选择可调整过采样倍率的 Borderline_SMOTE 采样方法,保留训练集中的多数类样本,对于有筛选地使用部分少数类样本进行不同程度的过采样,形成保留原数据集特征但又有所差异的多个训练子集。此方法一方面可以避免小类样本信息缺失,改善数据类别不平衡程度,不破坏原有数据集特征;另一方面可以为基学习器提供多个有差异的数据集用于训练,保障基学习器间的独立性。2.2 改进的 LightGBM 模型为实现基学习器对于数据量大、维度高的电动汽

20、车数据的快速训练要求,选择 LightGBM 模型作为故障预测的基学习器。LightGBM 模型作为基于决策树的梯度提升算法,在加入使用直方图(histogram)算法和利用按叶子(leaf-wise)生长后,降低了算法困难程度,对于大样本分类有显著的速度优势。对于存在不平衡性的数据样本,正常样本的损失计算会在 LightGBM 模型的损失函数中被更加重视,在训练中更偏向于对正常样本的学习,而忽视故障样本14。因此本文对 LightGBM 模型的损失函数加入类别权重,增加对有故障样本的损失计算,并引入 L1 正则化项,避免造成过拟合。模型中的损失函数能够体现真实和训练的分类结果之间差异情况,损

21、失函数值越小,练习效果越好。因此,损失函数的设定会影响模型训练结果。在标准 LightGBM 模型中,对于有 n 个样本的数据集T=(x(i),y(i)ni=1,yi为训练样本 xi所对应的运行状态(正常或故障),即其损失函数为yi=1,xi属于故障样本,0,xi属于正常样本,L()=il(y(i),y(i)。(4)式中yi对应单棵决策树对于样本 xi的类别预测。在损失函数中嵌入权重系数 ai,同时为避免模型对于训练集过度学习造成过拟合,引入正则化项限制决策树的复杂度。正则化项主要包括 L1 正则化和 L2 正则化,其中 L1 正则化可以产生稀疏权值矩阵,有利于进行特征剔除,适用于本文汽车数据

22、情况。改进后的损失函数为L()=iai l(y(i),y(i)+1。(5)式中:ai为类别权重,模型中对应使用项调整各类别数据在参数寻优过程中的权重,强调故障样本错分类代价;1是 L1 正则化项,特征参数由决策树自动获得,正则化参数通过随机搜索选择。2.3 BS_Bagging-cLightGBM 电动汽车故障预测模型为提高集成分类器对类别不平衡的电动汽车数据的分类性能,本文 2.1 节和 2.2 节分别从各基学习器间的数据多样性、有效性和单个基学习器的性能两方面,串行优化电动汽车故障预测模型。从数据层面对选择 Borderline_SMOTE 方法采集多个基学习器的训练子集,避免信息缺失

23、,改善类别不平衡程度,保障数据子集间的差异化。算法层面,对 LightGBM 模型的损失函数加入类别权重,提高模型训练过程中对小类样本的关注。最终构建一个以 cLightGBM 模型为基学习器,Borderline_SMOTE 为采样方法的 Bagging 集成学习故障预测模型,改进后的模型称为 BS_Bagging-cLightGBM 模型。本文基于 BS_Bagging-cLightGBM 模型预测电动汽车故障的技术路线如图 2 所示。具体步骤如下:步骤 1:数据获取。读取原始故障数据集中的 3 690 580 个样本,并探查数据格式和样本描述情况。步骤 2:数据预处理。进行数据对齐和切片

24、、异常值剔除、缺失值填充、为样本增加类别编码等预处理工作。步骤 3:数据特征工程。按照数据特征工程的方法自动化构建特征,并对其进行特征缩放,得到模拟真实环境的故障数据集,改善建模效果。步骤 4:构建 Bagging 集成学习模型。将特征子集数据集划分为训练集、验证集和测试集,使用Borderline_SMOTE 算法对训练集中的有故障样本进行不同采样倍率的过采样,形成 10 份训练子集分别训21http:练 cLightGBM 模型,在验证集上使用网格调参法寻找这些基分类器的最优超参数,如损失函数类别权重,其中过采样倍率在 00.1。最后通过平均投票法的综合策略生成一个强分类器并在测试集上进行

25、预测。步骤 5:模型评估。基于新测试集的样本,使用训练完成的强学习器模型进行预测,输出各样本的类别。最后基于最终的预测结果和实际类别,输出混淆矩阵,并计算评估指标。*!DKKM)*!D3/,(+KKSample set 1Sample set 2Sample set 10cLightGBM model 1 cLightGBM model 2 cLightGBM model 10.cLightGBM model 1 to cLightGBM model 10Sample set 3cLightGBM model 3 40*32BBorderline_SMOTE-Bagging-cLightGBM

26、 3KOKAK333D14MBorderline_SMOTE图 2 模型流程Fig.2 Modeling flowchart3 实验验证与分析3.1 数据描述和预处理本文数据来源于新能源汽车中国国家大数据联盟平台的纯电动汽车在线数据库,车辆运行数据皆来自广州地区运行的各类电动车,数据采集时间为 2018 年 78 月,车辆上传数据平台的采样周期为10 s/次,共计 3 690 580 条,包含 52 个特征字段,由车辆传感器数据、故障代码信息和定位信息组成,具体含义及范例如表 1 所示。表 1 车辆部分运行数据Tab.1 Selected vehicle operation data字段名含义

27、范例t_volt总电压/V377.8377.0342.5t_current总电流/A7.7814.3512.55max_cell_volt电池最大单体电压/V3.903.453.54min_cell_volt电池最小单体电压/V3.853.423.51max_temp电池最高温度值/424239min_temp电池最低温度值/383835SOC电池荷电状态/%808010mileage累计行驶里程/km42 58142 58142 776max_alarm_lvl故障最高报警等级00231广西师范大学学报(自然科学版),2023,41(3)数据集中通用报警标志位定义了 19 类故障,包括温度差

28、异报警(temp_bias_alarm)、电池单体一致性差报警(cell_bad_consistency)、高压互锁状态报警(high_lock_alarm)、SOC 过低报警(soc_low_alarm)和制动系统报警(brake_alarm)等。其中制动系统故障、SOC 过低故障、高压互锁故障的样本总数约占总故障样本数的 99%。这些故障都在中国 2018 年新能源汽车故障前十名的榜单中,说明研究上述故障的预测方法具有现实意义。经数据探查发现,制动系统故障样本集中分布在同一款车型的几辆车中,而这几辆车不仅运行数据缺失严重且存在带故障行驶的嫌疑,可见相关数据不具有研究意义。因此本文以 SOC

29、过低故障和高压互锁故障作为预测主要研究对象。车辆行驶数据上传过程会受到天气因素、通信延时异常等影响,造成数据项的缺失与误差,因此需要对数据进行增强、修正等处理。本文对数据集进行最小值计量单元转换、异常值筛选、缺失值填充、数据对齐和故障数据集标记等预处理工作。故障数据集标记是把故障时间段内的运行数据标记为有故障状态,本文以高压互锁和 SOC 过低 2 种故障为主要研究对象。当出现高压互锁故障时表明动力电池出现硬故障或处于异常工作状态,能量回收和充电功能将停止。SOC 过低故障的出现有 2 种原因,一种是单体电压过低,另一种是 SOC 估算误差引起的异常切断。3.2 数据分析及特征工程为分析特征

30、字段的数据分布情况,本文通过统计分析,选取一辆有足够样本数、类别不平衡程度较弱的车辆数据,分别绘制字段特征 speed、mileage、t_volt、t_current、SOC、isulate_r、max_cell_volt、min_cell_volt、max_temp、min_temp 和 max_alarm_lvl 的频率直方图、核密度图和 Q-Q 图。如图 3,直方图和核密度图揭示了故障数据集中各字段特征值的分布规律,如车辆运行速度集中在慢中速区间,符合真实工况。从最高报警等级的分布看出数据集类别的不平衡程度相当大。另外,Q-Q 图中大部分字段特征均存在部分蓝色点落在红色直线外情况,说明

31、其分布均不是严格的正态分布。根据数据集中特征数据分布情况,本文选取 Spearman 相关系数利用双变量的秩次大小度量变量的相关性,其计算过程如式(7)所示。s=1-6ni=1di2n(n2-1)。(6)式中:s为 Spearman 相关系数值,取值范围为-1,1;n 为变量的个数;di为 2 个变量进行排序后位置顺序的差。由于各字段特征的量纲和数量级不同,需要先进行数据标准化,再计算各字段特征间的 Spearman 相关系数并绘制成热力图,如图 3 中最后一个子图所示。图中,大部分数值未超过 0.5,如 max_alarm_lvl 与speed 的 Spearman 相关系数仅为 0.16。

32、这说明数据本身包含的信息量太少不足以解释相关性,或者存在类别不平衡问题,即样本类别之间存在巨大数量差异。通过对故障数据集的探索发现,原始数据集中虽然存在 58 个特征字段,但是无关特征超过 10 个,有价值但信息完全缺失字段有 12 个,剩下的有研究价值的字段特征仅剩 14 个。因此本文提出自动化特征工程旨在通过从数据集中自动构造大量特征模拟真实环境下高维度的汽车故障数据集并用于模型训练,提高模型的性能和效率。特征工程就是从原生数据中尽可能提取有效特征,进而提高模型的性能23-25。本文选择组合特征、独热特征和统计特征 3 种工程,自动化生成新特征并加入到原始数据中。组合特征是指对一个或多个连

33、续型的特征通过一定组合策略生成新的特征,如本文使用的基于对数、幂次函数转换等运算策略。独热特征是指对类别间无大小关系的离散型变量,如故障数据集中 min_volt_cell_id、min_cell_volt_id 等离散型特征,采用独热编码(one-hot encoding)处理生成的新特征。统计特征是指利用统计学知识对时序类数据进行特征提取,提取蕴含数据分布规律的特征统计量,如采用定时长滑动时间窗提取统计特征分别计算其中位数、峰度等统计量。自动化特征工程后,生成 300 种新特征,其中部分特征可用专业领域知识诠释,还原真实环境下的汽车故障数据集,极大丰富数据集的特征维度。最后选择 Z-sco

34、re 标准化方法规范数据,消除各字段特征间41http:图 3 数据集中特征数据分布及特征间的 Spearman 系数Fig.3 Distribution of feature data in the dataset and Spearman coefficients between features量纲和数量级的差异。表 2 混淆矩阵Tab.2 Confusion matrix真实类别预测结果为正例预测结果为反例正例NTPNFN反例NFPNTN3.3 评价指标故障预测问题作为分类问题,其评价指标由混淆矩阵定义。由于本文研究数据集存在类别不平衡这一问题,需要从一般分类指标中选择能有效评估小类样

35、本分类效果的评价指标。混淆矩阵如表 2 所示,其中NTP(真正例)为正例样本被预测为正例的样本数;NFP(假正例)为反例样本被预测为正例的样本数;NFN(假反例)为正例样本被预测为反例的样本数;NTN(真反例)为负例样本被预测为负例的样本数。查全率(recall),简写为 R,表示实际有故障的样本被分类器能够成功预测到的概率,表征分类器对纯电动汽车有故障样本的区分能力。R0,1,R 越大,分类器对有故障样本的预测效果越好。R=NTPNTP+NFN。(7)宏平均(macro-averaging),简写为 Fmacro,先计算各类别的查准率和查全率的平均值,进而求得相应的51广西师范大学学报(自然

36、科学版),2023,41(3)宏 Fmacro。宏平均指标更注重小类样本,可以更好地衡量分类器在故障类样本过少的汽车故障数据集上的性能优劣。P=NTP+NTNNTP+NFP+NFN+NTN,(8)Fmacro=2 ni=1Pini=1Rinni=1Pi+ni=1Ri()。(9)受试者操作特征(receiver operating characteristic,ROC)曲线,是以“假正例率”(false positive rate,RFP)和“真正例率”(true positive rate,RTP)为横、纵坐标作图得到的曲线,其中 RTP=NTP/(NTP+NFN),RFP=NFP/(NTN+

37、NFP)。在 ROC 曲线下的面积称为 AUC 值,AUC 值越接近1,模型性能越好。真实的电动汽车故障数据集中存在类别不平衡现象,ROC 曲线可能对测试集中数据分布的变化不敏感,而 AUC 同时考虑分类器对大、小类样本的分类能力,依旧能够很好区分分类器的优劣。为了评估模型对电动汽车故障数据的分类效果,并且关注模型对小类样本的分类情况这一关键问题,本文依据各指标的评估特性,选择混淆矩阵衍生出的查全率 R、宏平均(macro-averaging)和 AUC 值 3 个评价指标衡量模型优劣。3.4 实验验证与结果分析经数据预处理和数据特征工程后,模拟真实环境的汽车故障数据集中的特征维数由 14 维

38、提升至 314维。其中训练集样本共 21 599 条,有故障样本 203 条。测试集样本共 16 233 条,其中有故障样本 303 条,无故障样本 15 930 条。首先,为了验证单一模型的改进效果,分别使用标准 LightGBM 模型、cLightGBM 模型、基于 XGBoost算法、随机梯度下降(stochastic gradient descent,SGD)算法和梯度提升算法(gradient boosting,GB)算法的模型进行电动汽车故障预测对比,模型性能对比如表 3 所示。其中 cLightGBM 模型的 L1 正则项系数为1,类别权重系数 class_weight=0 0

39、.924;1 0.007 6,对比算法的模型参数均通过网格法寻优得到。表 3 实验结果对比表 3 Comparison of experimental results模型RFmacroAUC 值cLightGBM0.639 00.879 00.819 1LightGBM0.492 00.825 80.749 4XGBoost0.431 40.797 20.715 6stochastic gradient descent00.495 10.500 0gradient boosting0.514 40.832 20.757 0从表 3 可知,针对类不平衡数据的 3 个重要指标:查全率 R、Fmac

40、ro和 AUC 值,未改进的基础模型对于有类不平衡特性的电动汽车故障预测效果均不理想。其中相对较好的 LightGBM 模型和 GB 模型的查全率 R 只能达到 0.5 左右,能体现小类故障样本预测效果的 Fmacro和 AUC 值分别不高于 0.833 和 0.76。但其对于大类非故障样本的预测准确性均高于 99.96%,仅对小类样本的预测出现明显偏差,造成各指标较低。数据表明,由于电动汽车运行数据集中样本量存在明显不平衡问题,传统机器学习模型会偏向学习大类样本的特征而忽视小类样本。因此,本文针对传统 LightGBM 模型存在的不足进行损失函数权重系数修正,增加故障样本的权重,从而放大机器

41、学习对于故障样本损失的关注。同时加入 L1 正则化修正,避免模型过拟合。对比实验结果显示,cLightGBM 模型预测效果得到明显提升,优化效果较好,查全率 R 和 Fmacro分别提高 29.9%和 6.44%,AUC 值突破 0.8,增加到 0.819 1,模型对于小类样本的分类性能显著提高。其次,对集成学习和数据层面的串行优化进行验证。BS_Bagging-cLightGBM 模型对于测试集的预测61http:表 4 优化模型的故障预测混淆矩阵Tab.4 Fault prediction confusion matrix forthe improved model样本数预测有故障预测无故

42、障实际有故障25360实际无故障18215 738结果如表 4 所示,预测成功故障样本 253 个,无故障样本 15 738 个。基于以上混淆矩阵计算各评价指标,并与单一模型进行对比。如图4 所示,以 cLightGBM 模型为基学习器,并使用 Borderline_SMOTE 作为采样方法,构建的Bagging 集成学习模型,性能得到显著提升。本文串行优化模型的查全率 R 为0.808 3,Fmacro和 AUC 值分别为0.834 4 和0.898 4,测试集中有 313 个实际有故障的样本,能有效识别出 253 个。实验结果显示,加入了过采样方法的集成学习模型通过组合基学习器得到性能更好

43、、更全面的强监督模型,有效减少了单独某一基学习器在测试数据集时产生误差的影响。同时Borderline_SMOTE 采样方法削弱了数据集中的不平衡程度,提高模型对故障样本的关注。实验查全率从0.639 变为0.808 3,提高了26.5%,AUC 值也提高了9.7%。虽然 Fmacro有小幅度下降,但仍保持在较高水平0.834 4,较好地完成故障预测任务。0.4920.825 80.749 40.6390.8790.819 10.808 30.834 40.898 400.20.40.60.81.0(RFmacroAUCLightGBMcLightGBMBS_Bagging-cLightGBM

44、图 4 改进模型效果对比Fig.4 Comparison of the effectiveness of improved models同时,为验证 BS_Bagging-cLightGBM 模型的效果,选择文献中具有相似数据集不平衡特征的改进模型实验结果进行对比。其中基于代价敏感学习和贝叶斯改进的 LightGBM 模型22,对于不平衡程度 3.53 1的数据集进行预测,AUC 值为 0.787 2;基于多集构建和特征提取改进的 Bagging 模型15,对于不平衡程度129.4 1 的数据集进行预测,AUC 值为 0.76;使用 SMOTE 方法进行数据层面改进的 RF 模型10,传统模型

45、 AUC 值为 0.793 8,在通过过采样将不平衡程度调整至 9 1 时达到最佳 AUC 值为 0.827 9。以上优化模型的 AUC 值均高于0.78,对于小类样本有较好预测效果。本文优化模型的预测实验 AUC 值为0.898 4,至少提升了 8.5%,说明本文改进的模型具有较高的预测价值,对电动汽车小类故障样本的故障预测问题具有优势性。4 结语本文根据纯电动汽车故障预测数据集类别不平衡引起的模型故障数据判别难度高和查全率低的问题,进行数据层面和算法层面的改进,构建 BS_Bagging-cLightGBM 模型。该模型以修正代价损失函数并加入正则化项的 cLightGBM 为基分类器,强

46、调小类样本的误分类代价的同时降低过拟合风险,有效提高基分类器的性能;使用 Bagging 集成学习,通过调整训练集数据,得到具有差异性的各个基学习器,通过综合策略集成以获取更好的泛化性能;数据层面在 Bagging 集成学习框架中使用 Borderline_SMOTE采样方法,改善训练子集的类别不平衡程度,最终实现模型对电动汽车运行数据的良好的故障预测效71广西师范大学学报(自然科学版),2023,41(3)果,以及泛化性能的提高,更好地解决了故障预测中的类别不平衡问题。对比实验结果显示,本文提出的 BS_Bagging-cLightGBM 模型对电动汽车数据的故障预测性能有显著优势,故障查全

47、率 R、Fmacro和 AUC值均有明显提高,具备工程应用价值。但是本文所用的纯电动汽车运行数据存在不足,与纯电动汽车的实际运行情况仍有差异,不能完全还原车辆在真实环境下的故障状态,因此本次研究主要针对发生最集中的 SOC 过低故障和高压互锁故障 2种故障进行研究,但是模型对于数据类别不平衡的故障分类问题具有泛化性,后续研究中会在采集多源数据集的基础上展开对其他故障状态的模型训练。其次,在研究目标上,目前使用纯电动汽车的历史运行数据在不平衡数据集的故障预测问题上展现了较为优秀的分类效果。在下一步的研究中,需在进行数据集标记时将故障预兆数据加入故障数据集等方式,探索向故障提前预测的转变。参考

48、文献1 HONG J C,WANG Z P,YAO Y T.Fault prognosis of battery system based on accurate voltage abnormity prognosis usinglong short-term memory neural networksJ.Applied Energy,2019,251:113381.DOI:10.1016/j.apenergy.2019.113381.2贾爱芹,陈建军,蒋志强,等.基于灰色支持向量机的汽车制动系统故障诊断与预测J.机械设计与研究,2015,31(1):149-152.DOI:10.1395

49、2/ki.jofmdr.2015.0039.3GALAGEDARAGE DON M,KHAN F.Process fault prognosis using hidden Markov model-Bayesian networks hybrid modelJ.Industrial&Engineering Chemistry Research,2019,58(27):12041-12053.DOI:10.1021/acs.iecr.9b00524.4许水清,刘锋,何怡刚,等.基于自适应滑模观测器的新能源汽车驱动系统电流传感器微小故障诊断J/OL.中国电机工程学报:1-132022-11-06.

50、http: X,HAN T.Transformer fault diagnosis based on stacking ensemble learningJ.IEEJ Transactions on Electricaland Electronic Engineering,2020,15(12):1734-1739.DOI:10.1002/tee.23247.6马新娜,赵猛,祁琳.基于卷积脉冲神经网络的故障诊断方法研究J.广西师范大学学报(自然科学版),2022,40(3):112-120.DOI:10.16088/j.issn.1001-6600.2021070808.7WEN P G,ZH

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 BS_Bagging cLightGBM 模型电动汽车故障预测方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。