基于Stacking集成学习的有源台区线损率评估方法.pdf
《基于Stacking集成学习的有源台区线损率评估方法.pdf》由会员分享,可在线阅读,更多相关《基于Stacking集成学习的有源台区线损率评估方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、第6 0 卷第6 期2023年6 月15日电测与仪 表Electrical Measurement&InstrumentationVol.60 No.6Jun.15,2023基于Stacking集成学习的有源台区线损率评估方法董美娜,刘丽平”,王泽忠,王守强,张子岩,邹运(1.华北电力大学电气与电子工程学院,北京10 2 2 0 6;2.中国电力科学研究院,北京10 0 192)摘要:人工智能及机器学习的发展,为有源台区线损率的评估提供了薪新的思路。提出一种基于Stacking集成学习的有源台区线损率评估方法。从特定系统中提取有源台区数据,采用互信息等方法处理数据中异常值,并建立电气特征指标体
2、系。考虑传统的机器学习与不同思想的集成学习算法之间的差异,综合线性模型与非线性模型,选择线性回归算法、随机森林算法、GBDT算法作为基学习器,构建多算法融合的Stacking集成学习模型。以某省有源台区数据为例,验证了所提方法的准确性和有效性。关键词:有源台区;线损率;互信息;集成学习;多算法融合D0I:10.19753/j.issn1001-1390.2023.06.019中图分类号:TM764A line loss rate evaluation method based on stacking ensemble learningDong Meina,Liu Liping,Wang Zez
3、hong,Wang Shouqiang,Zhang Ziyan,Zou Yun?(1.School of Electrical and Electronic Engineering,North China Electric Power University,Beijing 102206,China.2.China Electric Power Research Institute,Beijing 100192,China)Abstract:The development of artificial intelligence and machine learning provided a new
4、 idea for the evaluation of lineloss rate of transformer district with DG.A line loss rate evaluation method based on Stacking ensemble learning for trans-former district with DG was proposed in this paper.Data of transformer districts with DG was extracted from specific sys-tems and the outliers in
5、 the data were processed by means of mutual information to establish the electrical characteristic in-dicator system,considering the difference between traditional machine learning and dfferent ideas of ensemble learning al-gorithms,integrated linear model and nonlinear model,linear regression,rando
6、m forest and GBDT were involved in base-learner layer,and the model based on multi-algorithm combination of Stacking ensemble learning was built,accuracy andeffectiveness of the proposed method was confirmed based on the data of transformer districts with DG.Keywords:transformer district with DG,lin
7、e loss rate,mutual information,ensemble learning,multi-algorithm combination0引言线损是反映电力企业的经营和管理水平重要技术经济指标,其大小与电力企业的经济效益息息相关。低压台区线损指的是电压在0.4kV及以下情况下所产生的线损,这部分占到了整个配电网线损的一半以上,在电力系统的电能损耗中占的比例较大。随着新能源的发展,越来越多的分布式电源(Distributed Gen-eration,DG)接入电网。因此,提出一种适用于有源台区线损率的评估方法为新能源的接入及电网的优化提基金项目:国家电网有限公司科技项目(56 0
8、 0-2 0 191916 8 A-0-0-00)一134一文献标识码:Afor transformer district with DG文章编号:10 0 1-1390(2 0 2 3)0 6-0 134-0 6供了理论依据,具有十分重要的研究价值。传统有源台区线损率计算方法主要包括平均电流法、潮流法等 2,这些方法依赖于电网参数和运行数据,计算时所需数据多,计算量大且精度通常较低。近年来,人工智能技术的快速发展为当前人类社会带来了巨大变革。其中,文献 3应用线性回归算法对台区线损率进行预测。文献 4提出了聚类技术在线损率计算中的应用。文献 5研究了基于量子遗传算法优化的核心向量机在配电网线
9、损计算中的应用。此外,基于神经网络的线损评估方法有很多,神经网络往往和其他智能算法结合对线损进行估计,如粒子群算法、第6 0 卷第6 期2023年6 月15日遗传算法、灰色关联分析 6 等。文献 7 提出了深度学习在台区线损率分析中的应用。这些方法突破了传统方法的局限性,使得线损率评估得到进一步发展。但是,文献 3-7 只是采用了一种单独方式进行分析,由于不同台区样本之间存在差异,可能会由于随机性而导致泛化性能不佳。因此,文献 8-9提出了集成学习的思想,寻求使用组合多个模型的方式,进一步提高预测精度。但是,组合的方式多为同一类型算法不同参数模型求取均值作为估计结果,本质上还是一种算法,不能通
10、过取长补短的方式训练出更优异模型。文中在分析了线损率评估与人工智能技术的发展基础上,进一步研究集成学习技术在线损率估计中的应用,选取异质的机器学习算法进行有效结合,提出一种基于Stacking集成学习模型评估有源台区线损率的方法。首先介绍了Stacking集成学习算法以及三个基学习器的原理,包括随机森林、GBDT和线性回归。其次,采用互信息等方法处理异常数据,构建特征指标体系。然后,根据算法本质差异和评估结果的均方误差选择最佳的基学习器,构建多算法融合的Stacking集成学习模型。最后,采用有源台区样本数据验证了算法的准确性和有效性。1SStacking集成学习算法1.1基于Stacking
11、的集成学习方式Stacking集成学习框架首先将原始数据集划分成若干子数据集,输人到第一层的各基学习器中,每个基学习器输出各自的预测结果。然后,将第一层的输出作为第二层元学习器的输人值,实现对前一层输出特征归纳,对元学习器进行训练,再由元学习器输出最终预测结果。Stacking集成学习通过对多个模型的输出结果进行泛化,获得整体评估效果的提升 10。如图1所示。训练集1基学习器1预测结果2、样本集一训练集2基学习器2预测结果m训练集m基学习器m第一层预测模型图 1 Stacking 原理框图Fig.1 Principle framework of Stacking样本数据为S=(X,Y),输人变
12、量X=xi,x2,x,输出变量为Y=yi,y2,,y n,将其随机划分为5个大小相等的子集S,、S2、S、S4、Ss,选取前4份作为训练集,最后一份为测试集,采用4折交叉验证思想,令每电测与仪表Electrical Measurement&Instrumentation一个基学习器对样本进行训练,训练完成后,对测试样本进行测试,每一个模型工作的具体原理如图2 所示。模型1模型1 模型1模型1训练S;训练S训练S预测S预测结果a新训练集山训练S2训练S2预测S2训练S2预测结果2训练S3预测S3训练S训练S十子预测结果a3预测S4训练S训练S训练S4预测结果a4预测预测预测预测平均预测新测试bi
13、b2m个基学习器生成的新训练集(Al,A2,Am)m个基学习器生成的新测试集(B1,B2,Bm)图2Stacking框架下每一层模型工作原理Fig.2Working principle of each layer modelunder Stackingframework(1)假设第一层共有m个基学习器,b=1,2,m,重复步骤(2)步骤(4);(2)用第6 个基学习器进行训练,每次选出训练集中的3份进行训练,剩余1份进行测试,预测后输出特征列;,输出后,用参数定型的此学习器去训练测试集数据,输出预测结果bi;(3)由于4 折交叉验证,步骤(2)需要循环4 次,由训练集生成a1,2,a3,a4测
14、试集生成bi,b2,b3,b4;(4)将a1,a2,a3,a4纵向合并成一列的新训练集A,将bi,b2,b3,b4相加求平均值生成新的测试集B;(5)将A,A 2,,A m 作为训练集配合实际值Y输入Stacking第二层元学习器中进行训练训练完毕后,预测结果1用此学习器对Bi,B2,,Bm 做测试,此次预测结果即T元学习器11第二层预测模型Vol.60 No.6Jun.15,2023新特征模型2b3b4(a)第一层预测模型第二层元学习器第二层元学习器(b)第二层预测模型为最终评估结果。考虑不同算法之间的差异,使得不同算法能够取长补短,综合传统的机器学习与集成学习,选择随机森林算法、GBDT算
15、法、线性回归算法作为Stacking的集成学习的基学习器。1.2基学习器算法原理随机森林(RandomForest,RF)是Bagging算法簇的典型代表,其实质是对决策树算法的一种改进,将多个决策树合并在一起,采用自助重采样技术采集样本,其输出是所有回归树预测结果的均值,随机森林在训练时树与树之间是相互独立的,属于并行化处理,能一135 一结巢集B1最终训练集预测结果最终预测集预测结果第6 0 卷第6 期2023年6 月15日够处理高维数据集,解决了决策树泛化能力弱的特点。梯度提升树(Gradient Boosting Decision Tree,G B-DT)是Boosting算法簇的典型
16、代表,该算法由多棵决策树组成,与随机森林不同的是,该方法树与树之间并非相互独立,属于串行方法,在构建子树时,使用之前子树构建结果后形成的残差作为输人数据构建下一棵子树;最终预测时是按照子树构建的顺序进行预测,并将预测结果相加,通过损失函数的负梯度,最优化决策树参数,解决了一般损失函数的优化问题 12。线性回归算法是应用多元线性公式解决回归问题,线性回归算法结构简单,原理易懂,同时又包含了机器学习算法的典型运作特征,是机器学习算法的典型代表。2基于互信息技术的有源台区原始数据处理及特征指标体系构建2.1基于互信息技术的数据预处理方法从特定系统中提取有源台区数据,共有17 种原始数据与有源台区线损
17、率相关,为了保留台区信息的完整性,将这17 种原始数据均定义为特征指标。将上述特征指标分为四大类:台区总体特征、台区网架结构特征、台区运行特征和台区分布式电源特征。台区总体特征主要包括台区总户数、空载损耗、变压器容量、台区类型;台区网架结构特征包括供电半径和线路总长度;台区运行特征主要包括三相不平衡度、功率因数、功率方差、售电量、供电量、负载率、最大负荷;台区分布式电源特征主要包括分布式电源上网电量、正向有功总电量、反向有功总电量、分布式电源容量。互信息(MutualInformation,M I)可以反映各个特征指标与线损率的关联程度,公式如下 3:M(X;n)=Ep(x,y)log(n)y
18、eYxeXp(x)p(y)式中p(x,y)为X和Y的联合概率分布函数;p()和p(y)分别为X和Y的边缘概率分布函数。考虑到特征指标个数较多,指标间存在复杂的联系,为了去除指标间的相关性,降低余度,采用互信息算法求综合特征指标,并进行分析。公式如下:17Index:=Zn,Z,式中Index;表示第i个台区的综合特征指标数值,Z,表示第i个台区第j个特征指标标准化后的值;w为各个指标的权重系数,公式如下:17W;=MI/(ZMI,)对求出的综合特征指标进行排序,对照最大值和一136 一电测与仪 表Electrical Measurement&Instrumentation最小值、全距等统计量可
19、以看出数据离群状况。使用SPSS软件对综合特征指标数值进行异常统计分析,标识异常个案,并对异常个案进行剔除。2.2特征指标体系的构建将互信息值按照从大到小依此排序,建立随机森林模型和GBDT模型,选取不同个数的特征指标作为模型的输入,以均方误差(MSE)为衡量指标,选出最佳特征指标个数,构建特征指标体系。均方误差值越小,表示评估效果越好,公式如下:MSE=(y_test-y-pred)*n式中y_test为每个台区线损率实际值;y_pred为每个台区线损率预测值。2.3基于互信息技术的数据处理及特征指标体系构建实例分析为防止不同数量级带来的差异,首先对特征指标数据进行Z-score标准化,然后
20、计算各个特征指标与线损率之间的互信息,根据互信息所占比重,求个指标所占权重,如表1所示。表1各特征指标对应的互信息和权重Tab.1Mland weight of various indicators编号特征指标1三相不平衡度2功率因数3功率方差4售电量5供电量6负载率7最大负荷(1)8910111213(2)14151617根据各指标权重系数,求每个台区的综合特征指(3)标数值,将其按大小顺序进行排列,画出其分布曲线,如图3所示,综合特征指标数值两端有少部分发生了Vol.60 No.6Jun.15,2023(4)互信息(MI)权重(w)0.942 90.070 90.942.90.070 90
21、.942 90.070 90.942.50.070 90.942.40.070 90.942.30.070 80.941 40.070 8线路总长度0.939 5分布式电源上网电量0.936 1供电半径0.925 5分布式电源容量0.894 3正向有功总电量0.780 5台区总户数0.780 1空载损耗0.477 3反向有功总电量0.402 4台区容量0.3457台区分类0.222 00.070 60.070 40.069 60.067 20.058 70.058 60.035 90.030 30.026 00.016 7Tab.3MSE and running time of each al
22、gorithm第6 0 卷第6 期2023年6 月15日偏移现象。10-1025050075010001250台区个数图3综合特征指标曲线Fig.3 Curve of composite indicator对综合特征指标数值进行异常分析,求异常指标值,异常指标值越大表示偏离程度越严重。如表2 所示,编号为110 0 的台区异常指标值达到33.119,表明偏移程度十分严重,其余台区异常指标值也均超过5,表明数值异常,应进行剔除。表2 综合特征指标异常值分析Tab.2Outlier analysis of composite indicator台区异常指综合特征台区异常指综合特征编号标值指标值1
23、10033.119 01.314 21 12918.539 0-1.098 868417.076 0-1.073 254014.798 082114.323 01.022 0建立随机森林模型和GBDT模型,根据表1中特征指标的顺序,依次选取编号1-2,1-3,1-17个特征指标作为模型的输入,采用四折交叉验证法求得模型误差,如图4所示,当特征指标个数为13时,随机森林模型与GBDT模型的均方误差都达到了最小值,表明此时模型具有最佳性能,故选取前13个特征指标构建特征指标体系。RF0.0550.045QSW0.0350.02524 6 8 10121416电气特征指征标个数图4不同特征指标个数下
24、MSE值大小Fig.4NMSE value under different indicators电测与仪表Electrical Measurement&Instrumentation3基于Stacking集成学习评估有源台区线损率模型的建立32Vol.60 No.6Jun.15,20233.1 基学习器的选取在Stacking集成学习模型中,为了达到最佳评估效果,需选择差异度较大的模型作为基学习器,使得各个模型之间取长补短。文中首先选取7 种算法模型,包括传统的机器学习算法与集成学习算法,在通过分析比较,最终选择合适的算法模型作为基学习器。上述7 种算法模型可以归结为3大类。其中,支持向量机(
25、SupportVectorMachine,SVM)、线性回归(Linear Regression,LR)和K 近邻(K-NearestNeighbor,KNN)是传统的机器学习算法;Bagging和随机森林是基于Bagging思想的集成学习算法,AdaBoot和CBDT是基于Boosting思想的集成学习算法。将处理后的有源台区样本按照9 1的比例随机分为训练集和测试集,采用上述7 种机器学习算法,对其进行训练和测试,采用均方误差和运行时间作为评判算法的有效性指标,有效性指标计算结果如表3所示。表3各算法的均方误差及运行时间编号标值指标值54312.647 01 1068.508 01 273
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Stacking 集成 学习 有源 台区线损率 评估 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。