基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重.pdf
《基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重.pdf》由会员分享,可在线阅读,更多相关《基于聚类分析和Pearson相关系数法的电网负荷数据清洗与去重.pdf(7页珍藏版)》请在咨信网上搜索。
1、Vol.43 No.06 2023.06 船电技术|应用研究 69 基于聚类分析和基于聚类分析和 Pearson 相关系数法的相关系数法的 电网负荷数据清洗与去重电网负荷数据清洗与去重 赵 耀1,虞莉娟1,苏义鑫1,郑 拓2,童光波2(1.武汉理工大学 自动化学院,武汉 430070;2.国网湖北省电力有限公司黄冈供电公司,黄冈 438000)摘 要:针对电网负荷数据存在冗余和价值密度低等问题,本文提出一种结合 K-means 算法与 Pearson 相关系数计算的集成学习方法,对负荷数据进行清洗与去重。设置仿真实验将某地区连续 730 日的负荷数据进行聚类、切片、排序、比对、去重等分析处理,
2、得到清洗后的新数据集,将新数据集与原数据集代入相同的 BP 神经网络模型和随机森林模型进行负荷预测,实验结果表明新旧数据集具有相似的特征特性与数据挖掘潜力。与传统的数据去重方法相比,本文提出的数据清洗策略在进行训练集的预处理时,效率和准确度方面均有更好表现,可以为训练用于负荷预测的网络模型提供支持。关键词:聚类分析 K-means 算法 Bagging 算法 Pearson 相关系数 可决系数 中图分类号:TM714 文献标识码:A 文章编号:1003-4862(2023)06-0069-08 Power grid load data cleaning and De duplication b
3、ased on cluster analysis and pearson correlation coefficient method Zhao Yao1,Yu Lijuan1,Su Yixin1,Zheng Tuo2,Tong Guangbo2(1.School of Automation,Wuhan University of Technology,Wuhan 430070,China;2.Hubei Electric Power Company Huanggang Power Supply Company,Huanggang 438000,Wuhan,China)Abstract:Aim
4、ing at the problems of redundancy and low value density of power grid load data,this paper proposes an integrated learning method combining K-means algorithm and Pearson correlation coefficient calculation to clean and de duplicate load data.A simulation experiment was set up to cluster,slice,sort,c
5、ompare and de duplicate the 730 consecutive days load data of a region,and a new data set was obtained after cleaning.The new data set and the original data set were substituted into the same BP neural network model and random forest model for load forecasting.The experimental results show that the
6、new and old data sets have similar characteristics and data mining potential.Compared with the traditional data de duplication methods,the data cleaning strategy proposed in this paper improves the efficiency and accuracy when preprocessing the training set,and provide support for the training netwo
7、rk model used for load forecasting.Keywords:cluster analysis;K-means algorithm;bagging algorithm;Pearson correlation coefficient;determinable coefficient 0 引言引言 电力系统在发电、变电、输电、配电等阶段产生海量多源数据,由配电网管理系统(DMS)、收稿日期:2023-02-13 作者简介:赵耀(1997-),男,硕士。研究方向:电力系统负荷预测。E-mail: 数据采集与监视控制系统(SCADA)、能量管理系统(EMS)、智能电表系统等对
8、信息进行采集与分析1-2分析结果的应用主要集中于两个方向,一是对电网当前运行状态的评估与诊断,二是对电网未来运行或建设的规划与预测1。其中负荷预测技术是电网调度规划的关键,而作为负荷预测训练集的电网数据有数据量大、数据类型多、价值船电技术|应用研究 Vol.43 No.06 2023.06 70 密度低的特点2-3,因此在进行电力系统负荷预测任务前,先进行电网数据的清洗与去重,提取数据的相关性特征4,可以提高负荷预测的速度和效率。负荷预测是规划和运营电力系统,加强电力系统安全性,降低发电输电系统运营成本的重要手段。电力负荷预测根据预测持续时间分为短期、中期、长期预测,分别为 24 小时、几周或
9、几个月。长期与中期负荷预测通常用于规划电力系统中新站点或线路的启用或停运5,短期负荷预测主要用于对未来某日每个时刻的负荷量进行合理预测6精准的负荷预测不仅能为电网的区域规划建设提供帮助,辅助新发电机组的选址和容量选择,还能帮助电力调度部门更好地调配机组出力组合、制订检修计划、减少供电冗余,进而降低发电成本,增加经济效益。负荷预测受许多相互独立的参数,如天气条件、季节因素、所处时段、大型社会活动和突发事件等的影响,因此负荷变化往往表现为在年、月、日等不同时间长度上的周期变化,即时间序列上的非平稳随机过程7。而随着电网中智能电表和在线监测系统的投入使用,上述各种影响因素数据和负荷数据采集记录的范围
10、和频率显著增加,意味着数据规模更加庞大,且电力系统一直处于运行状态,对任务处理时限有一定要求,即要求能对电力数据进行高效的在线实时处理8。因此在进行电力系统负荷预测前,选择合适且有代表性的数据,对数据进行清洗和去重是获取更好的训练集与验证集、建立准确有效的预测模型的关键。1 数据清洗与去重方法数据清洗与去重方法 1.1 一般数据清洗方法 数据清洗包括噪声过滤与缺失值处理两个步骤,噪声过滤的一般方法有以下几种:高通滤波法:将低于给定频率的低频信号减弱、阻隔,减弱或阻隔的程度根据不同的滤波目的设定。特点是针对由偶然因素导致的噪声干扰,使用高通滤波法可以获得较好收敛值,但对周期性的噪声处理效果不佳。
11、小波分析法:非线性小波变换阈值法去噪是工程中应用最广泛的方法之一,可以在抑制噪声的同时,尽可能保留原始信号的峰值特征。但使用软阈值或硬阈值函数都各有缺点:由于导数不连续的性质,软阈值函数在许多工程实际中并不适用,而使用硬阈值函数在信号不连续点容易出现伪吉布斯效9。离群点检验:离群点检验的方法包括基于统计、临近度、密度或聚类分析的离群点检测,其中基于聚类分析的离群点检验方法在处理高维大数据集时更有优势,其中关键超参数值的选取直接影响聚类结果,因此需要不断验证离群点检验结果,获得使函数收敛的超参数值10。缺失值插补的一般方法有以下几种:回归插补法:根据回归函数对缺失值进行拟合。生成回归函数时使用的
12、数据越多,理论上能得到越精确的回归函数,但此方法会减小数据集的标准差,且需要回归函数中的变量存在线性关系。KNN算法:求解缺失值与所有已知样本之间的距离(一般取欧氏距离),选择 K 个距离最近的样本,以它们的加权平均值作为缺失值的插补。缺点是计算时需要遍历整个样本集合,因此算力要求较高,时效性不强。极大似然估计:在配电系统的监测和控制方面,Wenyu Wang 等将相位识别问题表述为一个极大边际似然估计问题10,优化后的算法对不准确的馈线模型、不完整的测量值和不良测量值具有鲁棒性,同时在复杂电路上的监测控制表现更好,缺点是容易陷入局部最优解和收敛速度较慢。1.2 k 均值算法 全称 k 均值聚
13、类算法(k-means clustering algorithm),是在处理分类或回归问题时常用的一种迭代求解的聚类分析算法,一般步骤如下:将待处理数据分为 k 个簇,同时随机选择其中 k 个对象作为初始聚类中心(簇原型),分别计算每个对象与所有初始簇原型的欧式距离,将对象分配给距离它最近的簇原型,形成 k 个簇,每这样分配一次簇,簇原型就根据本聚类中所有对象的重心(平均距离中心)更新一次。重复以上过程直到满足某终止条件,包括簇原型不再发生变化、限制最多迭代次数或误差平方和(SSE)局部最小,误差平方和计算公式如下:SSE=式中,k 为簇的个数;p 为样本点;iC为某个簇内所有样本点的集合;i
14、m为簇的簇原型。k 均值聚类算法复杂度低,聚类时容易得到局部最优解,将三类气象数据:日平均温度、日相对湿度、日降雨量作为算法处理的对象,三种数据都与一年中季度或月份相关,因此在使用k-means 算法时选取合适的 k 值和初始聚类中心,就可以获得基于气象三要素的局部最优聚类效果。Vol.43 No.06 2023.06 船电技术|应用研究 71 1.3 Bagging 算法 全称引导聚集算法(Bootstrap aggregating),又称装袋算法,作为一种常用的集成学习算法,一般与其他分类、回归算法结合,可以提高模型的准确性和鲁棒性,尤其在有降低泛化误差和避免过拟合的需求时有较好的表现。B
15、agging 算法的特点在于使用随机采样方法(bootstrap sample),从大小为 n 的训练集 D 中随机地、有放回地抽取 m 个大小为 n*(n*n)的子集 Di 作为新的训练集(即同一样本可能被多次抽取,可能未被抽取),基于 m 个训练集得到m 个不同的模型,最后根据任务类型的不同,通过取平均值或取多数票等方法得到最终结果。对离群点检测后的缺失样本数据进行预测,引入 Bagging 算法,以最小均方误差(MSE)的大小作为预测值的判正依据,提高预测值的准确性的同时避免发生过拟合。均方误差计算公式如下:miiiyymMSE121(2)式中,m 表示样本个数;iy表示实际值;iy 表
16、示预测值。1.4 Pearson 相关系数和可决系数 Pearson 相关系数可以用于衡量数据间线性相关程度,在-1,1的输出值域上,输出值越接近1 表示正相关性越强,越接近-1 表示负相关性越强,输出值为 0 表示无相关性。Pearson 相关系数在用欧几里德距离表示相似度的基础上,对被计算的值作中心化处理,再求中心化结果的余弦距离,变量的不同量纲的差别在上述计算过程中可以被消去,其计算公式如下:niniiiniiiyyxxyyxxr11221(3)式中,x和y分别是两个数据集的平均值。使用 Pearson 相关系数法分别计算三种气象数据:日平均温度、日相对湿度、日降雨量与用户用电负荷的相关
17、性,并根据计算结果设定权重d,用于在聚类分析时计算对象到簇原型的距离。可决系数由回归差平方和(SSR)与离差平方和(SST)的比值表示,可以衡量回归方程的拟合效果。在(0,1)的输出值域上,输出值越接近 1 表示回归方程拟合程度越高,估计值越接近实际测量值,输出值越接近 0 则表示拟合程度越低。可决系数的计算公式如下:222221yyyyyyyyr(4)式中,y为实际测量值;y为实际值的平均值;y 为回归方程的拟合值。可决系数应用在数据降重的步骤,可以判断两组数据间的拟合程度,或对多组数据根据可决系数的大小进行排序。2 数据清洗与去重流程设计数据清洗与去重流程设计 原数据集包含每日气象参数,气
18、象参数包括日平均温度、日相对湿度、日降雨量等参数。分别计算各参数与日总负荷的 Pearson 相关系数,根据相关系数 r 的归一化数值设定权重 d,将每组气象参数作为一个对象,使用基于原型的聚类分析方法,度量对象到簇原型的距离(考虑权重d),以距离量作为离群点得分 q,设定离群点判定值 Q,得分大于 Q 的认为是离群点,删去离群点并记录所有离群点参数信息,其中簇原型的确定使用了 K-means 算法,考虑实际时间跨度,设置 K-means 算法中簇的数量 k,初始随机种子点选择与所在簇平均值距离最近的对象。最后用误差平方和(SSE)验证优化后的簇是否有显著改善。上述过程含有超参数:k(簇的个数
19、)、Q(离群点判定值)。将用户样本群在每个离群点上的负荷数据按小时数切分,选择前后各七天共十四天的负荷数据生成一个子集,引入 Bagging 算法,对每个子集采用随机抽样方式,生成 m 个训练集,训练集包含十四个负荷数据(有重复的,也有未被抽取到的),遍历其中的负荷数据,以每次选取的负荷值将训练集分为两个集合,其中左集合包含小于等于选取值的样本,右集合包含大于选取值的样本,分别计算左右集合的 MSE,使左右集合MSE 之和最小的负荷值作为单个学习器的输出。m 个训练集使用相同方法进行计算,将 m 个输出值的算数平均作为该离群点的负荷预测值,对数据缺失处进行插补,并计算插补值的离群点得分,验证此
20、模型的有效性,对所有子集重复以上过程可以得到一个离群点上四个用户样本集合的完整负荷预测值。上述过程含有超参数:m(训练集个数)。船电技术|应用研究 Vol.43 No.06 2023.06 72 基于 Pearson 相关系数与可决系数的负荷数据清洗与去重流程如图 1 所示。图 1 负荷数据清洗与去重流程 对原数据集进行切片,其中4,3,2,11iTi为第 一 年 的 用 户 样 本 集 的 负 荷 数 据,4,3,2,12jTj为第二年的用户样本集的负荷数据。计算1 iT和2jTji的可决系数2r,当2r大于设定的判定值2R时,说明两组数据间的拟合程度 较 好,取 它 们 的 平 均 值 生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 聚类分析 Pearson 相关系数 电网 负荷 数据 清洗
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。