几种电力数据异常检测算法的对比分析_申佳灵.pdf
《几种电力数据异常检测算法的对比分析_申佳灵.pdf》由会员分享,可在线阅读,更多相关《几种电力数据异常检测算法的对比分析_申佳灵.pdf(4页珍藏版)》请在咨信网上搜索。
1、智城实践NO.02 20231智能城市 INTELLIGENT CITY几种电力数据异常检测算法的对比分析申佳灵 易婷 聂勤 李军成*(湖南人文科技学院,湖南 娄底 417000)摘要:在采集电力数据时,往往会产生异常数据,这对后期的数据分析与处理会造成不良影响。因此,对电力数据的异常值进行有效检测显得尤为重要。文章以孤立森林算法、随机森林算法、K-Means算法及DBSCAN算法等电力数据异常检测算法为对象,通过仿真试验对四种算法的检测效果进行对比分析,为电力数据异常检测算法的选取提供了一定的依据。关键词:孤立森林算法;随机森林算法;K-Means算法;DBSCAN算法;电力数据检测中图分类
2、号:TP393 文献标识码:A 文章编号:2096-1936(2023)02-0001-04DOI:10.19301/ki.zncs.2023.02.001文献1提出了将可能性模糊C均值算法与改进的粒子群优化算法相结合的异常数据检测算法;文献2基于K-Means聚类算法将聚类中心点定义为与实际簇中心距离较为接近的数据点,改变了传统方法中任意选择聚类中心的缺陷;文献3对密度峰值聚类算法进行优化,用于检测电力大数据的异常值;文献4提出了一种基于孤立森林的大规模电量异常检测算法;文献5将孤立森林算法用于电力调度数据异常检测。在对电力数据的异常值进行检测时,需要选择合适的算法。文章研究目的是通过仿真试
3、验对目前常用的孤立森林算法、随机森林算法、K-Means算法、DBSCAN算法等电力异常数据检测算法进行对比分析,为电力数据异常检测算法的选取提供一定参考。1预备知识1.1孤立森林算法孤立森林算法6是一种高效的无监督异常检测算法。与传统的优化正常样本的描述相反,孤立森林算法主要是对异常样本的描述做优化,将分布稀疏并且离密度高的群体较远的点定义为异常点,在样本点随机选择的基础上,随机产生分割条件,对各个数据进行分配,基于异常数据占比量小以及特征值与正常数据差别较大两个特征,构建多棵孤立二叉树,组成孤立森林。对任意样本点,需要进行合理评估,当每个样本点都经历了孤立二叉树的构建过程后,可以计算路径长
4、度。在这种方式下,异常点通常具有较短的路径,且无须计算距离等指标,利用多棵树的建立能够减小误差,增加稳定性。在利用孤立森林算法进行电力数据异常检测时,若异常得分为正数,则将该样本点判定为正常值,反之判定为异常值。1.2随机森林算法随机森林算法7是一种基于集成学习的方法,主要通过多棵决策树对数据进行训练,并且随机过程可降低异常数据对结果的影响。随机森林算法在bagging算法的基础上进行了优化,从原始数据集中以有放回的抽取方式随机抽取样本,在决策树的每个节点上进行分裂时,随机选取特征,通过不断选择训练集与特征构建大量的子决策树,从而形成随机森林。决策树的构成包括根节点、内部节点和叶子节点,根据划
5、分特征,数据从根节点开始被决策,直到划分为最后的叶子节点,从而形成了一棵决策树。该算法能够处理高维度数据,既适用于离散型数据,也适用于连续型数据,且不容易陷入过拟合,具有良好的抗噪声能力。在利用随机森林算法进行电力数据异常检测时,构造邻近矩阵表示数收稿日期:2022-10-02作者简介:申佳灵,研究方向为数学建模及其应用。通信作者:李军成,博士,教授,研究方向为数学建模及其应用。基金项目:湖南省大学生创新创业训练计划项目“基于边缘计算的电力数据采集与处理方法研究”(项目编号:湘教通2021197号No.3709);湖南人文科技学院数学应用与实践创新创业教育中心资助项目(项目编号:湘教通2019
6、333号No.82)引用本文:申佳灵,易婷,聂勤,等.几种电力数据异常检测算法的对比分析J.智能城市,2023,9(2):1-4.智城实践NO.02 20232智能城市 INTELLIGENT CITY据之间的相似程度(接近度),当离群值大于某一值时,该样本点则被视为异常点,从而找到样本数据中的异常数据。1.3K-Means算法K-Means算法8是一种基于距离的聚类算法,主要是采用距离作为相似性的评价指标,衡量数据集中所有数据的关系,即两个对象的距离越近,相似度越大,在异常值检测中具有一定的应用价值。K-Means算法是在设定簇的个数和随机选择聚类中心的基础上,计算各个数据与聚类中心的欧氏距
7、离,将数据对象划归至距离最近的中心所在的簇类中。该算法容易实现,聚类效果较好,且收敛速度快。在利用K-Means算法进行电力数据异常检测时,计算每个簇的正常半径(即阈值)和各个簇中数据点到聚类中心的距离,以阈值为界限,超出界限的点归为异常点。1.4DBSCAN算法DBSCAN算法9是一种基于密度的聚类算法,相较于K-Means聚类算法,该算法在聚类前不需要预先指定聚类的个数,生成的簇个数与数据集有关,主要思想是在聚类空间中的一定区域内包含对象的数目不小于某个给定的阈值,其中最重要的是邻域阈值和点数阈值两种参数的选择。邻域阈值是指在同一个簇中的样本之间最大距离,称为Epsilonilon,点数阈
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电力 数据 异常 检测 算法 对比 分析 申佳灵
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。