基于流聚类的PMU异常数据辨识算法.pdf
《基于流聚类的PMU异常数据辨识算法.pdf》由会员分享,可在线阅读,更多相关《基于流聚类的PMU异常数据辨识算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、 :年 月 第 卷第 期基于流聚类的 异常数据辨识算法邓小玉,王向兵,曹华珍,王流火,严洪峰,王宏宇(广东电网有限责任公司,广东 广州 ;江苏金智科技股份有限公司,江苏 南京 )摘要:为保证同步相量测量装置(,)采集数据的准确应用,须排除其量测值中的异常数据。现有 异常数据辨识算法存在算法复杂度高、难以在线更新、多源数据难以校准、依赖多源数据应用难度大等不足。为此,文中从 事件数据和异常数据模型及 异常数据判别信息熵定义出发,提出基于该信息熵的异常数据辨识框架。在此框架基础上,基于利用层次方法的平衡迭代规约和聚类(,)算法提出 异常数据辨识算法;然后,对所提出的算法进行原型实现,并针对某变电站
2、的 采集数据集进行算法实验验证。实验结果表明,与一类支持向量机(,)算法与间隙统计算法相比,文中算法的准确度及实时性均具有较强的优势。关键词:同步相量测量装置();异常数据;事件数据;辨识框架;信息熵;流聚类中图分类号:文献标志码:文章编号:()收稿日期:;修回日期:基金项目:中国南方电网有限责任公司科技项目()引言目前,电网中大量应用的动态数据采集设备为同步 相 量 测 量 装 置(,)。量测在电力系统内部状态切换时可能产生跳变的事件数据,也会因互感器误差、设备故障、时间同步异常、通信系统中断等诸多因素 产生异常跳变,即量测值中出现异常数据。智能电网的电网安全评估、预防控制和运行分析均以准确
3、的电力系统状态估计为基础,若量测值中存在误差较大的异常数据,将导致系统状态估计准确度降低,影响系统实时监测及控制 。而基于异常数据所作的决策判断可能威胁到整个电网安全。因此,为保障电网安全可靠运行,研究 异常数据及其辨识方法有重要意义。国内外学者已经针对 异常数据辨识方法展开了深入研究 。文献 提出了一种基于谱聚类的 异常数据检测算法,采用决策树方法分辨出事件数据,再通过谱聚类进行正常数据与异常数据的辨识,但其决策依赖异常数据维持的时间长度定义,易将事件数据误辨识为异常数据;文献 提出了基于核心微簇与离群微簇的异常数据辨识算法,先在线更新潜在核心微簇和离群微簇,再通过基于密度的噪声应用空间聚类
4、(,)算法重新对所有微簇进行离线聚类,更新核心微簇,算法复杂度较高;文献 提出了一种基于 和数据采集与监视控制系统的单一点互校核算法,其准确率高,速度较快;文献 提出了一种基于多维特征向量和阈值的异常数据辨识算法。上述算法应用时都要先训练模式分类器再进行异常数据区分,无法实现在线更新,应用难度大。为了降低辨识算法的复杂度,可以采用流聚类 算法进行数据的在线训练和聚类。该算法通过提取有效的聚类特征(,),动态地对数据进行聚类分析,依据少量的特征数据集存储对新数据进行快速处理和分类,因此具有良好的在线更新和实时应用特性,适用于连续采集等具有大数据特征的应用场景。目前,尚未有相关工作将流聚类算法应用
5、于 异常数据辨识。信息熵 是信息论的基本概念,可描述信息源各可能事件发生的不确定性。采用信息熵对 量测值进行筛选,可以减少训练集的样本数以用于配电网安全态势感知要素分析 。文献 通过小波熵对故障状态下的电气量相角特征进行分析,从而获得准确的故障元件。信息熵同样也可用于聚类算法以获得更加准确的分类结果。文献 将信息熵作为加权依据,在聚类过程中弱化低质量的簇,使聚类结果更加准确;文献 将信息熵应用于混合数据类型的聚类算法研究中,以确定不同数据类型的数据权重;文献 在计算聚类距离时引入信息熵对距离进行加权,提升了分类的准确性。文献 提出了样本稳定性的概念,利用信息熵描述二元信源的确定性,优先筛选稳定
6、性高的样本簇,提升后续的聚类准确度。综上所述,信息熵用于流聚类主要是从度量和聚类距离方面对聚类进行良性的干预,使算法更为准确。文中基于信息熵理论,研究 事件数据和异常数据描述,定义 异常数据判别熵(,),提出基于信息熵的 异常数据和事件数据描述和辨识框架;将 与流聚类算法相结合,提出基于流聚类的在线 异常数据辨识算法。该算法实现了对异常数据与事件数据的在线、准确、实时辨识。基于文中理论研究所实现的变电站 数据校核装置可以在站内实时、就地完成 异常数据识别,改进了传统 数据上送主站后要从海量数据中依赖多源数据校核识别出异常数据的方法,提升了 异常数据识别的实时性,降低了运算量,为变电站内保护、测
7、控各装置准确实时应用 数据提供了更好的技术支撑。基于信息熵的 异常数据辨识框架 事件数据是指由于电力系统内部状态切换导致的 量测值跳变;异常数据是指电力系统内部状态并未发生变化,而是由于数据采集误差、通信异常等导致的 量测值跳变。异常数据和事件数据定义文中参考了文献 和 中对异常数据的定义。异常数据在偏离正常值后会回到正常值,即其值围绕正常值上下波动;事件数据在偏离正常值后不会回到正常值或需要较长时间再回到正常值。定义 为偏离因子;为发生数据偏离前的时刻,为该时刻的 数据;为发生数据偏离后恢复到正常数据的时刻,为该时刻的 数据;为 时刻()跳变过程中的 数据;、分别为、和 时刻的正常值;为事件
8、判断时长阈值。当 满足式()时为异常数据。()事件数据的特性满足:()由式()可知,当发生数据偏离正常值后超过时间仍未恢复到正常值时,该数据为事件数据。异常数据判别信息熵定义信息熵用于描述事件发生的不确定性,定义如式()所示。()()()()式中:为整个数据集;()为数据集 的信息熵;为数据集 中的类别个数;为数据集 中第 个分类;()为数据集 中第 个分类的占比。在异常数据辨识中引入信息熵的概念,定义 ,用于描述一段数据中出现异常数据后的数据不确定度。首先对 数据的信息进行定义。定义一个样本 如下:,()式中:为 数据;为样本中数据的个数。假如该样本中存在 个异常数据,定义 为样本中异常数据
9、的占比,如式()所示。()定义 为样本中正常数据的占比。基于 数据信息 和 ,采用信息熵公式构造样本 的 值 ():()()()()()式中:、为权重系数。基于 异常数据判别信息熵的辨识框架 反映了 数据异常的不确定性。按照事件判断时长阈值 内 数据点的数量进行样本 的选取。假如 和 取值相同:()当 时,跳变数据与正常数据比例相同,数据源的不确定度最大。()当 时,越接近 ,()越接近 ,样本 的不确定度越小;当 为 时,不确定度为,样本 中均为正常数据。()当 时,越接近 ,()越接近 ,样本 的不确定度越小;当 为 时,不确定度为,样本 中数据偏离持续时间超过了,所以样本中均为事件数据。
10、因此,结合 与 ()可对数据进行正常数据、异常数据与事件数据的判断。定义连续的样本、,对应的异常数据占比为 、,信息熵为 ()、()、()。当 ()时,若 ,则样本 均为正常数据;若 ,则样 本 均 为 事 件 数 据。当()时,若下一个样本 的 ()且(),即样本 为事件数据,则说明事件是在样本 的时间内发生的,所以 中的跳变值也为事件数据,否则 中的跳变值为异常数据。异常数据辨识算法文中将 值作为度量,结合流聚类算法实现 异常数据辨识。流聚类算法通过对数据序列迭代处理,不断更新 ,并对不断更新的窗口数据进行迭代聚类,从而实现对连续数据流的快速聚类。与传统聚类方法相比,流聚类方法更适用于动态
11、扩展的数据集,其通过 维护和窗口定义降低了聚类处理的计算性能要求,且不再需要存储全部样本数据,提升了算法的实时性。异常数据判别信息熵计算 计算中首先要找出 数据中的跳变值。按照式()和式()计算跳变值时,采用滑窗求取均值的方式计算。假设滑窗的样本数量为,则在 时刻 的计算公式如式()和式()所示,其中 为权重系数。式()用于设置数据点的上下限。()()()()()()()()得到正常值后,根据式()式()即可完成对 异常数据判别信息熵的计算。目标函数定义聚类的优化准则为组内距离最小化,组间距离最大化。以信息熵为 ,对样本及对应的簇内、簇间距离进行定义,定义如下。将聚类特征簇作为数据集 进行信息
12、熵的计算。设、为聚类特征簇 中的 个样本,对应的信息熵指标分别为 ()、(),反映 个样本内数据类型的不确定度,两者之间的距离可定义为:(,)()()()簇 的质心 为:()()任意样本 到簇 的距离定义为样本 到簇的质心的距离:(,)()()设、分别为 个聚类特征簇 和 的样本个数,簇 和簇 之间的距离定义为:(,)()()()若存在样本空间瓗,有 个簇,每个簇内有 个样本,令、瓗,则对、,有:,(),(,)()式中:,为簇 的质心;为簇 的样本个数。基于 的 异常数据辨识算法文中采用利用层次方法的平衡迭代规约和聚类(,)算法实现流聚类。对数据建立分层结构 树,其中每个节点包含一组 。这些
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 流聚类 PMU 异常 数据 辨识 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。