基于流聚类的PMU异常数据辨识算法.pdf

上传人：自信****多点

文档编号：577820

上传时间：2024-01-02

格式：PDF

页数：8

大小：1.61MB

《基于流聚类的PMU异常数据辨识算法.pdf》由会员分享，可在线阅读，更多相关《基于流聚类的PMU异常数据辨识算法.pdf（8页珍藏版）》请在咨信网上搜索。

1、：年月第卷第期基于流聚类的异常数据辨识算法邓小玉，王向兵，曹华珍，王流火，严洪峰，王宏宇（广东电网有限责任公司，广东广州；江苏金智科技股份有限公司，江苏南京）摘要：为保证同步相量测量装置（，）采集数据的准确应用，须排除其量测值中的异常数据。现有异常数据辨识算法存在算法复杂度高、难以在线更新、多源数据难以校准、依赖多源数据应用难度大等不足。为此，文中从事件数据和异常数据模型及异常数据判别信息熵定义出发，提出基于该信息熵的异常数据辨识框架。在此框架基础上，基于利用层次方法的平衡迭代规约和聚类（，）算法提出异常数据辨识算法；然后，对所提出的算法进行原型实现，并针对某变电站

2、的采集数据集进行算法实验验证。实验结果表明，与一类支持向量机（，）算法与间隙统计算法相比，文中算法的准确度及实时性均具有较强的优势。关键词：同步相量测量装置（）；异常数据；事件数据；辨识框架；信息熵；流聚类中图分类号：文献标志码：文章编号：（）收稿日期：；修回日期：基金项目：中国南方电网有限责任公司科技项目（）引言目前，电网中大量应用的动态数据采集设备为同步相量测量装置（，）。量测在电力系统内部状态切换时可能产生跳变的事件数据，也会因互感器误差、设备故障、时间同步异常、通信系统中断等诸多因素产生异常跳变，即量测值中出现异常数据。智能电网的电网安全评估、预防控制和运行分析均以准确

3、的电力系统状态估计为基础，若量测值中存在误差较大的异常数据，将导致系统状态估计准确度降低，影响系统实时监测及控制。而基于异常数据所作的决策判断可能威胁到整个电网安全。因此，为保障电网安全可靠运行，研究异常数据及其辨识方法有重要意义。国内外学者已经针对异常数据辨识方法展开了深入研究。文献提出了一种基于谱聚类的异常数据检测算法，采用决策树方法分辨出事件数据，再通过谱聚类进行正常数据与异常数据的辨识，但其决策依赖异常数据维持的时间长度定义，易将事件数据误辨识为异常数据；文献提出了基于核心微簇与离群微簇的异常数据辨识算法，先在线更新潜在核心微簇和离群微簇，再通过基于密度的噪声应用空间聚类

4、（，）算法重新对所有微簇进行离线聚类，更新核心微簇，算法复杂度较高；文献提出了一种基于和数据采集与监视控制系统的单一点互校核算法，其准确率高，速度较快；文献提出了一种基于多维特征向量和阈值的异常数据辨识算法。上述算法应用时都要先训练模式分类器再进行异常数据区分，无法实现在线更新，应用难度大。为了降低辨识算法的复杂度，可以采用流聚类算法进行数据的在线训练和聚类。该算法通过提取有效的聚类特征（，），动态地对数据进行聚类分析，依据少量的特征数据集存储对新数据进行快速处理和分类，因此具有良好的在线更新和实时应用特性，适用于连续采集等具有大数据特征的应用场景。目前，尚未有相关工作将流聚类算法应用

5、于异常数据辨识。信息熵是信息论的基本概念，可描述信息源各可能事件发生的不确定性。采用信息熵对量测值进行筛选，可以减少训练集的样本数以用于配电网安全态势感知要素分析。文献通过小波熵对故障状态下的电气量相角特征进行分析，从而获得准确的故障元件。信息熵同样也可用于聚类算法以获得更加准确的分类结果。文献将信息熵作为加权依据，在聚类过程中弱化低质量的簇，使聚类结果更加准确；文献将信息熵应用于混合数据类型的聚类算法研究中，以确定不同数据类型的数据权重；文献在计算聚类距离时引入信息熵对距离进行加权，提升了分类的准确性。文献提出了样本稳定性的概念，利用信息熵描述二元信源的确定性，优先筛选稳定

6、性高的样本簇，提升后续的聚类准确度。综上所述，信息熵用于流聚类主要是从度量和聚类距离方面对聚类进行良性的干预，使算法更为准确。文中基于信息熵理论，研究事件数据和异常数据描述，定义异常数据判别熵（，），提出基于信息熵的异常数据和事件数据描述和辨识框架；将与流聚类算法相结合，提出基于流聚类的在线异常数据辨识算法。该算法实现了对异常数据与事件数据的在线、准确、实时辨识。基于文中理论研究所实现的变电站数据校核装置可以在站内实时、就地完成异常数据识别，改进了传统数据上送主站后要从海量数据中依赖多源数据校核识别出异常数据的方法，提升了异常数据识别的实时性，降低了运算量，为变电站内保护、测

7、控各装置准确实时应用数据提供了更好的技术支撑。基于信息熵的异常数据辨识框架事件数据是指由于电力系统内部状态切换导致的量测值跳变；异常数据是指电力系统内部状态并未发生变化，而是由于数据采集误差、通信异常等导致的量测值跳变。异常数据和事件数据定义文中参考了文献和中对异常数据的定义。异常数据在偏离正常值后会回到正常值，即其值围绕正常值上下波动；事件数据在偏离正常值后不会回到正常值或需要较长时间再回到正常值。定义为偏离因子；为发生数据偏离前的时刻，为该时刻的数据；为发生数据偏离后恢复到正常数据的时刻，为该时刻的数据；为时刻（）跳变过程中的数据；、分别为、和时刻的正常值；为事件

8、判断时长阈值。当满足式（）时为异常数据。（）事件数据的特性满足：（）由式（）可知，当发生数据偏离正常值后超过时间仍未恢复到正常值时，该数据为事件数据。异常数据判别信息熵定义信息熵用于描述事件发生的不确定性，定义如式（）所示。（）（）（）（）式中：为整个数据集；（）为数据集的信息熵；为数据集中的类别个数；为数据集中第个分类；（）为数据集中第个分类的占比。在异常数据辨识中引入信息熵的概念，定义，用于描述一段数据中出现异常数据后的数据不确定度。首先对数据的信息进行定义。定义一个样本如下：，（）式中：为数据；为样本中数据的个数。假如该样本中存在个异常数据，定义为样本中异常数据

9、的占比，如式（）所示。（）定义为样本中正常数据的占比。基于数据信息和，采用信息熵公式构造样本的值（）：（）（）（）（）（）式中：、为权重系数。基于异常数据判别信息熵的辨识框架反映了数据异常的不确定性。按照事件判断时长阈值内数据点的数量进行样本的选取。假如和取值相同：（）当时，跳变数据与正常数据比例相同，数据源的不确定度最大。（）当时，越接近，（）越接近，样本的不确定度越小；当为时，不确定度为，样本中均为正常数据。（）当时，越接近，（）越接近，样本的不确定度越小；当为时，不确定度为，样本中数据偏离持续时间超过了，所以样本中均为事件数据。

10、因此，结合与（）可对数据进行正常数据、异常数据与事件数据的判断。定义连续的样本、，对应的异常数据占比为、，信息熵为（）、（）、（）。当（）时，若，则样本均为正常数据；若，则样本均为事件数据。当（）时，若下一个样本的（）且（），即样本为事件数据，则说明事件是在样本的时间内发生的，所以中的跳变值也为事件数据，否则中的跳变值为异常数据。异常数据辨识算法文中将值作为度量，结合流聚类算法实现异常数据辨识。流聚类算法通过对数据序列迭代处理，不断更新，并对不断更新的窗口数据进行迭代聚类，从而实现对连续数据流的快速聚类。与传统聚类方法相比，流聚类方法更适用于动态

11、扩展的数据集，其通过维护和窗口定义降低了聚类处理的计算性能要求，且不再需要存储全部样本数据，提升了算法的实时性。异常数据判别信息熵计算计算中首先要找出数据中的跳变值。按照式（）和式（）计算跳变值时，采用滑窗求取均值的方式计算。假设滑窗的样本数量为，则在时刻的计算公式如式（）和式（）所示，其中为权重系数。式（）用于设置数据点的上下限。（）（）（）（）（）（）（）（）得到正常值后，根据式（）式（）即可完成对异常数据判别信息熵的计算。目标函数定义聚类的优化准则为组内距离最小化，组间距离最大化。以信息熵为，对样本及对应的簇内、簇间距离进行定义，定义如下。将聚类特征簇作为数据集进行信息

12、熵的计算。设、为聚类特征簇中的个样本，对应的信息熵指标分别为（）、（），反映个样本内数据类型的不确定度，两者之间的距离可定义为：（，）（）（）（）簇的质心为：（）（）任意样本到簇的距离定义为样本到簇的质心的距离：（，）（）（）设、分别为个聚类特征簇和的样本个数，簇和簇之间的距离定义为：（，）（）（）（）若存在样本空间瓗，有个簇，每个簇内有个样本，令、瓗，则对、，有：，（），（，）（）式中：，为簇的质心；为簇的样本个数。基于的异常数据辨识算法文中采用利用层次方法的平衡迭代规约和聚类（，）算法实现流聚类。对数据建立分层结构树，其中每个节点包含一组。这些

13、包含了描述数据集中一组点的充分统计信息以及子节点指向的的所有信息。该树的规模由参数（每个中间节点最大的数）、（每个叶子节点最大的数）、（每个的聚类半径）决定。具体树的结构如图所示。图树结构是一个三元组（，），用于存储一组点的充分统计信息，其中为个样本特征维度的向量和；为个样本特征维度的平方和。三元组满足线性关系，因此可以高效地更新树。每插入一个样本时，从根开始向下遍历当前树，计算与新样本最近的叶子，新样本到簇的距离以及簇间的距离通过式（）和式（）进行计算。找到合适的叶子后，基于树中三元组的线性可加特性，可快速更新值，完成实时在线聚类。邓小玉等：基于流聚类的

14、异常数据辨识算法完成聚类后，每个样本可以根据聚类结果实现对正常数据、异常数据与事件数据的辨识。基于流聚类的异常数据辨识的具体流程如图所示。以样本，为例，首先计算样本的值（），然后计算样本的，再按照参数、进行聚类，得到其聚类的类别标识（），最后根据聚类结果完成对正常数据、异常数据与事件数据的辨识。图基于流聚类的异常数据辨识流程算法实验与结果分析文中采用站域多态数据融合测控原型系统实现基于流聚类的异常数据辨识算法。中央处理器（，）采用处理器（主频），其通过以太网口按照协议接收同步相量数据集中器的数据，然后进行异常数据辨识。异常数据辨识实验某变电站的数据的传输频

15、率为点，每个波形持续时间为，每个波形总计个点。对个采集对象的万个采集数据进行统计分析，选取图与图为典型波形进行说明。图为采样传感器受到干扰后引起数据异常突变与波动的典型波形，图为典型的由负荷切换引起的事件数据波形。图异常数据特征为：短时突降，维持片刻，随后恢复；短时突升，维持片刻，随后恢复；数据异常波动。图事件数据特性为：偏离正常值后不再图现场采集的异常数据波形图现场采集的事件数据波形返回。针对以上数据样本，采用基于流聚类的异常数据辨识算法，其参数取值如下：式（）和式（）中的取，取，即正常数据的偏差不超过，的取值与实际应用中被辨识数据的正常波

16、动范围有关；式（）中的取；式（）的和均取，因为文中同时关注正常数据与异常数据，如果取，则正常数据的比例对信息熵影响更大，因此和的取值原则是根据应用对正常数据和异常数据的关注程度取值，两者幅值大小只影响聚类时半径的取值；式（）中的取，即以为窗口计算参考正常值，如果增大，则滑窗数据更为平滑，但响应速度更慢，因此的取值原则是根据辨识数据的变化速率与应用的响应速度要求取值；式（）中的取，即正常值计算时上下限偏差为。算法中取，取，半径取。由于为时信息熵达到峰值，对取中间值时，计算（即与）的信息熵的差值为，所以在半径取时，的样本都会单独分为一类，而

17、的样本则会逐渐合并。对图中种典型异常数据波形进行归一化处理后，得到异常数据辨识结果，如图图所示，纵坐标“聚类结果”是指各样本的信息熵通过流聚类分类后的类别编号，其中类别是质心为，即（）为的点，其他类别是（）大于的点。按照节，可通过（）与对正常数据、异常数据与事件数据进行判别。图短时突降辨识结果图短时突升辨识结果图数据波动辨识结果图图的聚类结果中未出现聚类类别为且为的事件数据样本，可知图中聚类类别不为的样本中的跳变值均为异常数据。对图的事件数据波形进行归一化处理后，得到的异常数据辨识结果如图所示。图事件数据辨识结果图中样本的聚类

18、类别均为，且为，因此均为正常数据；样本的聚类类别均为，且为，因此均为事件数据；由于样本聚类类别为，但样本为事件数据，说明事件是在样本的时间内发生，所以样本中的跳变值为事件数据。基于流聚类的异常数据辨识结果如表所示。辨识结果中“”为正常数据，“”为异常数据，“”为事件数据。该方法对以上样本的异常数据和事件数据的辨识准确率为。表基于流聚类的异常数据辨识结果数据类型类别质心样本分布辨识结果异常数据短时突降（）、短时突升（）、异常波动（）、事件数据（）（）原型系统中基于流聚类的异常数据辨识算法由架构实现。由于为或时进行信息熵计算均无须计算对数，因此按照计算最复杂情

19、况，即时统计计算耗时与算法总耗时。信息熵计算包括加减次，乘法次，除法次，对数次，比较次；流聚类计算包括加减次，乘法次，除法次，平方次，比较次；共计时钟周期个，耗时，实测计算耗时。实验结果表明，对于每个数据通过的时间即可计算完成，满足实时性要求。个数据作为组实验数据，从万个数据中提取异常数据组，事件数据组，经文中算法辨识后，异常数据辨识准确率为。对比某变电站年采集实际数据的波动特性与文献中其他同行所获取的年的实际数据，发现其波动特性基本一致。可见在电网运行数据波动特征不发生剧烈变化的前提下，文中算法具有较好的适用性。同类算法对比采用一类支持向量

20、机（，）算法与间隙统计算法（，）对异常数据进行辨识。算法设置为：使用高斯核，训练数据的异常邓小玉等：基于流聚类的异常数据辨识算法点比例为，训练停止的公差标准为。辨识结果为表明数据点为正常数据，辨识结果为表明数据点为异常数据。设置聚类参数的遍历范围为。辨识结果为表明数据点为正常数据，为其他值表明数据点为异常数据。对图中的异常数据波形进行归一化处理，采用种算法所得的辨识结果如图图所示。图算法和的短时突降辨识结果图算法和的短时突升辨识结果图算法和的数据波动辨识结果文中算法与算法和的比较结果如表所示。其中为异常数据辨识率；为误辨识率。和

21、的计算分别见式（）、式（）。（）表与同类算法辨识指标的比较算法异常数据类型辨识个数据最大耗时文中算法短时突降短时突升异常波动算法短时突降短时突升异常波动短时突降短时突升异常波动（）式中：为辨识出的异常数据点数；为异常数据总数；为将正常数据误辨识为异常数据的点数；为正常数据总数。文中组异常数据中短时突降、短时突升和数据波动种异常数据类型占比为，与文献中的统计数据相当，将种异常数据类型的辨识结果按照发生比率加权后得到算法的、；的、；文中算法的、。根据以上实验结果可知，算法辨识耗时较低，但是辨识准确度不够：部分样本辨识时指标能达到，但指标不稳定，异常波动样

22、本辨识的和指标均较差。耗时长，辨识准确度不够：部分样本辨识时指标能达到，但指标较差，异常波动样本辨识的指标虽然达到，但指标较差。文中算法对于不同样本类型均实现了指标达到，指标达到的辨识效果，且可实现事件数据与异常数据的区分。文中算法的最大耗时也仅比算法大。结语文中针对异常数据辨识问题，从信息熵理论出发，研究提出定义和基于该信息熵的异常数据辨识框架。将和流聚类算法结合，提出一种基于流聚类的异常数据辨识算法。结合原型实现，对从实际运行电网中所获取的量测值数据集进行了所提出辨识算法的实验，实验结果表明文中算法的辨识率和误辨识率均优于同类算法。文中研究可为今后异

23、常数据的修正、异常数据溯源与智能告警等应用提供参考。如何优化异常数据信息熵的聚类效果和进一步对异常数据进行修复、溯源和告警，是未来要继续研究的方向。参考文献：黄子蒙，余娟，向明旭，等基于改进动态时间弯曲的频率异常检测及类型识别电力系统自动化，（）：，（）：徐飞阳，薛安成，常乃超，等电力系统同步相量异常数据检测与修复研究现状与展望中国电机工程学报，（）：，（）：周婧怡，李红娇针对测量的虚假数据注入攻击检测方法信息网络安全，（）：，（）：常鹏，吴泽群，孙文仲，等基于优化部署的电网线下攻击保护智慧电力，（）：，（）：王海波，吴升涛，周文海，等基于不同量测数据融合的配电网状态

24、估计研究机电信息，（）：，（）：，（）：曹鹏，刘敏，杭鲁庆基于改进磷虾群算法的配电网优化配置研究电网与清洁能源，（）：，（）：王磊配电网同步相量与电能质量同步监测一体机济南：山东大学，：，朱志敏基于的广域测量系统相量数据集中器的研发合肥：合肥工业大学，：，（），：张江南，雷江龙，贺勇，等基于误差校正的输电线路参数在线辨识方法电力系统保护与控制，（）：，（）：，（）：，：，刘雯静，杨军，袁文，等一种基于和单节点互校核的前端数据辨识框架电力系统保护与控制，（）：，（）：万楚林，陈皓勇，郭曼兰基于模式识别的有功功率错误数据处理电网技术，（）：，（）：，：？，：，

25、（）：，：，（）：，：，（）：田书欣，李昆鹏，魏书荣，等基于同步相量测量装置的配电网安全态势感知方法中国电机工程学报，（）：，（）：杨欢基于数据的配电网故障分析方法沈阳：东北大学，邓小玉等：基于流聚类的异常数据辨识算法：，邵长龙，孙统风，丁世飞基于信息熵加权的聚类集成算法南京大学学报（自然科学），（）：，（），（）：崔文秀基于信息熵定义属性权重的混合数据聚类算法研究太原：山西大学，：，张安勤，吴蕊，张挺基于信息熵的异常检测算法上海电力大学学报，（）：，（）：李飞江，钱宇华，王婕婷，等基于样本稳定性的聚类方法中国科学：信息科学，（）：，（），（）：闫梦秋，杨轶俊，赵舫基于改进的智能变电站数据流异常检测方法研究电力系统保护与控制，（）：，（）：?，（）：作者简介：邓小玉邓小玉（），女，学士，高级工程师，从事电力系统及自动化工作（：）；王向兵（），男，硕士，高级工程师，从事电力系统及自动化工作；曹华珍（），女，硕士，高级工程师，从事电力系统及自动化工作。，（，；，）：（），（），（）：（）；（编辑陆海霞）

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于流聚类 PMU 异常数据辨识算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。