基于特征挖掘的设备异常响应实时检测方法.pdf
《基于特征挖掘的设备异常响应实时检测方法.pdf》由会员分享,可在线阅读,更多相关《基于特征挖掘的设备异常响应实时检测方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、 71 基于特征挖掘的设备异常响应实时检测方法文/李翰霖1,牛少彰1,2,王茂森2,史成洁3,安洪旭2(1.北京邮电大学 计算机学院(国家示范性软件学院),北京 100876;2.东南数字经济发展研究院,浙江 衢州 324000;3.中国科学院信息工程研究所,北京 100195)摘要:工业传感器监测产生海量时序数据,对异常检测带来了两个挑战。一是数据维度和数据量的增多提高了算法时间复杂度,不利于实时监测。为了实时监测数据,需要异常检测算法在有限时间内处理大量的数据。二是在数据采集过程中,噪声是不可避免的,检查噪声数据对异常检测算法性能的影响对于提高分类器学习算法的可靠性是必要的。因此,本文对数
2、据进行分析挖掘,降低数据维度和数据量,提高异常检测实时性,并在图偏差网络上应用一维卷积,提取时间序列的高级特征,提高异常模型的抗噪能力。在六级水处理模型 SWaT 数据集上的实验结果表明,本文异常检测方法在测试集上精确率、召回率、F1 值总体优于传统异常检测方法,且能有效避免噪声干扰,识别速度快,满足异常检测过程中的准确性和实时性,具有一定的应用价值。关键词:异常检测;实时性;数据挖掘;图偏差网络;一维卷积中图分类号:TP18;TP212 文献标志码:A 文章编号:2096-5036(2023)04-0071-11DOI:10.16453/j.2096-5036.2023.04.008基于特征
3、挖掘的设备异常响应实时检测方法0 引言通过时间序列异常检测技术识别异常对系统的正常运行颇为重要,挖掘设备时序数据中的隐藏信息对其进行异常检测,实时掌握工业设备的健康程度,保障设备正常运行,为工业生产提供有效指导,对提升工业产能具有重要意义。传统的异常检测方法通常聚焦在一维场景下,通过衡量相似度如距离、密度、角度、基于簇等方法来检测异常1,这些方法在单维上其实表现都接近,因为核心假设都是“异常点的表示与正常点不同,是少数派”。Vamsi 等利用基于直方图的异常值得分算法(Histogram-Based Outlier Detection,HBOS)检测故障传感器,HBOS 是一种基于非参数统计方
4、法的无监督异常检测算法,由于没有超参数依赖的特性,避免了超参数选择导致的潜在偏差,具有简 72 探索与创新AI-VIEW2023 年第 4 期单高效的特性2。主成分分析算法(Principal Component Analysis,PCA)就是基于线性模型方法,由于原理简单、计算方便,PCA 被普遍应用于工业无监督异常检测3。Cui 等采用 K 近邻算法(K-Nearest Neighbors,KNN)对卫星异常行为进行检测,结果表明,所提方法具有较高的异常检测精度4。但工业时间序列数据具有体量大、维度高、连续采样等特点5,传统的异常检测算法使用效果不佳。深度学习算法为多维时序数据异常检测提供
5、了可能,如卷积神经网络(Convolutional Neural Networks,CNN)6、长短时记忆网络(Long Short Term Memory,LSTM)7-9、遗传对抗网络(Generative Adversarial Network,GAN)10等进行多维时序数据异常检测,也有基于以上模型实现模型融合。Kieu 等构建了基于 CNN 和 LSTM 的自编码框架,从不同的角度对时间序列进行了特征增强,从而能更全面地捕捉时间序列在时间上的变化,并利用自编码器算法(Auto-Encoder,AE)重构时间序列和扩充后的多维时序特征来检测异常11。Li 等提出了基于 GAN 的多变量
6、时间序列异常检测模型。以 LSTM为基本模型来捕获时间上的依赖关系,并将其嵌入到 GAN 的框架中12。上述深度学习异常模型利用 LSTM、CNN、GAN 为多维时序数据异常检测提供了很好的性能,但是他们捕获的都是时间上的依赖关系。不同传感器采集到的数据不仅具有不同维度的特征信息,数据之间还存在水平和垂直的联系。一个变量突然的变化不能代表设备一定发生故障,所以怎样捕捉复杂传感器之间的关系,如何检测多维时间序列的异常成为目前主流工作。而图神经网络是一个强大的高维数据建模模型,能够建模复杂的高维数据分布13。Zhao H 等提出了一种基于多变量时间序列异常检测自监督框架,建立面向特征和面向时间的图
7、注意力层,从两个维度考虑进行异常检测14。Deng 等提出了基于图偏差网络(Graph Deviation Network,GDN),GDN 通过其嵌入传感器之间关系和学习图架构提供了一个可解释的模型。实验表明,基于检测到偏差的子图、注意力权重,并通过比较这些传感器上的预测和实际行为,有助于解释异常现象15,满足工业上对异常可解释性的要求。GDN 算法核心是以图的形式学习传感器之间的关系,然后识别和解释学习模式的偏差。首先,将传感器看作节点,计算其嵌入向量,利用点积(即求取 cos 距离的方式)得到节点嵌入向量之间的相似度,以此来评判传感器之间是否存在边链接,从而构建邻接矩阵。其次,引入注意力
8、机制以及特征提取的方式去求取 时刻的模型预测,并需要利用预测的和实际测量值的均方误差作为最小化损失的函数。最后,为了检测异常,使用超过验证数据集的最大异常评分设置阈值。在测试期间,任何异常得分超过阈值的时间点都将被视为异常。基于图偏差网络算法思想,本文提出一种基于特征挖掘的设备异常实时响应检测方案,通过有效的数据挖掘减少数据量,在保证精确率前提下,提高异常检测的实时性。利用图偏差网络进行多维时间序列的异常检测,并在图偏差网络上应用一维卷积,避免时间序列随机性的影响,提高模型抗噪能力。最后,在 SWaT 数据集上评估效果。为了获得更好的对比效果,实验对比了 PCA、KNN、HBOS 三类经典传统
9、异常检测方法。综上,本方案的主要研究工作和创新之处总结如下。73 基于特征挖掘的设备异常响应实时检测方法1)通过有效的特征挖掘,在工业时间序列数据体量大、维度高、连续采样的特点下,仍可满足高精确率,高实时性要求。2)在实际工业环境中避免噪声对异常检测结果的干扰。3)本文提出的异常检测方法优于传统异常检测方法。本文其余结构如下,第 2 节整理了本文相关工作内容以及研究动机,第 3 节详细介绍了如何有效特征挖掘满足实时性要求以及如何避免噪声的干扰,第 4 节给出本文所设计的方法和传统方法在 SWaT 数据集上的实验结果以及详细的结果分析,第 5 节对全文进行总结。1 相关工作本节介绍了所应用的 G
10、DN 算法的实现流程,也同样总结了本文工作的研究动机。1.1 GDN图偏差网络旨在以图的形式学习传感器之间的关系,然后识别和解释学习模式的偏差。算法训练数据为个传感器在这段时间内的数据:,其中,是一个维向量,表示在 时刻个传感器的值。按照无监督异常检测算法模型,训练数据只包含正常数据。算法测试数据为。算法的输出是一组大小为的二进制标签,这组标签指示了在每个时刻 是否发生异常。输出数据为 0,1,其中某一时刻输出若为 1 则表示发生异常,为 0 则正常。算法实现主要流程如下。1)传感器嵌入:为每个传感器引入一个表示其特征的嵌入向量:,表示其特征,这些嵌入是随机初始化的,这些嵌入之间的相似性表明行
11、为的相似性。2)图结构学习:传感器之间以图结构的形式存在。使用一个有向图,其节点表示传感器,其边表示传感器之间依赖关系。用一个邻接矩阵表示这个图,其中表示存在一条从节点 到节点 的有向边。为了在这些候选节点中选择传感器 的依赖项,计算节点 的嵌入向量与其候选节点的嵌入向量之间的相似度。其中,式(2)表示传感器 的嵌入向量候选关系,然后式(3)表示选取前 个组成邻接矩阵模型,就是图表示学习的邻接矩阵。3)基于图注意力的预测,根据过去的数据预测每个传感器在每个时间点的预期行为。采用滑动时间窗,采用前个数据预测当前时刻的数据,式(4)表示在时间 时,我们定义模型输入基于历史时间序列数据上大小为的滑动
12、窗口。(1)(2)(3)74 基于图注意力机制进行特征提取,其中 为输入特征,为可训练的权重矩阵,为注意力系数。式(5)将传感器与特征连接起来,使用式(6)LeakyReLU 作为非线性激活函数计算注意力系数,并使用式(7)对注意力系数归一化。输出层采样全连接层,如式(9),对于每个式(8)求得的,将与它相对应的时间序列嵌入相乘,作为全连接层的输入,输出维度为,得到传感器值,再根据式(10)使用均方误差使损失最小化。4)图形偏差评分:图偏差评分识别并解释图中所学习的传感器关系的偏差,根据式(12)对其进行归一化处理,使用 max 函数得出各个传感器 的聚合偏差分数。超过阈值为异常。GDN 具备
13、良好的时间序列建模能力,其将结构学习方法和图神经网络相结合,准确捕获多个传感器之间的相关性,并使用注意力机制权重允许用户推断检测到的异常的根本原因。所以,本文将利用 GDN 算法进行异常检测。但是,在面对工业时序数据量大的情况下,GDN 算法运行速度很慢,以及 GDN 算法在数据含噪声的情况下,异常检测结果很差,可能将测量数据中的随机错误或者是偏差误认为是设备异常值,出现了误报的可能。通常而言,噪声以及数据集的处理在很大程度上会影响异常检测算法的成功。因此,本文将设计一个基于特征挖掘的设备异常响应实时检测方法,并在 GDN 算法基础上做了调整,以更好适应工业时序数据的特性。2 所提方法为数据集
14、添加高斯噪声以模拟真实工业生产环境。采用无监督特征选择方法筛选掉无效特征或标注性强特征,以减少数据量,满足异常检测对实时性的要求。由于 GDN 模型抗噪能力差,因此引入一维卷积提取时间序列的高级特征,提高异常检测模型的精准率。探索与创新AI-VIEW2023 年第 4 期(4)(5)(6)(7)(8)(9)(10)(11)(12)(13)75 基于特征挖掘的设备异常响应实时检测方法2.1 高斯噪声噪声的存在是关键因素。噪声是不可避免的问题,噪声经常出现在数据收集和数据准备过程中。噪声有两个主要来源由测量工具引入的噪声以及批处理或专家在收集数据时引入的随机噪声。在这种情况下建立的分类器的性能,将
15、在很大程度上取决于分类器本身的抗噪声能力。在现实世界的数据集中,存在的噪声的初始数量和类型是未知的,无法对基本噪声的类型和水平做出任何假设。因此,公开数据集大多被认为是无噪声的。为了控制每个数据集中的噪声量并测试分类器抗噪能力,本文将噪声引入到公开数据集SWaT 中。噪声可能有多种来源,例如传输限制,采样不规则和转录错误。噪声值是完全不可预测的,即随机的,且相对于正确值变化较小。为了模拟这种可能性,本文使用高斯属性噪声方案。高斯属性噪声类似于统一属性噪声,将每列属性值破坏,利用信噪比 SNR为其添加噪声。表示原始数据,是信号的有效功率,计算方式如式(14);是噪声的有效功率,计算方式如式(15
16、);表示噪声数据,计算方式如式(16)所示,即给原始信号添加多少高斯噪声。表示加入噪声后的数据。2.2 特征选择由于异常检测缺乏标签,无法分析某个特征与模型目标特征的关系,也无法确定该特征对模型是否重要,无法按照常规方法特征选择。因此,特征选择方式如下。1)消除方差为 0 的特征,一个特征本身方差很小,表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征体现的信息就很少,对于目标检测基本没有作用。式(18)表示了方差计算方式。SWaT 数据集特征方差如图 1 所示。2)去除标注性强的特征,某些特征在训练集和测试集分布严重不一致,去除它们有(14)(
17、15)(16)(17)(18)图 1SWaT 数据集特征方差 76 利于避免过拟合。箱形图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较,若通过箱形图计算中位数发现同一特征训练集和测试集有很大偏差,这类样本选择偏差问题会导致训练好的模型在测试集上鲁棒性很差,因为训练集没有很好覆盖整个样本空间。因此,删除测试集和训练集分布不一致的情况。中位数偏离程度大于0.2 的特征删除。训练集特征分布如图 2 所示,测试集特征分布如图 3 所示。2.3 下采样下采样指的是减少数据收集的频率,也就是从原始数据中抽取子集的方式。工业上传感器数据采集获取数据时间频率是每秒钟一次。但在实际情况中,设
18、备传感器数值不探索与创新AI-VIEW2023 年第 4 期图 2训练集特征分布图 3测试集特征分布图 4FIT101 下采样前图 5FIT101 下采样后 77 基于特征挖掘的设备异常响应实时检测方法会以一秒钟这个级别有明显的变化,而且秒级的数据的测量误差甚至会比数据本身的波动还要大,因此数据集存在大量的冗余。本文每隔 10 个元素取一次中位数。同时,下采样也相当于信息降维,可以起到简化数据,缩短异常实时检测的时间的作用。特征下采样前后如图 4、图 5 所示。2.4 一维卷积为了提取数据重要特征,避免噪声干扰,在图偏差网络结构第一层引入一维卷积层,卷积核是一个固定大小为 3*Input ch
19、annels 的矩阵,它在输入数据上进行滑动,并点乘计算出每个位置的卷积结果,从而提取每个时间序列的高级特征,再将其结果送入 GDN 算法模型中,一维卷积流程图如图 6 所示。3 实验与结果分析3.1 数据集和评估指标为了证明所提方法的有效性,在 SWaT 真实世界的异常检测数据集上进行实验性能验证。SWaT(安全水处理)数据集由一个真实的水分配测试平台设施收集而来。这个数据集包括从设施的正常运行和受到攻击时捕获的操作流量。SWaT 系统的每个过程都由一组 PLC 控制,其状态可以从 SCADA 系统中观察到。对于本文实验使用了2015 年 12 月 A2 收集的 SWaT 数据集,其中包含
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特征 挖掘 设备 异常 响应 实时 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。