基于注意力机制的时序异常检测模型应用_叶柯.pdf
《基于注意力机制的时序异常检测模型应用_叶柯.pdf》由会员分享,可在线阅读,更多相关《基于注意力机制的时序异常检测模型应用_叶柯.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023.6电脑编程技巧与维护1概述随着大数据时代的到来,物联网随之兴起,硬件计算能力也不断提升,大容量存储技术的发展及多种数据采集技术被广泛应用,国内各领域的相关数据要素正在爆发式地增长。现实中采集而来的观测数据,天然带有时间属性。将它们按照时间的先后顺序排列起来,即形成时间序列。时序数据作为分析、决策的一手资料,成为医学(医学检查心电图、血压监测)、金融(股票、期货价格、大宗商品交易价格走势)、环境监测等领域的热点。如何精确高效地分析、处理大量数据,是业界面临的挑战性问题,这进一步催生了大量有关时序分析、预测的技术研究。2发展现状近年来,深度学习技术飞速发展,不少研究人员在时间序列这一领域
2、做了大量的工作。该领域的传统方法都是采用一些统计学知识,手动提取特征描述一个时间序列的信息,常用的传统时间序列分析方法有指数平滑法、滑动平均法、分解法等。常用的平稳时间序列模型有自回归模型、移动平均模型、自回归移动平均模型等1。20世纪末,数学家Jenkins和Box建立的自回归差分移动平均模型(ARIMA),在统计学界的贡献巨大,被广泛应用于众多领域2。但ARIMA精度有限,且如今大量的数据和特征已经不是人类能够理解的,而通过深度学习的方法可以使模型自动地提取时间序列中更加抽象而丰富的信息。因此,深度神经网络(DNN)因其提取高阶特质的能力而被大众熟知。但是,由于这些模型所做的结构假设较少,
3、因此它们通常需要更多的训练数据集学习得到准确的模型3。结合传统统计方法与深度学习,恰好能优势互补,并据此提出一些新的预测方法。Ranga等使用循环神经网络(RNN)在每个时间点上生成线性高斯状态空间模型(LGSSM)的参数,提出了深度状态空间模型(DSSM)。对于非线性SSM,Eleftheriadis等 提 出 非 线 性 高 斯 过 程 状 态 空 间 模 型(GPSSM);Salinas等研究了多元时间序列预测问题。他们提出的深度自回归模型(DeepAR)是建立在对时间序列数据进行深度学习的基础上,为概率预测问题设计了一个类似的基于长短期记忆网络(LSTM)的自回归RNN架构。Vaswa
4、ni等提出的Transformer利用Attention Mecha-nism来处理数据。与基于RNN的方法不同,Transformer允许模型访问历史的任何部分,而不考虑距离,更适合于捕捉具有长期依赖性的循环结构4。但传统Trans-former模型过大、对硬件要求过高,在此提出TST-Lite模型设计,对原生的Transformer进行精简,专用于时间序列的特征提取,并结合Encoder-Decoder架构与残差神经网络,较好地规避了梯度消失等问题,实现轻量化、实时性评估。3预处理(1)数据清洗。在数据集中去掉重复值,并且统计缺失数据,依据情况进行人工插值,或者自动插值为中位数或者平均数。
5、(2)数据降噪。在正常的生产生活中,一般认定数据的正常值应该是一个保持平稳的过程。在利用正常序列训练时,传感器收集的数据会因为硬件导致噪声过大而对整个正常状态的高维特征描述产生影响,造成正常序列的特征损失,因此在得到传感器数据时需要先对数据进行适当的降噪。(3)在预处理阶段采用了滑动窗口的思想,对原始的时间序列进行重采样如图1所示,具体方案如下:确定一个长度固定的滑动窗口,然后将它以一定的步长从基金项目:国家级大学生创新创业训练项目(编号202210336020)。作者简介:叶柯(2002),男,本科,研究方向为文本生成、目标检测。基于注意力机制的时序异常检测模型应用叶柯,孔佳玉,周奕希,曹瀚
6、洋,姜沁琬(杭州电子科技大学,杭州310018)摘要:在生活中处处都存在随着时间而变化的数据,例如,温度、湿度、人造卫星的运行数据、行星的运行状态等,这些数据统称为时间序列。在当今大数据环境下,对时间序列重建可以自动提取到数据的高维特征。提出了一种基于注意力机制的模型,可以无监督地进行特征提取,同时介绍了一些常用的重建模型并进行对比试验,将其运用于异常时间点检测任务。关键词:时间序列;自注意力机制;无监督重建;异常检测24DOI:10.16184/prg.2023.06.0182023.6电脑编程技巧与维护序列的开始不断向右移动,每次移动后覆盖的序列区域就是一个小样本,这样就实现了把原始长时间
7、序列划分成多个子序列,并将其作为新的数据集用于模型的训练,之后是对每个小样本进行进一步处理和分析。4模型构建Encoder-Decoder的核心思想是降维重建,在训练过程中,低维度参数较少,迫使隐藏层学习数据中最多的模式,忽略“噪声”,如果隐藏层的神经元数量比输入层的神经元数量多,则神经网络会被赋予更多的能力来学习数据。在极端情况下,它可能只是简单地将输入值复制到输出值,包括噪声,而不提取任何基本信息(属于一种过拟合的状态)。4.1基于 PCA 方法5的编码解码器模型基于Encoder-Decoder可以采用如公式(1)的方案。通过PCA的方法(原向量x乘以矩阵W得到中间编码c,再乘以W的转置
8、,得到x的重建,得到x的重建与原x越接近越好,从x到c的变换过程是线性的),如图2所示,将高维数据压缩到低维,但是该模型网络层数过少,适用于一些简单的情况,对于复杂的序列效果较差。(1)4.2基于 DeepAutoEncoder 的编码解码器6模型若遇到更加复杂的数据,则考虑采用更加深层的网络和一些非线性变换来构造模型,如图3所示。因此,考虑设计更多的层数,并引入激活函数Leaky-ReLU对网络进行非线性变换,使网络具有更好的泛化性,解码过程如公式(2)所示。(2)4.3基于自注意力机制的编码解码模型当序列长度较长,并且网络层数较多时,使用以上的方法会出现比较明显的梯度消失现象,于是设计以自
9、注意力机制和MLP7为骨架的编码解码模型。利用自注意力机制8可以实现并行计算,但同时也会导致位置信息的损失,因此需要先对预处理后的数据进行位置编码,融入数据的位置特征,如公式(3)所示:(3)其中,pos为不同的时间点位置;2i和2i+1分别为某个时间点的不同维度指标,奇数维度利用sin正弦编码,偶数维度利用cos余弦编码;dmodel为数据的总维度,这里是防止10 000的指数过大而溢出。而后生成Q(query),K(key),V(value)3个矩阵,并且使用Q访问每个K,经过缩放和softmax后作为V的权重,从而计算Attention值并用于后续的MLP层和解码器进行序列重建,如公式(
10、4)所示:(4)骨架网络结构,如图4所示:考虑到实际数据集会存在数据缺失、噪声过大等先视具体实际情况对模型进行数据过滤、去噪等一系列预图1对原始序列进行重采样Step=k+1X1,X2,XKXK+1XK+1XK+1X1,X2,XKX1,X2,XK123K+3K+1K+2图2基于PCA的Encoder-Decoder模型最小化(X-X)2XWCXWT输入层隐藏层输出层图3Deep Auto Encoder编码解码器模型图4模型的架构XXW1TTW2W2W1尽可能接近输入层层层层底层层层层输出层编码X3X1X2X4数据过滤标准化位置编码编码器自注意力机制MLP解码器逆变换输出252023.6电脑编
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 机制 时序 异常 检测 模型 应用 叶柯
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。