基于数据增强和深度学习的水电站告警事件诊断.pdf
《基于数据增强和深度学习的水电站告警事件诊断.pdf》由会员分享,可在线阅读,更多相关《基于数据增强和深度学习的水电站告警事件诊断.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 43 卷 第 8 期2023 年 8 月电 力 自 动 化 设 备Electric Power Automation EquipmentVol.43 No.8Aug.2023基于数据增强和深度学习的水电站告警事件诊断孙国强1,章逸舟1,唐杰阳2,唐凡2,卫志农1,臧海祥1,杨东2(1.河海大学 能源与电气学院,江苏 南京 211100;2.雅砻江流域水电开发有限公司,四川 成都 610051)摘要:针对水电告警事件传统诊断方法存在效率低下、准确率不足等缺陷,设计了一种融合先验知识的数据增强方法和基于双向简单循环单元网络的层级注意力深度学习框架。针对水电告警规则不完善的问题,采用隐含狄利克雷
2、分布-序列推理增强模型构建告警信号与告警特征间的映射机制;结合该水电告警先验知识提出改进隐含狄利克雷分布方法增强样本数据,最终由层级注意力模型学习样本特征并输出诊断结果。测试算例为某水电集控中心的实际告警数据,测试结果表明,所提方法可在低资源训练环境下实现快速和高准确率的水电告警事件诊断。关键词:水电站告警事件;文本数据增强;注意力机制;深度学习;先验知识中图分类号:TM73;TM622 文献标志码:ADOI:10.16081/j.epae.2023020010 引言当水电站设备运行异常或发生故障时,集控中心将接收大量文本形式的告警信号,而告警事件作为具有完整告警逻辑的离散信号集合,是调度人员
3、分析设备运行状态和决策的重要依据。传统告警事件诊断依靠调度经验构建辨识规则1,结合人工识别诊断事件类型,易出现错判、漏判且效率低下。因此水电集控亟需一种快速准确的告警诊断方法,以提升水电站运行管控水平和风险应对能力。随着人工智能技术发展,机器学习逐渐应用于电力文本识别领域。文献 2 采用支持向量机和k-均值聚类算法处理实现缺陷文本的故障类型诊断。文献 3 提出基于卷积神经网络(convolutional neural networks,CNN)的电力缺陷文本诊断方法,诊断效果优于部分传统机器学习模型。为解决模型不能提取关键信息的问题,文献 4 将注意力机制和双向长短期记忆网络(bidirect
4、ional long short term memory,Bi-LSTM)结合进行电力设备缺陷文本类型识别。但上述研究分析的都是单句电力文本,对多信号序列的长告警文本未提出解决方案。针对电力系统中的告警事件分析,文献 5 结合CNN和长短期记忆网络(long short term memory,LSTM)的优点,构建CNN-LSTM模型诊断告警事件类型,实现识别精度的突破;文献 6 提出融合知识库和文本卷积神经网络(TextCNN)的电网监控告警诊断方法,具备较高的容错性和鲁棒性;文献 7 提出代价敏感损失函数和Bi-LSTM结合的方法用于提高样本不平衡时的诊断准确性。但以上方法均无法区分重要
5、词信息,导致精度低且应用场景受限。文献 8 将基于Transformer 的 双 向 编 码 器(bidirectional encoder representation from transformers,BERT)与CNN相结合提出一种电网调控的告警识别方法,但该方法参数量巨大、告警诊断耗时过长,难以应用于实际工程。此外,样本规模受限也是告警文本分析面临的难题,该情况会导致深度学习模型泛化性减弱,自然语言处理中常采用数据增强的方法解决。有研究借鉴强化学习理论用于文本序列数据增强9,但无法保证长文本的生成质量。简单数据增强10(easy data augmentation,EDA)是一种基于
6、词粒度的数据增强方法,但存在强随机性可能会向样本传入误导性噪声。实例交叉扩展11是考虑标签的句粒度增强方法,通过情感极性相同的片段组合形成新样本。随着预训练语言模型发展,条件BERT12(conditional BERT,CBERT)被提出用于增强文本数据,通过随机遮蔽句间单词生成相同标签的新句子;文献 13 对比多种预训练模型,提出结合预标签信息的序列文本生成框架。但上述方法需大量训练资源,并在部分文本分析任务中的效果逊于 EDA 等方法。针对传统水电告警诊断方法难以兼顾诊断效率和精度的问题,本文提出一种基于数据增强和深度学习的告警诊断方法:首先,基于隐含狄利克雷分布(latent Diri
7、chlet allocation,LDA)模型和序列推理增强模型(enhanced sequential inference model,ESIM)构建信号特征映射关系的水电告警先验知识;然后,结合水电告警先验知识提出一种改进EDA的数据增强方法;最后,以改进EDA方法增广训练收稿日期:20220615;修回日期:20221219在线出版日期:20230202基金项目:雅砻江流域水电开发有限公司科技项目(002320XJ0017)Project supported by the Science and Technology Program of Yalong River Hydropower
8、Development Co.,Ltd.(0023 20XJ0017)第 8 期孙国强,等:基于数据增强和深度学习的水电站告警事件诊断样本,由基于改进双向简单循环单元网络(bidirectional simple recurrent units+,Bi-SRU+)的层级注意力网络(hierarchical attention networks,HAN)输出告警诊断结果。实际算例验证结果表明,本文方法在水电站发生严重故障,监控系统涌入大量告警信号时可做出智能化响应,兼具较高的诊断速度和精度,提升了集控中心安全调度水平。1 水电站告警事件1.1水电站告警事件的定义和特点告警信号由集控中心监控的各水
9、电站发出,反映水电站主要设备的运行状态或动作信息。告警信号以 JSON 数据格式存储和转发,可选择时间戳字段、信号源字段、告警描述字段和告警状态字段解析信号主要信息。图1展示告警信号经解析后的部分信息,本文的告警信号指代信号的告警内容。告警事件是具有告警逻辑的离散信号集合,反映断路器跳闸、机组停机等故障事件及故障主因。按照对事件诊断的重要性层次将信号特征划分为告警特征、辅助特征和一般特征,告警特征指规则库中的重要子逻辑,在事件告警诊断过程中起决定性作用;辅助特征通常反映于设备运行异常或量测值越限的信号,不属于主要告警逻辑;而一般特征反映于正常操作类、通信故障类、检修类信号等。某典型水电监控告警
10、事件示例见附录A图A1,告警事件以时间窗方法读入:数据源为集控中心接收的告警信号流,以告警特征“出口开关分闸”或“机组事故停机”为时间窗触发特征,提取关联信号源前后一定时间尺度内所有告警状态非“复归”的离散信号构成单次事件。若以规则推理法标注事件类型,应采用关键字段或正则表达式的特征匹配方式,遍历事件告警特征并检验告警逻辑完备性。水电站监控告警事件具有以下5个特点。1)事件序列长度不统一。由于告警性质和严重程度不同,事件涵盖的告警信号数量存在差异。根据历史数据统计,信号数量在200条以上的事件占比约为6%,20条以下的事件占比约为21%,其余告警事件的信号数量在二者之间。2)告警识别规则复杂。
11、由于缺少水电专业告警准则参考,并且由调度人员编写的水电告警规则库较简略,无法建立准确可靠的规则映射关系。3)含有冗余特征。告警信号包含厂站、设备型号、设备编号等信息,致使信号内掺杂对事件诊断贡献较弱的冗余信息。此外当告警发生时,需对邻近时段同信号源中所有可疑元件的告警信号进行遍历1,导致事件涵盖部分非关联设备的信号。4)需要高效准确的告警响应。水电严重故障发生时,集控中心将迅速涌入大量信号,要求短时间内准确诊断当前的多例告警事件用于后续调度决策,对依赖于人工识别的诊断方法提出严峻挑战。5)样本规模有限且类间数量不均衡。水电站大部分时间运行状态稳定,严重故障发生属于小概率事件,因此样本规模有限。
12、由于水电设备特性不同,关联告警频率存在差异,例如历史数据中母线故障跳闸的事件数量远小于发电机组过速停机。1.2水电站告警事件诊断方法针对传统的水电告警事件诊断方法存在效率、精度较低的问题,本文提出了一种融合水电告警先验知识的数据增强方法和层级注意力网络的告警诊断方法,主要工作如下。1)完善规则库告警逻辑。梳理集控中心规则库的重要告警特征,并基于 LDA-ESIM模型构建信号到告警特征的映射机制,形成水电告警先验知识。2)增强水电告警事件样本。采用融合水电告警先验知识的改进EDA数据增强方法,为深度学习模型提供训练数据规模支撑。3)告警样本的预处理和诊断。对告警事件样本进行分词和过滤停用词的文本
13、预处理,并采用Word2vec模型对告警事件进行矩阵化建模。将矩阵化样本输入层级注意力网络进行特征学习,并在实际算例中输出告警诊断结果。2 融合水电告警先验知识的数据增强2.1水电先验告警知识构建由于各站点电力实体命名方式和告警描述习惯存在差异,不同类型信号可指向同一告警特征,例如信号“机组灭磁开关偷跳联跳GCB|动作”和“机组发电机出口开关 203分位|动作”都属于告警特征“出口断路器分闸”。而现有的规则库特征范式有限,无法枚举所有告警特征的信号表现情形。针对上述问题,本文提出基于 LDA-ESIM的信号特征映射关系构建方法,分步处置归并信号的告警特征,方法流程见附录A图A2。2.1.1基于
14、LDA模型的告警信号聚类LDA模型是贝叶斯概率生成模型,关键思路是将文本视为隐含主题的概率分布,主题视为词语的概率分布,该分布的参数服从Dirichlet分布,模型采用Gibbs Sampling算法求解。由LDA模型预聚类告警信号的流程如下。1)告警信号文本预处理。对告警信号数据进行分词和去停用词的文本预处理,并且为避免特殊信图1告警信号结构示例Fig.1Example of alarm signal structure电 力 自 动 化 设 备第 43 卷息干扰模型判断,将站点名、设备编号、设备型号分别标准化为“station”“number”“type”。2)参数设置。分别设置Diric
15、hlet分布的先验参数=0.1和 =0.01,观察主题个数K增加时困惑度曲线变化,由拐点确定K的最佳取值。3)形成预聚类结果。计算参数、K确定下的聚类情况,设置最大主题概率的过滤阈值为0.85,高于阈值的样本归并类簇,低于主概率题阈值的标记为模糊信号不参与聚类。最后,剔除信号类型混杂的聚簇及不属于告警特征的低价值聚簇,余下聚簇根据涵盖的信号内容命名聚簇主题。2.1.2基于ESIM的模糊信号特征匹配ESIM由文献 14 提出,是结合Bi-LSTM和交互注意力机制的深度学习模型,模型结构如附录A图A3所示,共分为输入编码层、局部推理层和推理组合层。ESIM以词为最小粒度学习序列间相关性,各词语的词
16、向量由Word2vec模型15生成。首先在输入编码层,由Bi-LSTM编码待匹配的输入词语序列a和b,让序列各词向量融合上下文信息,如式(1)、(2)所示。a i=BiLSTM(a,i)i1,2,a(1)bj=BiLSTM(b,j)j1,2,b(2)式中:a i和bj分别为序列a和b经Bi-LSTM编码后第i时间步和第 j 时间步的输出;a和b分别为序列a和b含有的词语数;BiLSTM(,)表示Bi-LSTM编码。局部推理层中采用矩阵点积的方式计算编码序列a 和b之间的相似度输出注意权重矩阵,并通过注意权重矩阵推算编码序列间的局部相关性:eij=a Tibj(3)a i=j=1bexp(eij
17、)k=1bexp(eik)bj i1,2,a(4)bj=i=1aexp(eij)k=1aexp(ekj)a i j1,2,b(5)式中:eij为注意权重矩阵e的第i行第j列元素;a 和b分别为基于b和a 的交互注意权重加权平均后的序列信息;a i和bj分别为a 和b的第i时间步和第j时间步的输出。随后通过学习序列间的相似性和分歧性形成局部推理信息:ma=a ;a ;a-a ;a a (6)mb=-b;b;-b-b;-bb(7)式中:代表矩阵间的哈达玛积运算。在推理组合层,使用 Bi-LSTM 编码增强后的局部推理信息ma和mb使其具有上下文含义,经编码后输出为va和vb。为提取所有推理信息特征
18、,对编码向量平均池化和最大池化后拼接所得结果,如式(8)(10)所示。va,ave=i=1ava,ia,va,max=maxi=1,2,ava,i(8)vb,ave=i=1bvb,ib,vb,max=maxi=1,2,bvb,i(9)v=va,ave;va,max;vb,ave;vb,max(10)式中:va,ave和vb,ave分别为va和vb经平均池化后的张量;va,i、vb,i分别为ma、mb经Bi-LSTM编码后的第i个时间步输出;va,max和vb,max分别为va和vb经最大池化后的张量;v为推理组合层拼接的特征合并张量。特征合并张量v最终经过以softmax为激活函数的全连接层,
19、输出序列间的告警特征匹配概率m。采用ESIM界定信号告警特征的流程如下。1)形成主题特征序列。对于每个主题,抽取对应主题概率最高的10个特征词,与该主题聚簇的高置信度样本中出现频数最高的10个词语去重合并为主题特征序列,该序列用于概括主题信息。2)构建ESIM训练样本。顺序采样指定主题聚簇下的信号,与主题特征词序列构成同特征序列对;从指定主题聚簇外的信号池中随机采样20%的告警信号,分别与当前主题特征序列构成异特征序列对。以1和0的样本标签代表序列对类型。3)参数设置和模型训练。输入编码层和推理组合层的Bi-LSTM隐含节点数均设置为100,优化器采用nadam,损失函数采用二元交叉熵。4)模
20、糊信号的告警特征识别。对于各模糊信号样本,依次检验由LDA模型输出的5个最大概率主题。将模糊信号和对应主题特征序列作为输入序列对,输出ESIM匹配结果。若循环检验过程中某主题匹配成功,则终止循环并输出该主题;若所有主题均匹配失败,则由人工方法识别主题。为便于告警规则查询,根据完善后的告警信号特征映射规则及对集控中心告警规则库的告警类型、信号源、告警特征、告警性质等实体概念间的关系梳理,以 Neo4j图数据库构建水电站告警知识图谱16,其中部分可视化结果如附录A图A4所示。2.2融合告警先验知识的EDA数据增强技术深度学习模型的有效性依赖足量的训练样本,而数据增强方法可提高低资源训练环境下模型的
21、健壮性。EDA是经典的文本数据增强技术,操作包括同义词替换和词语的随机插入、删除及交换。但由于EDA存在强随机性,这导致增强样本含误导性噪声,影响模型训练效果。鉴于此,本文提出一种融合水电告警先验知识的改进EDA方法,根据是否与告警特征存在映射关系将信号分为关键信号和非关键信号,并进行下列操作。1)关键信号替换。该方法实现途径为:随机选取事件中的关键信号,替换为同告警特征主题的其他信号,并保留机组和线路名称等告警位置信息。第 8 期孙国强,等:基于数据增强和深度学习的水电站告警事件诊断替换信号和事件关键信号数比例为。2)非关键信号删除。从事件中随机删除非关键信号,删除信号数和事件总信号数比例为
22、1。3)非关键信号插入。选择从邻近时间节点采样信号,保证插入信号与当前告警环境相适应。实现方式为:从关联信号源中,随机采样时间窗边界前后10 s内的非关键信号按照原信号发生时序插入事件中。插入信号数和事件总信号数比例为2。4)非关键信号时序交换。为避免告警特征的前后时序逻辑遭破坏,仅交换事件中非关键信号的位置,每次操作选择2条非关键信号交换时序位置,交换信号数和事件总信号数比例为3。改进EDA的具体操作示例见附录A图A5。相比于原EDA方法,改进EDA的优势在于:由水电告警知识引导增强样本的方式避免了随机性对关键内容的破坏,能够保留主要告警特征,因此增强样本仍满足告警规则的逻辑完备性;改进ED
23、A采用信号层级的数据增强方式,扩大了增强样本和原始样本的信息差异,避免重复学习样本特征从而提高泛化性。考虑到训练数据的类间不平衡会导致模型学习具有偏向性,因此选择以样本数确定各告警事件类型的数据增强比例:i=()cik=1n1ck-1100%(11)式中:i为事件类型i的数据增强比例;ci为事件类型i的样本数量;n为告警事件类型总数。3 基于层级注意力的水电告警诊断模型基于层级注意力网络的水电告警事件诊断流程如下。1)对事件信号进行分词和去停用词。分词词表参照集控中心提供的 流域电站主要调管设备名称,共包含272个水电站专业词汇。2)采用静态词向量模型 Word2vec将告警事件映射为LNM阶
24、矩阵,其中L=200、N=20、M=300分别对应事件的信号数上限、信号的分词数上限和词向量维度,当信号或分词数不足上限时,填充为维度相同的0向量或0矩阵。诊断流程图见附录B图B1,Word2vec模型参数见附录B表B1。3.1序列编码层Bi-SRU+网络结构3.1.1SRU+网络简单循环单元(simple recurrent units,SRU)网络相比于门限循环单元(gate recurrent units,GRU)网络、LSTM等经典循环神经网络,可避免复杂状态计算和门控机制,降低门状态对前一时间步依赖。SRU结构见附录B图B2,其计算流程如下:ft=(Wfxt+vfct-1+bf)(1
25、2)ct=ftct-1+(1-ft)(Wxt)(13)rt=(Wrxt+vrct-1+br)(14)ht=rtct+(1-rt)xt(15)式中:xt为时间步t的输入;()为sigmoid函数运算;W、Wf和Wr为参数矩阵;vf、vr和bf、br分别为权重和偏置向量。因式(12)(14)关于xtRd(d为输入向量隐状态维度)的运算部分可独立进行而不依赖彼此间信息传递,因此可并行处理以提高SRU运算效率,如式(16)所示。U=W,Wf,Wrx1,x2,xg(16)式中:g为输入序列长度;U为对输入进行单次并行运算的输出张量。为增强序列数据特征的分析能力,SRU+17在SRU基础上以自注意力18替
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 增强 深度 学习 水电站 告警 事件 诊断
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。