分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于数据增强和深度学习的水电站告警事件诊断.pdf

基于数据增强和深度学习的水电站告警事件诊断.pdf

上传人：自信****多点

文档编号：578896

上传时间：2024-01-02

格式：PDF

页数：8

大小：1.76MB

《基于数据增强和深度学习的水电站告警事件诊断.pdf》由会员分享，可在线阅读，更多相关《基于数据增强和深度学习的水电站告警事件诊断.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 43 卷第 8 期2023 年 8 月电力自动化设备Electric Power Automation EquipmentVol.43 No.8Aug.2023基于数据增强和深度学习的水电站告警事件诊断孙国强1，章逸舟1，唐杰阳2，唐凡2，卫志农1，臧海祥1，杨东2（1.河海大学能源与电气学院，江苏南京 211100；2.雅砻江流域水电开发有限公司，四川成都 610051）摘要：针对水电告警事件传统诊断方法存在效率低下、准确率不足等缺陷，设计了一种融合先验知识的数据增强方法和基于双向简单循环单元网络的层级注意力深度学习框架。针对水电告警规则不完善的问题，采用隐含狄利克雷

2、分布-序列推理增强模型构建告警信号与告警特征间的映射机制；结合该水电告警先验知识提出改进隐含狄利克雷分布方法增强样本数据，最终由层级注意力模型学习样本特征并输出诊断结果。测试算例为某水电集控中心的实际告警数据，测试结果表明，所提方法可在低资源训练环境下实现快速和高准确率的水电告警事件诊断。关键词：水电站告警事件；文本数据增强；注意力机制；深度学习；先验知识中图分类号：TM73；TM622 文献标志码：ADOI：10.16081/j.epae.2023020010 引言当水电站设备运行异常或发生故障时，集控中心将接收大量文本形式的告警信号，而告警事件作为具有完整告警逻辑的离散信号集合，是调度人员

3、分析设备运行状态和决策的重要依据。传统告警事件诊断依靠调度经验构建辨识规则1，结合人工识别诊断事件类型，易出现错判、漏判且效率低下。因此水电集控亟需一种快速准确的告警诊断方法，以提升水电站运行管控水平和风险应对能力。随着人工智能技术发展，机器学习逐渐应用于电力文本识别领域。文献 2 采用支持向量机和k-均值聚类算法处理实现缺陷文本的故障类型诊断。文献 3 提出基于卷积神经网络（convolutional neural networks，CNN）的电力缺陷文本诊断方法，诊断效果优于部分传统机器学习模型。为解决模型不能提取关键信息的问题，文献 4 将注意力机制和双向长短期记忆网络（bidirect

4、ional long short term memory，Bi-LSTM）结合进行电力设备缺陷文本类型识别。但上述研究分析的都是单句电力文本，对多信号序列的长告警文本未提出解决方案。针对电力系统中的告警事件分析，文献 5 结合CNN和长短期记忆网络（long short term memory，LSTM）的优点，构建CNN-LSTM模型诊断告警事件类型，实现识别精度的突破；文献 6 提出融合知识库和文本卷积神经网络（TextCNN）的电网监控告警诊断方法，具备较高的容错性和鲁棒性；文献 7 提出代价敏感损失函数和Bi-LSTM结合的方法用于提高样本不平衡时的诊断准确性。但以上方法均无法区分重要

5、词信息，导致精度低且应用场景受限。文献 8 将基于Transformer 的双向编码器（bidirectional encoder representation from transformers，BERT）与CNN相结合提出一种电网调控的告警识别方法，但该方法参数量巨大、告警诊断耗时过长，难以应用于实际工程。此外，样本规模受限也是告警文本分析面临的难题，该情况会导致深度学习模型泛化性减弱，自然语言处理中常采用数据增强的方法解决。有研究借鉴强化学习理论用于文本序列数据增强9，但无法保证长文本的生成质量。简单数据增强10（easy data augmentation，EDA）是一种基于

6、词粒度的数据增强方法，但存在强随机性可能会向样本传入误导性噪声。实例交叉扩展11是考虑标签的句粒度增强方法，通过情感极性相同的片段组合形成新样本。随着预训练语言模型发展，条件BERT12（conditional BERT，CBERT）被提出用于增强文本数据，通过随机遮蔽句间单词生成相同标签的新句子；文献 13 对比多种预训练模型，提出结合预标签信息的序列文本生成框架。但上述方法需大量训练资源，并在部分文本分析任务中的效果逊于 EDA 等方法。针对传统水电告警诊断方法难以兼顾诊断效率和精度的问题，本文提出一种基于数据增强和深度学习的告警诊断方法：首先，基于隐含狄利克雷分布（latent Diri

7、chlet allocation，LDA）模型和序列推理增强模型（enhanced sequential inference model，ESIM）构建信号特征映射关系的水电告警先验知识；然后，结合水电告警先验知识提出一种改进EDA的数据增强方法；最后，以改进EDA方法增广训练收稿日期：20220615；修回日期：20221219在线出版日期：20230202基金项目：雅砻江流域水电开发有限公司科技项目（002320XJ0017）Project supported by the Science and Technology Program of Yalong River Hydropower

8、Development Co.，Ltd.（0023 20XJ0017）第 8 期孙国强，等：基于数据增强和深度学习的水电站告警事件诊断样本，由基于改进双向简单循环单元网络（bidirectional simple recurrent units+，Bi-SRU+）的层级注意力网络（hierarchical attention networks，HAN）输出告警诊断结果。实际算例验证结果表明，本文方法在水电站发生严重故障，监控系统涌入大量告警信号时可做出智能化响应，兼具较高的诊断速度和精度，提升了集控中心安全调度水平。1 水电站告警事件1.1水电站告警事件的定义和特点告警信号由集控中心监控的各水

9、电站发出，反映水电站主要设备的运行状态或动作信息。告警信号以 JSON 数据格式存储和转发，可选择时间戳字段、信号源字段、告警描述字段和告警状态字段解析信号主要信息。图1展示告警信号经解析后的部分信息，本文的告警信号指代信号的告警内容。告警事件是具有告警逻辑的离散信号集合，反映断路器跳闸、机组停机等故障事件及故障主因。按照对事件诊断的重要性层次将信号特征划分为告警特征、辅助特征和一般特征，告警特征指规则库中的重要子逻辑，在事件告警诊断过程中起决定性作用；辅助特征通常反映于设备运行异常或量测值越限的信号，不属于主要告警逻辑；而一般特征反映于正常操作类、通信故障类、检修类信号等。某典型水电监控告警

10、事件示例见附录A图A1，告警事件以时间窗方法读入：数据源为集控中心接收的告警信号流，以告警特征“出口开关分闸”或“机组事故停机”为时间窗触发特征，提取关联信号源前后一定时间尺度内所有告警状态非“复归”的离散信号构成单次事件。若以规则推理法标注事件类型，应采用关键字段或正则表达式的特征匹配方式，遍历事件告警特征并检验告警逻辑完备性。水电站监控告警事件具有以下5个特点。1）事件序列长度不统一。由于告警性质和严重程度不同，事件涵盖的告警信号数量存在差异。根据历史数据统计，信号数量在200条以上的事件占比约为6%，20条以下的事件占比约为21%，其余告警事件的信号数量在二者之间。2）告警识别规则复杂。

11、由于缺少水电专业告警准则参考，并且由调度人员编写的水电告警规则库较简略，无法建立准确可靠的规则映射关系。3）含有冗余特征。告警信号包含厂站、设备型号、设备编号等信息，致使信号内掺杂对事件诊断贡献较弱的冗余信息。此外当告警发生时，需对邻近时段同信号源中所有可疑元件的告警信号进行遍历1，导致事件涵盖部分非关联设备的信号。4）需要高效准确的告警响应。水电严重故障发生时，集控中心将迅速涌入大量信号，要求短时间内准确诊断当前的多例告警事件用于后续调度决策，对依赖于人工识别的诊断方法提出严峻挑战。5）样本规模有限且类间数量不均衡。水电站大部分时间运行状态稳定，严重故障发生属于小概率事件，因此样本规模有限。

12、由于水电设备特性不同，关联告警频率存在差异，例如历史数据中母线故障跳闸的事件数量远小于发电机组过速停机。1.2水电站告警事件诊断方法针对传统的水电告警事件诊断方法存在效率、精度较低的问题，本文提出了一种融合水电告警先验知识的数据增强方法和层级注意力网络的告警诊断方法，主要工作如下。1）完善规则库告警逻辑。梳理集控中心规则库的重要告警特征，并基于 LDA-ESIM模型构建信号到告警特征的映射机制，形成水电告警先验知识。2）增强水电告警事件样本。采用融合水电告警先验知识的改进EDA数据增强方法，为深度学习模型提供训练数据规模支撑。3）告警样本的预处理和诊断。对告警事件样本进行分词和过滤停用词的文本

13、预处理，并采用Word2vec模型对告警事件进行矩阵化建模。将矩阵化样本输入层级注意力网络进行特征学习，并在实际算例中输出告警诊断结果。2 融合水电告警先验知识的数据增强2.1水电先验告警知识构建由于各站点电力实体命名方式和告警描述习惯存在差异，不同类型信号可指向同一告警特征，例如信号“机组灭磁开关偷跳联跳GCB|动作”和“机组发电机出口开关 203分位|动作”都属于告警特征“出口断路器分闸”。而现有的规则库特征范式有限，无法枚举所有告警特征的信号表现情形。针对上述问题，本文提出基于 LDA-ESIM的信号特征映射关系构建方法，分步处置归并信号的告警特征，方法流程见附录A图A2。2.1.1基于

14、LDA模型的告警信号聚类LDA模型是贝叶斯概率生成模型，关键思路是将文本视为隐含主题的概率分布，主题视为词语的概率分布，该分布的参数服从Dirichlet分布，模型采用Gibbs Sampling算法求解。由LDA模型预聚类告警信号的流程如下。1）告警信号文本预处理。对告警信号数据进行分词和去停用词的文本预处理，并且为避免特殊信图1告警信号结构示例Fig.1Example of alarm signal structure电力自动化设备第 43 卷息干扰模型判断，将站点名、设备编号、设备型号分别标准化为“station”“number”“type”。2）参数设置。分别设置Diric

15、hlet分布的先验参数=0.1和 =0.01，观察主题个数K增加时困惑度曲线变化，由拐点确定K的最佳取值。3）形成预聚类结果。计算参数、K确定下的聚类情况，设置最大主题概率的过滤阈值为0.85，高于阈值的样本归并类簇，低于主概率题阈值的标记为模糊信号不参与聚类。最后，剔除信号类型混杂的聚簇及不属于告警特征的低价值聚簇，余下聚簇根据涵盖的信号内容命名聚簇主题。2.1.2基于ESIM的模糊信号特征匹配ESIM由文献 14 提出，是结合Bi-LSTM和交互注意力机制的深度学习模型，模型结构如附录A图A3所示，共分为输入编码层、局部推理层和推理组合层。ESIM以词为最小粒度学习序列间相关性，各词语的词

16、向量由Word2vec模型15生成。首先在输入编码层，由Bi-LSTM编码待匹配的输入词语序列a和b，让序列各词向量融合上下文信息，如式（1）、（2）所示。a i=BiLSTM(a，i)i1，2，a（1）bj=BiLSTM(b，j)j1，2，b（2）式中：a i和bj分别为序列a和b经Bi-LSTM编码后第i时间步和第 j 时间步的输出；a和b分别为序列a和b含有的词语数；BiLSTM(，)表示Bi-LSTM编码。局部推理层中采用矩阵点积的方式计算编码序列a 和b之间的相似度输出注意权重矩阵，并通过注意权重矩阵推算编码序列间的局部相关性：eij=a Tibj（3）a i=j=1bexp(eij

17、)k=1bexp(eik)bj i1，2，a（4）bj=i=1aexp(eij)k=1aexp(ekj)a i j1，2，b（5）式中：eij为注意权重矩阵e的第i行第j列元素；a 和b分别为基于b和a 的交互注意权重加权平均后的序列信息；a i和bj分别为a 和b的第i时间步和第j时间步的输出。随后通过学习序列间的相似性和分歧性形成局部推理信息：ma=a ；a ；a-a ；a a （6）mb=-b；b；-b-b；-bb（7）式中：代表矩阵间的哈达玛积运算。在推理组合层，使用 Bi-LSTM 编码增强后的局部推理信息ma和mb使其具有上下文含义，经编码后输出为va和vb。为提取所有推理信息特征

18、，对编码向量平均池化和最大池化后拼接所得结果，如式（8）（10）所示。va，ave=i=1ava，ia，va，max=maxi=1，2，ava，i（8）vb，ave=i=1bvb，ib，vb，max=maxi=1，2，bvb，i（9）v=va，ave；va，max；vb，ave；vb，max（10）式中：va，ave和vb，ave分别为va和vb经平均池化后的张量；va，i、vb，i分别为ma、mb经Bi-LSTM编码后的第i个时间步输出；va，max和vb，max分别为va和vb经最大池化后的张量；v为推理组合层拼接的特征合并张量。特征合并张量v最终经过以softmax为激活函数的全连接层，

19、输出序列间的告警特征匹配概率m。采用ESIM界定信号告警特征的流程如下。1）形成主题特征序列。对于每个主题，抽取对应主题概率最高的10个特征词，与该主题聚簇的高置信度样本中出现频数最高的10个词语去重合并为主题特征序列，该序列用于概括主题信息。2）构建ESIM训练样本。顺序采样指定主题聚簇下的信号，与主题特征词序列构成同特征序列对；从指定主题聚簇外的信号池中随机采样20%的告警信号，分别与当前主题特征序列构成异特征序列对。以1和0的样本标签代表序列对类型。3）参数设置和模型训练。输入编码层和推理组合层的Bi-LSTM隐含节点数均设置为100，优化器采用nadam，损失函数采用二元交叉熵。4）模

20、糊信号的告警特征识别。对于各模糊信号样本，依次检验由LDA模型输出的5个最大概率主题。将模糊信号和对应主题特征序列作为输入序列对，输出ESIM匹配结果。若循环检验过程中某主题匹配成功，则终止循环并输出该主题；若所有主题均匹配失败，则由人工方法识别主题。为便于告警规则查询，根据完善后的告警信号特征映射规则及对集控中心告警规则库的告警类型、信号源、告警特征、告警性质等实体概念间的关系梳理，以 Neo4j图数据库构建水电站告警知识图谱16，其中部分可视化结果如附录A图A4所示。2.2融合告警先验知识的EDA数据增强技术深度学习模型的有效性依赖足量的训练样本，而数据增强方法可提高低资源训练环境下模型的

21、健壮性。EDA是经典的文本数据增强技术，操作包括同义词替换和词语的随机插入、删除及交换。但由于EDA存在强随机性，这导致增强样本含误导性噪声，影响模型训练效果。鉴于此，本文提出一种融合水电告警先验知识的改进EDA方法，根据是否与告警特征存在映射关系将信号分为关键信号和非关键信号，并进行下列操作。1）关键信号替换。该方法实现途径为：随机选取事件中的关键信号，替换为同告警特征主题的其他信号，并保留机组和线路名称等告警位置信息。第 8 期孙国强，等：基于数据增强和深度学习的水电站告警事件诊断替换信号和事件关键信号数比例为。2）非关键信号删除。从事件中随机删除非关键信号，删除信号数和事件总信号数比例为

22、1。3）非关键信号插入。选择从邻近时间节点采样信号，保证插入信号与当前告警环境相适应。实现方式为：从关联信号源中，随机采样时间窗边界前后10 s内的非关键信号按照原信号发生时序插入事件中。插入信号数和事件总信号数比例为2。4）非关键信号时序交换。为避免告警特征的前后时序逻辑遭破坏，仅交换事件中非关键信号的位置，每次操作选择2条非关键信号交换时序位置，交换信号数和事件总信号数比例为3。改进EDA的具体操作示例见附录A图A5。相比于原EDA方法，改进EDA的优势在于：由水电告警知识引导增强样本的方式避免了随机性对关键内容的破坏，能够保留主要告警特征，因此增强样本仍满足告警规则的逻辑完备性；改进ED

23、A采用信号层级的数据增强方式，扩大了增强样本和原始样本的信息差异，避免重复学习样本特征从而提高泛化性。考虑到训练数据的类间不平衡会导致模型学习具有偏向性，因此选择以样本数确定各告警事件类型的数据增强比例：i=()cik=1n1ck-1100%（11）式中：i为事件类型i的数据增强比例；ci为事件类型i的样本数量；n为告警事件类型总数。3 基于层级注意力的水电告警诊断模型基于层级注意力网络的水电告警事件诊断流程如下。1）对事件信号进行分词和去停用词。分词词表参照集控中心提供的流域电站主要调管设备名称，共包含272个水电站专业词汇。2）采用静态词向量模型 Word2vec将告警事件映射为LNM阶

24、矩阵，其中L=200、N=20、M=300分别对应事件的信号数上限、信号的分词数上限和词向量维度，当信号或分词数不足上限时，填充为维度相同的0向量或0矩阵。诊断流程图见附录B图B1，Word2vec模型参数见附录B表B1。3.1序列编码层Bi-SRU+网络结构3.1.1SRU+网络简单循环单元（simple recurrent units，SRU）网络相比于门限循环单元（gate recurrent units，GRU）网络、LSTM等经典循环神经网络，可避免复杂状态计算和门控机制，降低门状态对前一时间步依赖。SRU结构见附录B图B2，其计算流程如下：ft=(Wfxt+vfct-1+bf)（1

25、2）ct=ftct-1+(1-ft)(Wxt)（13）rt=(Wrxt+vrct-1+br)（14）ht=rtct+(1-rt)xt（15）式中：xt为时间步t的输入；()为sigmoid函数运算；W、Wf和Wr为参数矩阵；vf、vr和bf、br分别为权重和偏置向量。因式（12）（14）关于xtRd（d为输入向量隐状态维度）的运算部分可独立进行而不依赖彼此间信息传递，因此可并行处理以提高SRU运算效率，如式（16）所示。U=W，Wf，Wrx1，x2，xg（16）式中：g为输入序列长度；U为对输入进行单次并行运算的输出张量。为增强序列数据特征的分析能力，SRU+17在SRU基础上以自注意力18替

26、代线性变换式（16），堆叠SRU+在多项文本分析任务的表现均优于Transformer。对给定输入X=x1，x2，xg，分别由式（17）（19）计算查询矩阵Q、键矩阵K和值矩阵V。Q=WqX（17）K=WkQ（18）V=WvQ（19）式中：Wq Rd d、WkRdd、WvRdd分别为训练查询矩阵Q、键矩阵K和值矩阵V的参数矩阵，d为小于d的注意维度。为降低运算复杂度和保留Q中参数，K和V由Q映射得到。根据Q、K和V计算自注意力值：A=softmax()QKdV（20）U=Wolayernorm(Q+A)（21）式中：Wo为权重参数矩阵；layernorm()为层标准化操作；为自注意力层的调节参

27、数，|越大则模型分析告警文本序列长期依赖性的能力越强。3.1.2 Bi-SRU+SRU+仅能预测单向文本序列信息，而Bi-SRU+可通过双向结构综合考虑前、后向文本信息，分析结果更加全面可靠。Bi-SRU+结构图如附录B图B3所示，其由2个结构对称的单向SRU+构成，二者输入的文本信息相同，信息传递方向相反，各自更新内部状态并输出。时间步t的隐状态ht由时间步t的正向传播隐状态ht和反向传播隐状态ht拼接形成，如式（22）所示。ht=htht（22）式中：表示向量间的拼接操作。3.2基于Bi-SRU+的层级注意力告警诊断模型层级注意力网络由文献 19 提出，本文基于该模型进行改进，在词语和信号

28、序列编码层采用 Bi-SRU+替换Bi-GRU，用于提取序列特征并加速模型训练，层级注意力网络结构图如图2所示。电力自动化设备第 43 卷Embedding 层：将 Word2vec训练的词向量结果作为该层初始化权重矩阵，以告警信号的分词作为单个 token，根据对应的 token-id 形成 token 的词向量。词语序列编码层：词语序列编码层结构为 Bi-SRU+，由 Bi-SRU+分析词语间的前后依赖关系。wt(t1，N)表示告警信号i的在时间步t的词向量，经特征学习后Bi-SRU+输出信号中各词向量的隐状态hit为：hit=BiSRU+(wt)t1，N（23）词语注意力层：

29、考虑到告警信号中仅部分词对事件类型诊断有信息贡献，由注意力机制按照重要性差异为词语隐状态分配权重it，并将单条告警信号i所有隐状态hit加权平均生成信号向量si。uit=tanh(Wwhit+bw)（24）it=exp(uituw)texp(uituw)（25）si=tithit（26）式中：Ww和bw分别为hit的权重参数矩阵和偏置向量；uit为hi经过单层感知机的输出；uw为根据上下文随机初始化的词语向量。信号序列编码层：该层结构为Bi-SRU+，各时间步输入为信号向量si（i1，L）。由于事件中告警信号的时序具有隐含关联，可通过该层学习告警信号间序列关联性，输出信号编码向量hi：hi=B

30、iSRU+(si)i1，L（27）信号注意力层：告警事件是多信号的序列文本数据，而冗余信号对类型判断影响微弱，因此由信号注意力层区分不同信号的重要性。首先提取信号关键语义特征，计算信号序列编码层输出的各时间步隐状态权重，生成事件特征向量vE（E 表示告警事件），如式（28）（30）所示。ui=tanh(Wshi+bs)（28）i=exp(uius)i(uius)（29）vE=iihi（30）式中：s为告警信号；Ws和bs分别为hi的权重参数矩阵和偏置向量；ui为hi经过单层感知机的输出；us为根据上下文随机初始化的信号向量。告警类型判定层：归纳上游网络学习的深层特征，采用softmax分类器输

31、出告警事件类型标签，如式（31）所示。p=softmax(WEvE+bE)（31）式中：WE和bE分别为该层的权重参数矩阵和偏置向量；p为各告警类型标签的概率，由argmax函数选取p中最大元素对应的告警类型作为诊断结果。4 算例测试4.1软硬件平台配置算例测试的集成开发环境为Pycharm，运行硬件为 CPU i7-9750H（2.6 GHz），显卡为 RTX-2080。深度学习框架采用 1.11.1 版本的 Torch、2.2.0 版本的Tensorflow和2.4.0版本的Keras，训练集与验证集划分按照8 2的比例设5组不同的随机切分情况，取测试结果的平均值评估诊断性能。4.2实验结

32、果和分析本文算例数据源为某水电站集控中心2011 2020年的约600万条监控告警信号，信号以数据库形式存储。从发变组、开关站、气体绝缘组合电器设备（gas insulated switchgear，GIS）告警系统和直流告警系统等相关信号源中筛选告警信号进行LDA聚类。对同类型或重复的历史信号进行归并，共形成信号样本数5 661条，监控的设备涵盖发电机组、主变压器、厂输配电线路、母线、安控装置等。根据困惑度值曲线变化，确定 LDA 模型的输出主题数为74，筛选并保留其中33个符合条件的主题聚簇，共产生模糊信号样本787条，ESIM参数设置及测试结果见附录C表C1。解析历史关联信号库后，由时间

33、窗方法共提取出告警事件共1 970例，根据告警子逻辑的完备性标注各事件样本的告警类型，样本分布统计情况见附录 C表 C2。评价指标采用评价分类模型常用的准确率、召回率和F1值，对于告警类型k的诊断评价指标为：Pk=Ek/A（32）Rk=Ek/B（33）式中：Pk、Rk分别为告警类型k的准确率、召回率；Ek为诊断正确的告警类型k样本；A为告警类型k的样本总数；B为所有被诊断为告警类型k的样本总数。告警诊断的整体评价指标F1计算公式为：图2基于Bi-SRU+的层级注意力网络Fig.2Hierarchical attention networksbased on Bi-SRU+第 8 期孙国强，等：

34、基于数据增强和深度学习的水电站告警事件诊断F1=111k=1112PkRk/(Pk+Rk)（34）以F1值为优化目标，由网格搜索方法寻优序列编码层的Bi-SRU+隐含节点数，节点数为96时模型性能最高。本文模型参数如附录C表C3所示。为寻优改进 EDA方法各操作的最佳控制参数值，本文以F1值的提升来评价模型性能增益，分别抽取20%、50%和100%比例的原始训练样本规模进行对比，改进EDA增强样本规模为抽取原始数据的2倍。改进EDA控制参数改变对模型性能增益的影响如图3所示。由图3可见：当维持参数在0.3，1、2和3在0.2左右时，各操作对模型的性能增益达到最高；且在测试范围内，改进EDA方法

35、在训练数据规模越小的场景下对模型的性能增益越高。为验证改进EDA方法的有效性，设置其他文本数据增强方法作为对照，测试结果见表1。改进EDA方法各操作增强比例一致。对于 EDA10的同义词替换，本文采用Python工具包Gensim的most_similar函数返回近义词检索结果；CBERT模型12的预训练语料为水电站过去10 a的历史告警信号以及操作人员记录的告警事件简报；回译法基于Google翻译接口，以英语、日语和西班牙语作为语言框架，选取表现最优的结果作为对照。由表1可见：EDA方法略优于无数据增强场景，但由于随机性较强且无法辨识重要信息，模型性能提升有限；回译法将文本数据在不同语言框架

36、间往复映射生成新样本，但翻译电力文本时会产生部分错误和歧义，测试效果不佳；CBERT模型考虑了替换句间词语后对原文本的影响，但基于词替换的样本增强方式较单一，对模型泛化性提高有限；改进EDA方法的性能增益优于其他对照方法，相比无数据增强的识别准确率、召回率和 F1值分别提升了0.90%、0.86%和0.88%。以其他深度学习模型作为对照，验证本文模型的有效性。各对比模型的Word2vec训练词向量共享，改进EDA方法的数据增强比例相同，损失函数采用 Focal loss20提高对弱样本的关注。以 Early Stopping工具监视每轮迭代的测试集损失变化，若无明显降低则终止训练。不同深度学习

37、模型的测试集损失值变化曲线如图4所示。由图可见：本文模型与 HAN 模型收敛特性相近，迭代到六七轮时收敛。为检验本文模型的有效性，设置了不同的深度学习模型作为对比，结果如表2所示。由于TextCNN和TextCNN+LSTM模型通常用于分析单序列的文本信息，文献 5 和文献 6 仅用该类模型解析信号序列级别的信息，在文本矢量化过程中采用平均词向量生成信号向量的特征糅合方式，虽然提高了模型训练效率，但造成大量词信息损失，导致在复杂的告警场景下表现不佳。考虑到水电站事故发生时，告警误判将造成严重经济损失和运行风险，因此该类低精度的基准模型不再适用。HAN模型由层级结构解析词、信号粒度信息并由注意力

38、机制筛选重要特征，虽相比于上述模型准确率有大幅提高，但训练时间成本也显著增加。本文将单层Bi-SRU+替换HAN的Bi-GRU结构，同样可维持HAN的高精度，并将训练时间缩减为原模型的37.5%，单例事件的平表1本文模型在不同数据增强方法下的测试结果比较Table 1Comparison of test results of proposed modelunder different data enhancement methods模型本文模型本文模型+改进EDA本文模型+CBERT本文模型+EDA本文模型+回译法准确率%97.3198.2197.6197.4096.52召回率%96.4197

39、.2796.7296.8095.98F1%96.8697.7497.1797.1096.30图3改进EDA控制参数改变对模型性能增益的影响Fig.3Influence of control parameter change ofimproved EDA method on model performance gain图4不同深度学习模型的测试集损失值变化曲线Fig.4Change curves of testset loss values ofdifferent deep learning models电力自动化设备第 43 卷均测试时间约为0.06 s，诊断时间远低于人工识别所需

40、的平均用时3.2 s，大幅提升了水电告警系统的判断效率。4.3工程应用为和工程实际接轨，以2020年6月17日发生于该水电站的“直流双极闭锁严重事故”不安全事件快报为验证对象。快报显示事故持续时间为当天13:38 14:30，从该时段集控中心接收的 12 556条告警信号中共生成15例告警事件，模型诊断结果经检验全部正确，共用时1.06 s。2例典型事件的注意力热图如附录C图C1，事件中不同信号和词语的注意权重由模型的信号及词注意力层输出，根据结果显示，本文模型可区分告警文本信息的重要性。5 结论本文针对水电站告警推理规则复杂，样本规模有限且类间数量不平衡等诊断难点，提出了一种结合数据增强和深

41、度学习的水电告警诊断方法：1）基于LDA-ESIM构建了水电告警信号至告警特征的映射机制，提出一种分步处置的告警特征匹配方法，优化了集控中心告警规则库的特征检索逻辑，为水电告警诊断提供规则支撑；2）提出一种融合水电告警先验知识的改进EDA方法，以4种信号层级数据增强操作为深度学习提供训练规模支撑，方法易于实现且具备可解释性，提升了低训练资源时诊断模型的泛化性能；3）将HAN模型应用于水电站告警事件诊断任务中，并基于HAN模型改进，将编码文本序列的Bi-GRU结构替换为Bi-SRU+，维持高诊断精度的前提下，大幅提升模型训练和测试效率。本文为水电告警事件诊断提供了一种高效率高精度的智能告警诊断模

42、型。下一步研究工作是将事件分级处置、关联告警设备定位等作为研究内容，探索集告警类型诊断，告警严重度分级和告警处置预案生成为一体的多任务学习方法。附录见本刊网络版（http：）。参考文献：1闪鑫，戴则梅，张哲，等.智能电网调度控制系统综合智能告警研究及应用 J.电力系统自动化，2015，39（1）：65-72.SHAN Xin，DAI Zemei，ZHANG Zhe，et al.Research on and application of integrated smart alarm based on smart grid dispatching and control systemsJ.Aut

43、omation of Electric Po-wer Systems，2015，39（1）：65-72.2汪崔洋，江全元，唐雅洁，等.基于告警信号文本挖掘的电力调度故障诊断 J.电力自动化设备，2019，39（4）：126-132.WANG Cuiyang，JIANG Quanyuan，TANG Yajie，et al.Fault diagnosis of power dispatching based on alarm signal text mining J.Electric Power Automation Equipment，2019，39（4）：126-132.3刘梓权，王慧芳，曹靖

44、，等.基于卷积神经网络的电力设备缺陷文本分类模型研究 J.电网技术，2018，42（2）：644-651.LIU Ziquan，WANG Huifang，CAO Jing，et al.A classification model of power equipment defect texts based on convolutional neural networkJ.Power System Technology，2018，42（2）：644-651.4冯斌，张又文，唐昕，等.基于BiLSTM-Attention神经网络的电力设备缺陷文本挖掘 J.中国电机工程学报，2020，40（增刊1）：

45、1-10.FENG Bin，ZHANG Youwen，TANG Xin，et al.Power equipment defect record text mining based on BiLSTM-Attention neural network J.Proceedings of the CSEE，2020，40（Supplement 1）：1-10.5BAI Ziyu，SUN Guoqiang，ZANG Haixiang，et al.Identifica-tion technology of grid monitoring alarm event based on natural lang

46、uage processing and deep learning in ChinaJ.Energies，2019，12（17）：1-19.6孙国强，沈培锋，赵扬，等.融合知识库和深度学习的电网监控告警事件智能识别 J.电力自动化设备，2020，40（4）：40-47.SUN Guoqiang，SHEN Peifeng，ZHAO Yang，et al.Intelligent recognition of power grid monitoring alarm event combining knowledge base and deep learningJ.Electric Power Aut

47、omation Equipment，2020，40（4）：40-47.7卫志农，石东明，张明，等.考虑样本类别不平衡的电网故障事件智能识别方法 J.电力自动化设备，2021，41（11）：93-99.WEI Zhinong，SHI Dongming，ZHANG Ming，et al.Intelligent identification method of power grid fault events considering sample classification imbalanceJ.Electric Power Automation Equipment，2021，41（11）：93-9

48、9.8晏鹏，黄晓旭，黄玉辉，等.基于BERT-DSA-CNN和知识库的电网调控在线告警识别 J.电力系统保护与控制，2022，50（4）：129-136.YAN Peng，HUANG Xiaoxu，HUANG Yuhui，et al.Online alarm recognition of power grid dispatching based on BERT-DSA-CNN and a knowledge base J.Power System Protection and Control，2022，50（4）：129-136.9YU Lantao，ZHANG Weinan，WANG Jun

49、，et al.SeqGAN：sequen-ce generative adversarial nets with policy gradientCPro-ceedings of the Thirty-First AAAI Conference on Artificial Intelligence.San Francisco，California，USA：ACM，2017：2852-2858.10WEI J，ZOU Kai.EDA：easy data augmentation techniques for boosting performance on text classification t

50、asks C2019 Conference on Empirical Methods in Natural Language Pro-cessing and the 9th International Joint Conference on Natural Language Processing（EMNLP-IJCNLP）.Hong Kong，China：Asso-ciation for Computational Linguistics，2019：6382-6388.11LUQUE F M.Atalaya at TASS 2019：data augmentation and robust e

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于数据增强深度学习水电站告警事件诊断

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。