基于深度长短记忆网络的汽轮机数据清洗.pdf
《基于深度长短记忆网络的汽轮机数据清洗.pdf》由会员分享,可在线阅读,更多相关《基于深度长短记忆网络的汽轮机数据清洗.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 52 卷 第 8 期 Vol.52 No.8 2023 年 8 月 THERMAL POWER GENERATION Aug.2023 修 回 日 期:2022-10-18 网络首发日期:2022-11-01 基 金 项 目:中央高校基本科研业务费专项资金资助(2019MS094)Supported by:Fundamental Research Funds for the Central Universities(2019MS094)第一作者简介:许小刚(1979),男,博士,高级工程师,主要研究方向为故障诊断、系统寻优,。DOI:10.19666/j.rlfd.202210213 基于
2、深度长短记忆网络的汽轮机数据清洗 许小刚1,2,3,王志香1,王惠杰1,2,3(1.华北电力大学动力工程系,河北 保定 071003;2.华北电力大学河北省低碳高效发电技术重点实验室,河北 保定 071003;3.华北电力大学保定市低碳高效发电技术重点实验室,河北 保定 071003)摘要汽轮机运行过程会产生多样且大量数据。为适应大数据驱动及仿真建模对高质量数据的要求,高效的数据清洗十分必要。利用长短记忆层对于时序数据出色的非线性拟合能力搭建了汽轮机半监督数据清洗模型。模型选取机组的 3 个边界条件作为输入,对待清洗数据进行预测,根据预测值与实际值的残差完成异常值剔除,之后选用模型的预测值进行
3、数据填充,保证数据的完整性。利用模型对某电厂 650 MW 机组进行数据清洗,并且为克服样本失衡给清洗模型指标选取带来的问题,对准确率进行了改进并将其作为清洗效果的衡量指标。结果表明:深度长短记忆网络的数据清洗模型改进准确率高于其他 3 种常见清洗方法,可有效识别数据是否异常,且可利用预测值进行数据填充,保证清洗前后数据量一致。关键词长短记忆网络;深度学习;数据清洗;异常值;汽轮机 引用本文格式许小刚,王志香,王惠杰.基于深度长短记忆网络的汽轮机数据清洗J.热力发电,2023,52(8):179-187.XU Xiaogang,WANG Zhixiang,WANG Huijie.Turbine
4、 data cleaning based on deep LSTMJ.Thermal Power Generation,2023,52(8):179-187.Turbine data cleaning based on deep LSTM XU Xiaogang1,2,3,WANG Zhixiang1,WANG Huijie1,2,3(1.Department of Power Engineering,North China Electric Power University,Baoding 071003,China;2.Key Laboratory of Low Carbon and Eff
5、icient Power Generation Technology of Hebei,North China Electric Power University,Baoding 071003,China;3.Baoding Key Laboratory of Low Carbon and Efficient Power Generation Technology,North China Electric Power University,Baoding 071003,China)Abstract:A large amount of data is generated during steam
6、 turbine operation.In order to meet the requirements of high quality data driven by big data and simulation modeling,efficient data cleaning is very necessary.The semi-supervised data cleaning model of steam turbine is built by using the excellent nonlinear fitting ability of long and short memory l
7、ayer for time series data.The model selects three boundary conditions of the unit as input to predict the cleaning data.Outliers are eliminated according to the residual difference between the predicted value and the actual value.Then,the predicted value of the model is used to fill the data to ensu
8、re the integrity of the data.The model is used to clean the data of a 650 MW unit in a power plant.To overcome the problems caused by sample imbalance in the selection of cleaning model indicators,the accuracy rate is improved and taken as the measurement index of cleaning effect.The results show th
9、at,the improved accuracy of the data cleaning model of the deep long and short memory network is higher than that of the other three common cleaning methods,which can effectively identify whether the data is abnormal,and can use the predicted value to fill the data to ensure the consistency of data
10、before and after cleaning.Key words:long and short memory networks;deep learning;data cleaning;outliers;steam turbine 汽轮机作为锅炉与发电机的中间设备,将锅炉产生的蒸汽转换为机械能从而带动发电机输出电能。汽轮机运行是一个不间断进行的过程,每一时刻的运行都与之前息息相关,期间产生的数据量不180 2023 年 http:/ 会发生突变。常见的汽轮机“脏数据”类型主要包含数据缺失以及不符合运行数据时序性和其他原因造成的数据与运行不符所带来的数据异常。1)缺失数据 在火电厂监测数据中
11、,缺失值是指某条记录的属性字段值被标记为 NaN 的数据,出现缺失值的原因主要是数据采集传感器短时异常或数据传输链受阻等因素导致数据未被写入1。2)异常数据 随着火电厂检测水平的日益提高和大数据分析对于数据量需求巨大,传感器测点遍布机组的每一个部分,不停地将机组运行过程中的各项数据进行传输、保存,而这些数据的准确性会受到设备老化或故障,测量精度不足、信息传输故障、信号干扰等一系列问题的影响,最终保存进DCS 的数据会被污染,产生异常数据2。在发电趋于自动化、智能化的大背景下,随着大数据驱动,深度学习在故障诊断、工况划分、仿真模拟等方面的应用,对于所使用的数据质量要求更为严格。完成“脏数据”的清
12、洗,可提高数据的质量,从而提升以数据为前提的诊断、模拟、预测等各项工作的准确性,对于“智慧电厂”的实现具有深远意义。对原始数据中“脏数据”的识别与修复是数据质量分析中的一项主要研究工作。目前常见数据清洗方法包括基于统计的 3 准则、箱型图以及基于机器学习的聚类法、局部异常因子、孤立森林和深度学习法。杨茂等针对 3 准则的模型参数 和 提出了改进建立类 3 准则,对于光伏功率的异常数据进行识别。但由于该方法是针对正态分布的数据,其识别的准确率并不高,且对于其他分布类型的数据适用性较差3。何高清等利用箱型图对于轴承内径尺寸进行了异常数据的识别,相较于 3 准则而言箱型图的普适性更强,适用于大多的数
13、据分布,但其仅仅只能识别简单的离群点4。许璟琳等利用 k 近邻距离对于医院的用电能耗离群点进行了检测,但针对文中提到的 3 种异常值,仅可以检测其中的局部异常5。陈洪涛等提出了一种基于 k-means 聚类算法的线损异常辨别方法,根据分析线损的大小决定对数据进行几次聚类,正确率相对较高,但在其异常数据检测过程中线损大小、聚类类别、阈值等多处需要人为分析确定,检测结果受人为影响较大6。贺玉海等采用 k-Medoids 算法与具有噪声基于密度聚类(DBSCAN)算法的组合聚类算法对于交通流数据进行清洗工作,但其对于聚类中心距离大以及高维度数据聚类效果较差7。石玉亮等通过增大可达距离,降低局部可达密
14、度,提高了异常帧与正常帧之间的区分度对局部异常因子进行了改进,运用改进的局部异常因子法对多维数据的异常值进行识别检测8。Wang B 等通过对大数据集进行聚类选取新的数据集,之后选用局部离群因子(LOF)算法对异常值进行识别,K-LOF 降低了大数据量的计算复杂度,但随之而来的缺点就是数据的误检以及数据量的缩减9。侯振英通过将孤立森林和局部异常因子 2 个算法的结果映射到同一空间,最终确定异常值10。聚类、局部异常因子以及孤立森林都是将数据的异常值简单定义为离群点,而对于其他与正常值差异不大的异常数据其检测性能会下降。吴磊等研究表明,长短记忆网络具有良好的预测性能,在电力预测等方面应用较多,且
15、预测性能较好11。吴飘利用深度卷积的超强特征学习能力以及残差损失对 2 个公开数据集合进行了异常数据检测,结果表明基于深度学习的检测结果优于传统的 PCA 和KNN12。随着深度学习在各行各业的深入发展,越来越多的学者将数据清洗的研究转到深度学习。就汽轮机而言,多数学者将研究的重点放在故障检测分析上,而对于数据清洗工作大多还停留在阈值分割、聚类等较为传统的方法上,忽略了高质量数据对于数据挖掘工作的重要性。本文首先利用深度长短记忆网络(deep long short-term memory,DLSTM)搭建半监督数据清洗模型,对汽轮机运行数据进行清洗工作。长短记忆(long short-term
16、 memory,LSTM)可以很好地学习到汽轮机运行数据的时序性;而半监督清洗模型利用各项输入进行待清洗数据的预测,利用预测值与真实值之间的残差作为异常值检测的阈值,并且之后可以利用预测值进行异常值剔除之后的数据填充,保证数据的完整性。之后,利用搭建好的DLSTM 模型准确高效地完成了对某电厂 650 MW机组汽轮机运行数据清洗。1 基于 DLSTM 的数据清洗模型 1.1 LSTM 算法 LSTM 算法是基于循环神经网络(recurrent neural network,RNN)的一种变体智能算法,其在RNN 的基础上增加了 3 个门结构,从左至右依次是遗忘门、输入门、输出门。相比普通的 R
17、NN(图 1),第 8 期 许小刚 等 基于深度长短记忆网络的汽轮机数据清洗 181 http:/ LSTM(图 2)由于能够学习长期的依赖关系,在长时间序列数据的处理上表现优异13-15。图 1 RNN 展开结构 Fig.1 RNN unfolding structure 图 2 LSTM Fig.2 LSTM 1)遗忘门 决定 Ct-1信息的取舍。其输入为前一个细胞的输出 ht-1以及当前的输入 xt,该门的输出 ft为一个 01 的数字,表示对于 Ct-1信息的保留与取舍:f-1f(,)tttfW hxb (1)其中:Wf为遗忘门的激活函数;bf为偏置。2)输入门 通过候选记忆细胞tC,
18、决定输入有多少进入当前的 Ct中,可以有效减少无关信息的输入:i-1i(,)tttiW hxb (2)其中:Wi为输入的激活函数;bi为偏置。3)输出门 决定当前的输出 ot:o-1oo(,)tttW hxb (3)长短记忆的记忆细胞更新公式为:c-1ctanh(,)tttCW hxb (4)1tttttCCfiC (5)其中:Wo为输出门的激活函数;bo为偏置;Wc为记忆细胞更新时的激活函数;bc为相应偏置;tC为候选记忆细胞。隐藏状态ht结合输出门输出以及当前记忆细胞输出:*tanh()ttthoC (6)LSTM 将 RNN 中的“全乘”变为了“乘加结合”可在一定程度上解决梯度爆炸16。
19、1.2 DLSTM 模型搭建 深度学习(deep learning)是神经网络的一部分,可以根据多层神经网络逐步进行多样化深层次特征提取以及进行复杂的非线性拟合。根据汽轮机运行数据所具有的时序特性以及皮尔逊系数选取了 3 个边界条件作为输入量,模型构建了 3 层 LSTM 层,可以充分拟合输入与输出以及数据前后时序之间的关系。同时,为了避免过拟合的风险,增强模型的泛化能力,在每层 LSTM 之后加入了正则化层。对于神经网络单元,按照一定的概率将其暂时从网络中丢弃,可以简化网络,提高模型的训练时效性17。最后,加入 2 个全连接层将之前提取学习到的特征进行关联,并且将结果映射到输出。利用训练集训
20、练深度长短记忆模型,选取损失函数为平均绝对误差 MAE(式(7))。MAE表示预测值与实际值差值的平均,直观反映模型预测能力高低,同样也为之后设置判别异常值所需的阈值提供了便利条件。根据训练结束所产生的动态差值设置阈值:据训练数据集训练结束的预测值与实际值之间差值的绝对值关系设定合适的判别异常阈值 s。模型的优化器使用 Adam。该优化器简单高效并且内存占用少,可以自然地实现步长退火过程,即自适应地调整学习率18。1MAE1miaem (7)其中:a 为实际值;e 为异常值。DLSTM 模型内部架构见表 1。表 1 DLSTM 模型架构 Tab.1 The DLSTM model archit
21、ecture Layer(type)Output Shape Param lstm_1(LSTM)(None,200,20)2 080 dropout_1(Dropout)(None,200,20)0 lstm_2(LSTM)(None,200,20)3 280 dropout_2(Dropout)(None,200,20)0 lstm_3(LSTM)(None,20)3 280 dropout_3(Dropout)(None,20)0 dense_1(Dense)(None,2)42 dense_2(Dense)(None,1)3 Total params:8 685 Trainable p
22、arams:8 685 Non-trainable params:0 182 2023 年 http:/ 1.3 多维时序 DLSTM 数据清洗 LSTM 可以根据输入的多维度数据进行相关数据预测,充分挖掘利用数据之间复杂的非线性关系,以期根据时序数据的特点以及输入量之间的关系很好地预测输出量19。本文所构建的 DLSTM 数据清洗模型的清洗原理是利用机组边界条件作为多维时序数据输入,对汽轮机待清洗数据进行预测训练;之后根据训练好的模型对测试集数据进行预测,依据预测值与实际值之间的残差关系判别数据是否异常。模型清洗结构如图 3 所示。图 3 DLSTM 数据清洗模型流程 Fig.3 Flowc
23、hart of the DLSTM data cleaning model2 模型验证 2.1 汽轮机数据以及输入量的选取 本文采用国能黄金埠发电有限公司超临界 650 MW 机组 2020 年 1 月 17 日2 月 28 日的历史运行数据作为数据集。海量数据会大大降低数据清洗的时效性,且会带入大量的随机干扰信息。但汽轮机组的运行并不是一个快变工况,机组会在短时间内维持一定的运行状态,选取 432 s 所得的数据既可以维持机组运行数据的规律性,采集到每个时间段的数据,又提高了数据清洗的效率,满足数据清洗的要求。因此,本文样本选取频率为 432 s/条,数据共包含 8 600 条运行数据。对于
24、缺失数据,当前在数据分析中对应的处理方法多为删除缺失值和修复缺失值 2 种。为了在保证数据高质量的前提下保留数据的完整性,本文将缺失数据填充为 0,然后利用模型进行缺失数据的修复工作。汽轮机组的整体运行情况与运行边界条件具有较强的依变关系。选取边界条件作为输入量使模型具有更普遍的适应性,并且可以避免数据清洗效果受到其他多项输入数据质量的影响。汽轮机组的边界条件包括可控边界条件(主蒸汽压力、主蒸汽温度、减温水量、再热蒸汽温度、循环水流量)以及不可控边界条件(负荷、环境温度、大气压力、煤质)。皮尔逊系数(式(8))可以度量 2 个变量之间的相关性。系数取值介于11,正负值仅表示变量之间呈现的正负相
25、关性。皮尔逊系数的绝对值越大,二者相关性越强。cov()XYX,YXYXYEXuYuX,Y (8)第 8 期 许小刚 等 基于深度长短记忆网络的汽轮机数据清洗 183 http:/ 其中:uX、uY和X、Y分别为变量 X、Y 的均值和标准值。计算待清洗数据与各边界条件的皮尔逊相关系数,结果见表 2。选取与待清洗数据(也即输出量)相关性较强的前 3 个机组边界条件(负荷、主蒸汽压力、主蒸汽温度)作为输入量,待清洗数据一段抽汽(一抽)压力(p1)、三段抽汽(三抽)压力(p3)、主凝结水流量(Dc_sj,简称 Dj)作为输出量。表 2 待清洗数据与各边界条件的皮尔逊相关系数 Tab.2 Pearso
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 长短 记忆 网络 汽轮机 数据 清洗
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。