基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf
《基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf》由会员分享,可在线阅读,更多相关《基于主动学习机制GAN的M...过程二噁英排放风险预警模型_汤健.pdf(16页珍藏版)》请在咨信网上搜索。
1、第 卷 第 期 年 月北京工业大学学报 基于主动学习机制 的 过程二噁英排放风险预警模型汤 健,崔璨麟,夏 恒,王丹丹,乔俊飞,(北京工业大学信息学部,北京;智慧环保北京实验室,北京)摘 要:针对构建城市固废焚烧(,)过程剧毒污染物二噁英(,)排放风险预警模型的样本极为稀少的问题,提出一种基于主动学习机制生成对抗网络(,)的 排放风险预警建模方法 首先,以 风险等级作为条件信息使得 生成候选虚拟样本;然后,利用基于最大均值差异和多视角可视化分布信息的主动学习机制进行虚拟样本的初筛和评估,以获得期望虚拟样本;最后,基于混合样本构建 排放风险预警模型 通过基准数据集和 过程数据集验证了所提方法的有
2、效性 基于主动学习机制 的 排放风险预警建模方法可以有效解决样本稀少的问题,提高模型精度关键词:城市固废焚烧(,);二噁英(,)排放风险预警;生成对抗网络(,);虚拟样本生成(,);最大均值差异;主动学习中图分类号:;文献标志码:文章编号:():收稿日期:;修回日期:基金项目:国家自然科学基金资助项目();北京市自然科学基金资助项目()作者简介:汤 健(),男,教授,博士生导师,主要从事小样本数据建模、固废处理智能控制方面的研究,:,(,;,):()(),(),北 京 工 业 大 学 学 报 年:();();();();城市固废的产生量随城市人口的不断增加而逐年提 高 城 市 固 废 焚 烧(
3、,)是当今世界大部分国家采用的具有无害化、减量化和资源化等优势的处理手段 由于 过程所产生的副产品二噁英(,)为剧毒污染物,不但损害内分泌系统和破坏染色体进而导致细胞癌变,而且在生物体内具有累积效应,是造成焚烧建厂存在“邻避现象”的主要原因 因此,控制其排放是急需解决的环保问题,对 排放的风险等级进行预警,对实现 过程的优化控制和减少污染排放具有实际意义目前,工业界主要对 过程末端烟囱排放烟气中的 进行检测 常用方法包括:)离线直接检测法 首先在线收集一定量的烟气,然后在实验室进行一周左右的化验分析 缺点是检测费用昂贵和时间滞后,目前企业大多按照需求进行不定期的检测)在线间接检测法 首先对与
4、有密切关系的指示物 关联物进行检测,然后通过映射模型计算 排放浓度 缺点是检测设备复杂且价格昂贵,导致其很难直接应用于工业现场)软测量法 以易测过程变量和污染物浓度为输入构建数据驱动模型,实现 排放的在线检测 显然,离线直接检测法和在线间接检测法均很难满足 过程以减少 排放为目的的实时优化控制的需求 此外,排放浓度检测的难度大、周期长、费用昂贵,导致构建数据驱动模型的样本真值极其稀少 因此,过程中 排放浓度检测问题属于典型的小样本建模问题,具有数量少、样本间不平衡等特性通常较少数量的建模样本难以准确反映工业过程的真实特性,因此,构建鲁棒可靠的污染物浓度排放回归预测模型较为困难,相对而言,构建污
5、染排放风险预警模型较为容易 此外,工业现场领域专家也常采用低、中、高等不确定性语言描述污染排放风险,并依据自身经验获得判别结果以调整相关控制参数 但是,建模样本的不平衡,即某类样本的数量远小于其他类,这也是所构建风险判别模型具有片面性和偏差性的主要原因目前,已存在多种面向小样本数据的建模方法,例如:支持向量机(,)通过最大间隔超平面划分数据集以减少对样本数量和分布的需求,但存在对缺失值敏感、惩罚参数和核函数选择困难等问题;基于概率推理图模型的贝叶斯网络(,),能够结合建模数据和专家经验进行不确定性推理,但网络结构和参数的确定缺乏系统化的设计方法;灰色模型(,)基于灰色系统理论建模,能够有效减少
6、数据间的随机性,并使数据呈现更加明显的特征规律,虽然在一维指数变化数据预测方面的性能较好,但却很难处理高维输入和分布未知的数据针对上述小样本建模方法存在的问题,虚拟样本生成(,)方法被提出,即在原始样本的基础上根据先验知识、样本分布等信息生成一定数量的虚拟样本以填补信息空缺 进一步,等通过数学证明了在领域先验知识下生成的虚拟样本与原始的真实样本具有相同建模效果 众多研究也表明,将虚拟样本加入到小样本集中可提高模型的精度和泛化能力 根据生成原理,笔者将 分为 类:)基于分布采样;)基于信息扩散;)基于特征提取;)基于生成对抗网络(,)基于分布采样的 是通过对原始样本的分布进行采样以获得新样本,如
7、文献提出基于高斯分布采样生成虚拟样本后将其添加到小样本集中构建分类器,实验结果表明其效果优于原始小样本集该类方法的优点是计算简单和易于实现,缺点是对原始样本分布的依赖性强,难以用于分布复杂的高维数据 基于信息扩散的 包括整体趋势扩散技术和基于树的趋势扩散技术,主要通过扩展样本的属性域,利用模糊理论生成虚拟样本,但扩散系数和扩散函数的确定较难 基于特征提取的 是从原始样本中提取特征,即对高维数据进行降维后在低维特征空间生成虚拟样本,主要方法有分布随机邻域嵌入(,)和 虽然该类方法可有效处理高维数据,但通过降维生成的低维虚拟样本可能丢失高维样本的分布关系 目前,基于 的 多应用于虚拟图像样本的生成
8、,最初由 等基于博弈对抗思想提出,其通过生成器和判别器的博弈对抗使得虚拟样 第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型本越来越接近真实样本,从而解决样本数量少的问题 文献提出基于 生成器和判别器的等效模型,以少量绝缘子图像样本和随机噪声为输入生成虚拟绝缘子图像样本,结果表明,增加虚拟样本后的分类效果得到有效提升 文献提出解决管道泄漏数据集类不平衡问题的增强,结果表明,增加虚拟样本可提高状态检测模型的精度 研究表明,利用博弈对抗逼近真实分布,生成的虚拟分类样本更加接近真实样本 在 的网络超参数优化方面,文献在多个生成器之间采用参数共享方式进行优化训练,通过引入正则项减少梯
9、度消失的影响 文献将进化神经网络与 相结合应用于风力发电预测,通过一组不同的损失函数在进化过程中逐渐逼近网络最优参数 上述这些研究难以用于建模样本稀少的场景 由上可知,基于 的 研究在工业领域中的应用,尤其面向过程数据的应用鲜有报道 此外,对于如何选择更有效的虚拟样本是一个开放性的难题图 基于炉排炉的 工艺流程 主动学习是指通过一定的算法查询最有用的未标记样本后由领域专家进行标记,然后基于混合样本训练分类模型以提高泛化性能 文献利用不确定性抽样选取接近决策边界的样本进行标注,实验结果表明,主动学习只需要使用更少的标注样本即可达到更好的泛化性能 文献指出虽然半监督模型采用计算机代替人工标注降低了
10、成本,但标注结果却依赖于基准分类器的分类准确率,难以保证标注结果的准确性,相较而言,主动学习采用人工标注有效地降低了标注错误的可能性 由上可知,主动学习能够通过提升训练样本的质量提高分类模型的性能 目前,如何主动标记虚拟样本的研究鲜有报道综上,本文提出基于主动学习机制 的 过程中 排放风险预警模型构建方法 首先,在原始 的基础上引入 风险等级作为条件信息,使得生成器能够生成指定风险等级的虚拟样本;然后,先使用最大均值差异(,)对虚拟样本进行初筛,对初筛后的虚拟样本再基于主成分分析(,)和 进行可视化,进而由领域专家进行主动判别;最后,基于虚拟样本和真实样本组成的混合样本构建 排放风险预警模型
11、结合基准数据集和 过程的实际 数据验证了所提方法的有效性 过程 排放描述国内某 电厂的炉排炉焚烧工艺流程如图 所示北 京 工 业 大 学 学 报 年 由图 可知,城市固废由专用车辆收集,称完质量后运输至卸料大厅,倾倒入密封的固废池中,并通过抓斗送至焚烧炉料斗内,由给料器推至炉排;城市固废在焚烧炉内依次经历干燥、点燃、燃烧和燃烬 个阶段,燃烬后的残渣落入水冷渣斗后由捞渣机送至灰渣坑中,收集后送至填埋场处理;焚烧过程产生的热量经余热锅炉后生成高压蒸汽,推动汽轮发电机发电;添加活性炭和消石灰后的锅炉出口烟气进入反应器,产生的飞灰进入飞灰罐,烟气进入袋式除尘器以去除烟气颗粒物、中和反应物和活性炭吸附物
12、 处理之后分为 个部分:)尾部飞灰进入飞灰罐;)部分烟灰混合物在混合器中加水后重新进入反应器;)尾部烟气通过引风机经烟囱排入大气,其中包含、和 等物质固废不完全燃烧和新规合成反应导致 过程产生的焚烧灰、飞灰和烟气中均包含 因此,焚烧过程中烟气需要达到,并保持 以确保有毒有机物的有效分解 在烟气处理阶段向反应器内注入石灰和活性炭,吸附 和部分重金属,然后经袋式除尘器过滤,通过引风机排入烟囱,以减少排放烟气中的 浓度 此外,该阶段产生的积灰存在的 记忆效应也会导致 排放浓度增加 现场分布式控制系统(,)采集和存储上述各阶段的过程变量以及常规污染物(、和 等)浓度 然而,由于高成本和长周期等原因使得
13、排放烟气中 的检测样本较为稀少由上可知,构建 排放风险预警模型的样本存在数量少、分布不均和维数高等特点 排放风险预警建模策略本文提出基于主动学习机制 的 过程中 排放风险预警模型构建策略,包括基于 的、虚拟样本筛选与评估和基于混合样本的风险预警模型构建 个模块,如图 所示图 基于主动学习机制 的 排放风险预警模型构建策略 图 中:,表示由 过程获取的真实样本,和 分别表示其输入集和输出集;表示随机噪声;,为 生成器生成的候选虚拟样本,和 分别表示其输入集和输出集;,为经过 初筛的虚拟样本,和 分别表示其输入集和输出集;和 分别表示由 可视化和 可视化提供的分布信息;,为经过领域专家主动判别得到
14、的合格虚拟样本,和分别表示其输入集和输出集;?表示所构建风险预警模型的风险类别预测输出 建模算法.基于 的 模块由于原始 生成的虚拟样本类型不可控,本模块在原始 的基础上引入 排放风险等级作为条件信息以控制生成虚拟样本的类型 所提基于 的 流程如图 所示本文中,将每批训练样本数记为,学习率记为,最大训练次数记为 生成器采用 层神经网络,隐含层使用 激活函数,输出层使用线性激活函数,即 第 期汤 健,等:基于主动学习机制 的 过程二噁英排放风险预警模型图 基于 的 流程 (,)()()式中:和 分别为生成器输入层和隐含层之间的权值和偏置;()表示 激活函数;为生成器隐含层输出;和 分别为生成器隐
15、含层和输出层之间的权值和偏置;为训练过程中生成器的输出判别器的隐含层使用 激活函数,输出层使用 激活函数,即,()()()()()式中:为,和,组成的混合样本;和 分别为判别器输入层和隐含层间的权值和偏置;为判别器隐含层输出;和 分别为判别器隐含层和输出层间的权值和偏置;()表示 激活函数;为训练过程中判别器的输出相应地,的目标函数为()()()()()式中:()表示 的分布;为判别器对,的输出;()表示 的分布;为判别器对,的输出通常,判别器需要计算样本来自()或()的概率,生成器根据判别器的结果学习真实样本的分布()以减少(),进而使得生成器和判别器在最小最大的博弈对抗中共同训练 本文中,
16、将当前生成器生成的虚拟样本质量与前一次检测的虚拟样本质量进行比较,当两者的差距小于预设阈值 时认为生成器达到稳定,判别函数为(,),()式中 表示第 个待检测生成器生成的候选虚拟样本质量,本文采用 值评判 由式()可知,若(,)的值为,表示生成器达到稳定;反之,生成器未达到稳定,需要继续训练.虚拟样本筛选与评估模块.基于 的虚拟样本初筛子模块首先,取若干个稳定生成器生成若干组候选虚拟样本 接着,计算每组虚拟样本质量 采用 度量虚拟样本与真实样本的总体均值差异,进而衡量两者之间的分布差异为便于理解,将 生成器生成的候选虚拟样本输入和真实样本输入的形式表示为,(),()式中 和 分别表示一组候选虚
17、拟样本和真实样本的数量通过高维映射函数获得上述样本在再生核希尔伯特空间(,)中期望差值的上确界,即(,)()()()()()式中:为;()表示将样本映射到高维;()和()表示样本映射到 中的期望值根据式()计算 组虚拟样本,与真实样本,间的 值,初筛函数定义为(,)(,),(,),(,)()式中 ()表示取 组虚拟样本与,的 值最小的那组虚拟样本,将其作为质量最佳的初筛虚拟样本,.基于 的虚拟样本可视化模块.基于 的虚拟样本可视化子模块 通过一组正交向量将原始数据投影到新北 京 工 业 大 学 学 报 年的空间,在消除了原始数据冗余的同时保留了主要信息 为便于理解,此处将初筛虚拟样本的输入及其
18、中心化后的形式表示为,(),()式中 和 为样本数量和维数首先,计算 的协方差矩阵 ()接着,将其进行特征分解,矩阵为 ()|(),()式中:为依特征根从大到小顺序排列的对角阵;为特征根对应的特征向量矩阵然后,依据最大特征向量,得到降到 维的虚拟样本()式中 为最大特征值对应的特征向量最后,计算 的概率密度,将其可视化.基于 的虚拟样本可视化子模块 的原理是根据样本点之间的相似性将高维样本嵌入到低维空间 通常,使得 中距离近的样本点在 中离得更近,距离远的样本点离得更远,进而能够有效地解决拥挤问题,提高可视化的效果 为便于理解,此处将初筛虚拟样本的输入和采用 降至 维后的样本表示为,(),()
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 主动 学习 机制 GAN 过程 二噁英 排放 风险 预警 模型 汤健
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。