![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于深度集成学习的甘蔗压榨抽出率预测方法.pdf
《基于深度集成学习的甘蔗压榨抽出率预测方法.pdf》由会员分享,可在线阅读,更多相关《基于深度集成学习的甘蔗压榨抽出率预测方法.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:2 0 2 3-0 2-2 5基金项目:国家自然科学基金(6 1 7 6 3 0 0 1,5 1 4 6 5 0 0 3,1 2 0 6 2 0 0 1);广西自然科学基金(2 0 2 1 J J A 1 1 0 0 4 1)通信作者:蒙艳玫(1 9 6 3-),女,教授,博士,博士生导师,主要从事过程检测与控制研究.E-m a i l:g x u_m e n g y u n 1 6 3.c o mD O I:1 0.1 3 3 9 3/j.c n k i.i s s n.1 6 7 2-9 4 8 X.2 0 2 3.0 4.0 1 6引用格式:蒙艳玫,张月,段青山.基于深度集成学
2、习的甘蔗压榨抽出率预测方法J.三峡大学学报(自然科学版),2 0 2 3,4 5(4):1 0 1-1 0 7.基于深度集成学习的甘蔗压榨抽出率预测方法蒙艳玫1 张 月1 段青山2(1.广西大学 机械工程学院,南宁 5 3 0 0 0 4;2.广西大学 轻工与食品工程学院,南宁 5 3 0 0 0 4)摘要:先进的甘蔗压榨建模方法能够给生产提供指导,有利于提高糖厂的经济效益并节约能源.本文选择深度极 限学习机(D E LM)和 长短期记忆 网络(L S TM)作 为 基 学 习 器,极 端 梯 度 提 升(X G B o o s t)作为元学习器,构建了S t a c k i n g深度集成学
3、习模型,用于甘蔗压榨抽出率的在线预测;并通过计算和实验,验证该方法的可行性和有效性.与其他模型相比较,本文所提模型的预测精度高5%1 2%,并且对数据的敏感性更低,泛化性更好,能够适应甘蔗压榨的不同工况.关键词:甘蔗压榨抽出率;集成学习;深度学习;数据驱动建模中图分类号:T P 2 7 3 文献标志码:A 文章编号:1 6 7 2-9 4 8 X(2 0 2 3)0 4-0 1 0 1-0 7开放科学(资源服务)标识码(O S I D):P r e d i c t i o n M e t h o d o f S u g a r c a n e E x t r a c t i o n R a t
4、 e B a s e d o n D e e p I n t e g r a t e d L e a r n i n gME N G Y a n m e i1 Z HAN G Y u e1 DUAN Q i n g s h a n2(1.C o l l e g e o f M e c h a n i c a l E n g i n e e r i n g,G u a n g x i U n i v.,N a n n i n g,5 3 0 0 0 4,C h i n a;2.C o l l e g e o f L i g h t I n d u s t r y a n d F o o d E
5、n g i n e e r i n g,G u a n g x i U n i v.,N a n n i n g 5 3 0 0 0 4,C h i n a)A b s t r a c t T h e a d v a n c e d m e t h o d o f s u g a r c a n e p r e s s m o d e l i n g c a n p r o v i d e t h e g u i d a n c e f o r t h e p r o d u c t i o n,i m p r o v e t h e e c o n o m i c b e n e f i t
6、 o f s u g a r m i l l s a n d s a v e t h e e n e r g y.I n t h i s p a p e r,d e e p e x t r e m e l e a r n i n g m a c h i n e(D E LM)a n d l o n g a n d s h o r t t e r m m e m o r y n e t w o r k(L S TM)a r e s e l e c t e d a s t h e b a s e l e a r n e r a n d e x t r e m e G r a d i e n t L
7、 i f t(X G B o o s t)i s c h o s e n a s t h e m e t a-l e a r n e r.T h e d e e p i n t e g r a t e d l e a r n i n g m o d e l i s c o n s t r u c t e d f o r o n l i n e p r e d i c t i o n o f s u g a r c a n e e x t r u s i o n r a t e.T h e f e a s i b i l i t y a n d e f f e c t i v e n e s s
8、 o f t h e p r o p o s e d m e t h o d a r e v e r i f i e d b y t h e c a l c u l a t i o n a n d t h e e x p e r i m e n t s.C o m p a r e d w i t h o t h e r m o d e l s,t h e p r e d i c t i o n a c c u r a c y o f t h e p r o p o s e d m o d e l i s 5%-1 2%h i g h e r,a n d t h e s e n s i t i
9、v i t y t o t h e d a t a i s l o w e r,t h e g e n e r a l i z a t i o n i s b e t t e r,a n d i t c a n a d a p t t o t h e d i f f e r e n t c o n d i t i o n s o f s u g a r c a n e p r e s s i n g.K e y w o r d s e x t r a c t i o n r a t e o f s u g a r c a n e p r e s s;i n t e g r a t e d l
10、e a r n i n g;d e e p l e a r n i n g;d a t a-d r i v e n m o d e l i n g 甘蔗压榨抽出率是指甘蔗中已被提取的蔗糖对甘蔗中蔗糖的质量百分数,被广泛用来评价压榨过程的效果.目前对甘蔗压榨的研究主要集中在对压榨机理的探索.段青山1针对压榨过程中混合料特性会发生改变的情况,提出了一种基于进化材料特性的改进D r u c k e r-P r a g e r C a p模型,对混合料特性的改变进行了模拟,为压榨过程中的重要参数提供了更准确的预测.Q i u等2基于任意拉格朗日-欧拉算法模拟了甘蔗研磨的动态过程.随着人工智能的兴起,机
11、器学习技术在建模方面得到了广泛应用,逐渐有学者将数据驱动建模的方法应用在制糖业.T a r a f d a r等3开发了一个具有1 2个隐藏层神经元的组合ANN-GA模型,用于在实验变量范围内预测微流化甘蔗汁的流变特性.M e n g等4建立了基于核极限学习机的数据驱动模型,用于预测甘蔗汁大时延非线性澄清过程中无法在线测量的果第4 5卷 第4期2 0 2 3年8月三峡大学学报(自然科学版)J o f C h i n a T h r e e G o r g e s U n i v.(N a t u r a l S c i e n c e s)V o l.4 5 N o.4A u g.2 0 2
12、3汁比重纯度和清汁色值.然而,上述浅层学习方法在学习复杂大规模工业过程特征的数据方面存在局限性5.与传统的数据驱动方法相比,深度学习(D L)的发展为数据驱动建模提供了更多的选择性,在例如储能系统6、智能电网7-9、暖通空调系统1 0-1 1、建筑节能1 2-1 4等领域已得到广泛应用,并取得了很好的效果.尽管如此,大多数D L的研究都仅仅使用一个单独的D L模型,考虑到D L方法的随机性,它们可能存在不稳定、对初始参数高度敏感和过度训练等问题.集成学习通过将不同的算法组合在一起,在聚合过程中消除了来自模型的误差、数据噪声等,有效地解决了上述问题,逐渐成为更好的建模方法1 5.目前,集成学习在
13、甘蔗压榨领域还未得到应用,同时也还未建立起甘蔗压榨抽出率的预测模型,因此建立甘蔗压榨抽出率的预测模型具有重要意义.考虑到甘蔗压榨中,物料变化复杂、控制复杂、多级运行,是一个复杂的工业过程,本文基于最大相关最小冗余(mRMR)和增量特征选择(I F S)的方法,在甘蔗压榨大数据中提取用于建模的特征集;然后建立以长短期记忆网络(L S TM)和深度极限学习机(D E LM)作为基学习器,X G B o o s t作为元学习器的S t a c k i n g集成学习模型,用于预测甘蔗压榨的抽出率;最后,通过对比论证了该模型的优越性.1 预测方法1.1 S t a c k i n g集成学习S t a
14、 c k i n g是W o l p e r t引 入 的 一 种 集 成 学 习 方法1 6,由两个层次的算法组成.首先,基础学习器在原始数据集上进行训练,收集每个基学习器的预测结果以创建新的数据集.随后,第二级元学习器使用此数据集提供最终预测,元学习模型通过纠正基学习器输出的预测结果,纠正基学习器带来的误差,还可以避免过度拟合,从而有效降低模型的方差和偏差.1.2 深度极限学习机极限学习机(E LM)是求解单隐含层前馈神经网络的一种算法,通过随机输入权重和隐含层偏置,计算得到输出层权重,学习速率快.D E LM相当于多个E LM连接在一起,通过最大限度地降低重构误差使输出可以无限接近原始输
15、入,经过每一层的训练,可以学习到原始数据的高级特征,相较于E LM更能全面捕获数据之间的映射关系,从而提高其精确度.且D E LM没有反向调优的过程,这样训练网络的时间就会大大减少1 7.D E LM网络结构如图1所示.-图1 D E LM网络结构1.3 长短期记忆网络长短 期 记 忆 网 络(L S TM)在 循 环 神 经 网 络(R NN)的基础上通过引入细胞状态和门控概念,有效解决了传统R NN所存在的梯度爆炸、梯度消失与长期依赖问题.L S TM单元结构如图2所示,主要由细胞状态、遗忘门、输入门和输出门组成.细胞状态也称为记忆单元,类似于传送带,为信息的传递提供通道.L S TM通过
16、忘记门、输入门和输出门来保护和控制细胞状态.L S TM已成功应用于许多领域,例如故障诊断、负荷预测等1 8-1 9.图2 L S TM结构1.4 极端梯度提升X G B o o s t是C h e n和G u e s t r i n于2 0 1 6年提出的一种基于梯度提升决策树的监督机器学习算法2 0,通过不断迭代,生成新树来拟合前一棵树的残差,因此随着迭代次数增多,精度在不断提高.X G B o o s t所用树模型是C A R T回归树模型.设X G B o o s t模型为:yi=mm=1fm(xi),fmF,F=f(x)=wq(x),q:RT,wRT(1)式中:m为树的数量;F为所有
17、C A R T树的函数空间;fj函数值为样本点所在叶节点的得分;q为多个样本点映射到各叶子结点的函数;T为叶子结点的个数;w为叶子结点的得分.目标函数通常分为损失项和正则化项:201三 峡 大 学 学 报(自 然 科 学 版)2 0 2 3年8月O b j(f)=L(f)+(f)(2)式中:L是损失函数;是正则化项.损失函数用于衡量模型在训练数据上的性能,可以由式(3)表示.正则化项旨在控制每棵树的复杂度之和,即模型的复杂程度,由式(4)计算得到.L(f)=ni=1yi-yi(3)(f)=T+12Tj=1w2j(4)式中:和是超参数,用于控制叶子节点的个数和分数.为了得到目标函数的最优解,对损
18、失函数进行二阶泰勒展开后求偏导,得到更新后的目标函数为:O b j(f)=Tj=1Gjwj+12(Hj+)w2j +T(5)式中:Gj为所有数据在损失函数上的一阶导数;Hj为所有数据在损失函数上的二阶导数.利用贪心算法枚举可行的分裂点对子树进行分裂,使模型获得更高的增益,从而使目标函数更小,通过不断迭代找到最优的树模型.1.5 基于m RMR和I F S的特征选择方法研究采用最大相关最小冗余(mRMR)方法来分析不同 特 征 的 重 要 性.mRMR方 法 由P e n g等 开发2 1,被认为是机器学习中最强大的过滤器之一.在mRMR中,每个特征都可以根据其与目标变量的相关性进行排序,并且排
19、序过程能够同时考虑这些特征的冗余.“好的”特征被定义为与目标变量的相关性最大且冗余最小.mRMR根据特征的重要性给出特征排序后,仍然不知道应该选择多少个特征.为了确定最佳特征数量,本文使用增量特征选择(I F S),对具有排名的特征变量进行增量特征选择:集合中的特征按照重要性从高到低逐一添加,如果增加一个特征,得到一个新的特征集,那么会得到N个特征集,对每一个特征集构建S t a c k i n g深度集成模型进行测试,根据测试的结果确定最终的模型特征.2 基于深度集成学习的甘蔗压榨抽出率预测模型2.1 数据来源在线数据、文本数据、离线数据共同组成了甘蔗压榨过程大数据.在线数据主要是车间已安装
20、的分布式控制系统(D C S)收集的压榨系统运行数据,包括蔗刀机转速、压榨机转速、渗透水流量、泵阀压力、温度、电流等,这些数据能够反映出压榨系统的实时运行状态;离线数据主要由化验数据和计算数据组成,包括甘蔗抽出率、甘蔗蔗糖份、蔗汁p H值、车间能耗等;文本数据主要包括甘蔗的产地、值期、品种等.具体特征见表1.表1 甘蔗压榨过程特征集序号特征描述1x11号蔗刀机电流2x22号蔗刀机电流3x33号蔗刀机电流(东)4x43号蔗刀机电流(西)5x5一级带电流6x6一级带转速7x7二级带电流8x8二级带转速9x91号双辊转速1 0 x1 01号榨机电流1 1x1 11号榨机转速1 2x1 22号榨机电流
21、1 3x1 32号榨机转速1 4x1 43号榨机电流1 5x1 53号榨机转速1 6x1 64号榨机电流序号特征描述1 7x1 74号榨机转速1 8x1 85号榨机电流1 9x1 95号榨机转速2 0 x2 06号榨机电流2 1x2 16号榨机转速2 2x2 26号双辊电流2 3x2 36号双辊转速2 4x2 4渗透水流量2 5x2 5渗透水对蔗比2 6x2 6甘蔗蔗糖份2 7x2 7甘蔗非糖份2 8x2 8甘蔗纤维份2 9x2 9甘蔗产地3 0 x3 0甘蔗品种3 1x3 1甘蔗值期3 2x3 2蔗汁p H值2.2 数据预处理数据处理是特征选择和建模前的重要环节,数据质量的 好 坏 直 接
22、影 响 到 模 型 的 准 确 度.首 先 利 用O r d i n a l E n c o d i n g的方法将文本特征转化为数字特征.由于离线数据、文本数据和在线数据不是同时获取的,各自的记录形式不一样,存在着采样的时间差异,导致数据时序不匹配,因此需要进行时序匹配.以离线测量值抽出率为基准点,匹配同一时刻的在线数据和文本数据,将同一时刻的在线数据、文本数据和离线数据融合成同时序的样本数据;然后利用拉伊达准则对数据的异常点进行清理;最后,为了消除维度差异对相关性分析的不利影响,提高训练过程中的收敛效果,对数据进行m i n-m a x标准化处理.2.3 特征选择根据1.5节所述,对表1中
23、3 2个特征分别计算其mRMR值,归一化后排序见表2.基于mRMR的输出,为3 2个子特征集构建了2 0个单独的特征集来预测甘蔗压榨抽出率.第一个特征集包括重要性前6的特征(x1 1、x8、x4、x1 4、x1 6、x2 3),第二个特征集(x1 1、x8、x4、x1 4、x1 6、x2 3、x1 7)在第一个 特 征 集 的 基 础 上 增 加 重 要 性 第7的 特 征(x1 7).以此类推,得到I F S结果,如图3所示.301第4 5卷 第4期 蒙艳玫,等 基于深度集成学习的甘蔗压榨抽出率预测方法表2 基于m RMR值的特征重要性排序序号重要性特征11.0 0 0 x1 720.9 9
24、 4x2 030.9 9 4x2 640.9 9 2x1 550.9 9 2x1 460.9 8 6x2 770.9 8 5x2 380.9 8 1x490.9 7 7x3 11 00.9 7 5x2 11 10.9 7 5x1 11 20.9 7 5x81 30.9 7 4x2 81 40.9 7 1x3 01 50.9 6 9x2 51 60.9 6 6x7序号重要性特征1 70.9 6 4x31 80.9 5 4x1 91 90.9 4 6x92 00.9 3 3x2 22 10.9 3 2x12 20.9 3 0 x2 92 30.8 9 7x1 02 40.8 9 6x2 42 50
25、.8 7 8x1 82 60.7 9 7x1 32 70.7 5 2x1 62 80.7 0 7x62 90.6 6 3x53 00.6 5 8x3 23 10.6 2 8x23 20.6 2 7x1 2图3 I F S结果图 当使用1 4个特征时,模型的R2=0.9 7 1,优于其他模型,因此这1 4个特征被认为是预测模型的最优特征集(见表3),作为S t a c k i n g深度集成学习模型的输入特征.表3 甘蔗压榨过程深度集成学习模型的输入及输出特征序号符号描述单位范围1x43号蔗刀机电流(西)A5 3,6 62x8二级带速度m/s6.1,7.83x1 11号榨机转速m/s4.9,6.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 集成 学习 甘蔗 压榨 抽出 预测 方法
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。