基于CatBoost的供水量组合预测模型探讨.pdf
《基于CatBoost的供水量组合预测模型探讨.pdf》由会员分享,可在线阅读,更多相关《基于CatBoost的供水量组合预测模型探讨.pdf(5页珍藏版)》请在咨信网上搜索。
1、Sept,20232023年9 月AUTOMATION IN PETRO-CHEMICAL INDUSTRY石自动Vol.59,No.5油第59 卷化第5期化基于CatBoost的供水量组合预测模型探讨朱俊杰,叶文静?,曹萃文,顾幸生(1.上海南汇自来水有限公司,上海2 0 1399;2.华东理工大学能源化工过程智能制造教育部重点实验室,上海2 0 0 2 37)摘要:如何合理安排水资源并减少水资源浪费是呕需解决的问题,精确预测供水量并为供水系统调度方案的制定提供必要的数据支持是目前重要研究方向之一。建立了一种基于CatBoost的城市供水量组合预测模型,该模型基于KNN算法对异常数据进行识别
2、和校正,从而减少异常数据对模型精度的影响;随后采用SVR,XG Bo o s t,Li g h t G BM 和CatBoost模型预测供水量数据;为了融合各模型的优点并提高模型的预测精度,将各单一模型的预测结果作为输人特征,采用CatBoost模型进一步预测供水量数据并得到最终的供水量预测结果。仿真实验结果表明:所提出的基于CatBoost的组合预测模型具有更好的预测精度,验证了该模型在城市供水量预测问题中的有效性。关键词:供水量预测;KNN算法;异常数据识别;CatBoost模型中图分类号:TP273文献标志码:B文章编号:10 0 7-7 32 4(2 0 2 3)0 5-0 0 10-
3、0 5Discussion on CatBoost Based Combined Forecasting Model of Water SupplyZhu Junjie,Ye Wenjing,Cao Cuiwen,Gu Xingsheng?(1.Shanghai Nanhui Tap Water Co.Ltd.,Shanghai,201399,China;2.Key Laboratory ofSmart Manufacturing in Energy Chemical Processes,Ministry of Education,East China University of Scienc
4、e and Technology,Shanghai,200237,China)Abstracts:How to reasonably arrange water resources and reduce the waste of water resourcesis a problem that need to be solved urgently.They are important research directions toaccurately forecast water supply and provide necessary data support for the formulat
5、ion ofwater supply system scheduling scheme.A combined forecasting model of water supply basedon CatBoost is established.The model identifies and corrects abnormal data based on KNNalgorithm to reduce the impact of abnormal data on the accuracy of the model;Then SVR,XGBoost,LightGBM and CatBoost mod
6、els are used to forecast the water supply data;In orderto integrate the advantages of each model and improve the accuracy of the model,the predictionresults of each single model are taken as the inputting characteristics,and the CatBoost basedmodel is used to further forecast the water supply data a
7、nd obtain the final forecasting results.The simulation results show that the proposed combined prediction model based on CatBoosthas better forecasting accuracy,which verifies the effectiveness of the model in the forecast ofurban water supply.Key words:water supply forecast;KNN algorithm;abnormal d
8、ata identification;CatBoost model中国淡水资源总量丰富但人均水资源不足,水质污染以及庞大人口基数等因素使得国内的水资源供需关系日益紧张,因此,做好水资源的规划和管理势在必行。短期供水量预测模型是指在地区历史供水数据和发展趋势的基础上,根据历史数据预测未来的供水量,短期供水量预测模型可以为供水系统制定合理的供水调度方案提供必须的理论数据基础。传统的供水量预测模型主要依靠经验公式和统计方法,如回归分析模型和时间序列模型2 等,该类方法在数据充足、变化较为平稳的情况下能够得到较为准确的预测结果,但在供水系统变化复杂的情况下预测能力受到限制,无法进行精确预测则3-41。
9、近年来,研究学者开收稿日期:2 0 2 3-0 5-2 2。基金项目:国家自然科学基金项目(6 197 312 0)。作者简介:朱俊杰(198 9),男,上海人,2 0 18 年毕业于华东理工大学控制工程专业,获硕士学位,现就职于上海南汇自来水有限公司,主要从事水处理及智慧水务工作,任助理工程师。的输入特征。qv-24x+0 qv,qv,-24x-2 qVv-2x7-1 qV,。为模型1V,-24X1+9YV(-24X1YVt-24X1+10YVt-24X7+1(YVi-24X7第5期11朱俊杰等.基于CatBoost的供水量组合预测模型探讨始利用人工智能和机器学习技术改进供水量预测模型,如人
10、工神经网络模型5、支持向量机模型6 、支持向量回归模型7 等。目前,在供水量预测问题中基于神经网络模型和机器学习模型的研究最多并取得了一定的成果8-9针对目前的供水量预测模型在数据波动剧烈时预测效果较差的问题,本文在已有研究基础上,提出了基于CatBoost的城市供水量组合预测模型。该模型采用K近邻算法(KNearest NeighborKNN)10对供水量异常数据识别和校正后,采用先进的支持向量回归(SVR)11,极端梯度提升算法(XGBoost)12,轻量级梯度提升机(LightGBMI)13和CatBoost14模型预测供水量数据;为了融合各模型的优点并提高模型的预测精度,将各单一模型的
11、预测结果作为输入特征,采用CatBoost模型对供水量数据进行进一步预测并得到最终的供水量预测结果。与其他模型的对比仿真实验表明,该模型可以获得更高的预测精度和更好的预测效果。1相关模型原理1.1KNN算法KNN算法是一种简单的机器学习算法,常用于分类和回归问题中,该算法检测异常数据的原理:首先计算一个样本与其他所有样本之间的距离并找到离它最近的k个样本,随后计算该样本点与k个样本的平均距离,根据平均距离与值的比较结果判断该数据是否是异常数据,如果平均距离大于阈值,则认为该样本是异常样本,否则为正常样本。KNN算法不需要假设数据的分布,在低维数据的异常数据识别中效果显著,广泛应用在故障诊断等领
12、域中,1.2CatBoost模型2017年Yandex首次提出CatBoost模型14CatBoost模型是一种基于梯度增强决策树(GBDT)的新型改进机器学习类模型,与GBDT模型相比,CatBoost模型使用了Ordered Boosting方法并采用对称树作为基树模型;与基于二叉树作为基模型的模型相比,CatBoost可以更好地改善模型的预测性能并且在一定程度上弱化GBDT模型容易过拟合的问题。相比于传统的GBDT模型,CatBoost模型具有更高的预测精度和更好的泛化能力,并已在诸多领域中得到了应用,但该模型还未在供水量预测问题中得到应用。2基于CatBoost的城市供水量组合预测模型
13、2.1异常数据识别在供水系统中,供水量数据的监测和记录过程会受到多种人为和环境因素的影响,如人为误操作、设备故障、水源质量变化等,从而导致数据出现异常。异常数据会扰乱正常数据的分布规律,降低模型的预测精度,甚至产生不合理的预测结果。因此,在进行供水量预测前对历史供水量数据进行异常数据识别检测是必要的。本文基于时供水量数据的周期变化特点,将供水量数据分为2 4个子集,在每个子集中分别使用KNN算法检测识别异常数据,并校正异常数据采用该时刻以往1周内的平均值。2.2输入特征选择分析和选择模型的输人特征并使用强相关输人特征有利于提高模型的预测准确性并减少建模时间。以往研究表明,使用历史供水量数据作为
14、输人特征可以建立准确的供水量预测模型15,因此本文也采用历史供水量数据作为组合模型的输人。在(qV(-24x7-10q24X7-QV(-24X7+9247+10(qvi-24xI-10qV,24x1+g qv-24x1+1024X1-9(qv-10,以及时刻t中使用随机森V林算法筛选出相关性最强的10 个输人特征,其中qv,表示时刻t的供水量。根据重要性得分最终选择2.3组合模型建模步骤组合模型的建立主要包括异常值处理、单一模型预测和组合预测三个部分,组合模型的结构如图1所示,主要的建模步骤如下:历史供水量数据异常数据识别与校正输入特征筛选CatBoostSVRXGBoostLightGBM预
15、测预测预测预测CatBoost进行组合预测输出各时刻供水量预测值图1组合模型结构示意1)根据时刻特征,将供水量数据分为2 4个子集并分别采用KNN算法识别和校正异常数据。2)采用随机森林算法筛选出相关性最强的12第59 卷石油化工自动化10个输人特征,并将供水量数据划分为训练集和测试集。3)利用训练集数据分别训练SVR,XG Bo o s t,LightGBM和CatBoost模型并预测供水量数据。4)为避免组合模型中各比例参数选择的不合理,将上述4个模型的预测值和时刻t作为输人特征,真实供水量数据作为输出值,采用CatBoost模型进行训练并得到最终的供水量预测结果。2.4超参数调优超参数的
16、选择对模型的性能至关重要,历史供水量数据中的异常数据量数目未知,因此KNN算法中异常数据比例需要人为设定,异常数据比例分别尝试设置为0.0 10.0 2,0.2 0。SVR模型采用随机搜索方法对超参数进行寻优调整;XGBoost,LightGBM,CatBoost 模型使用 Optuna优化框架对每个模型的重要超参数进行参数调整和确定。2.5评价指标本文使用平均绝对百分比误差(eMAPE)、均方根误差(eRMSE)、绝对平均误差(eMAE)以及R作为模型预测评价指标,4种指标的计算如式(1)式(4)所示:yieMAPEX100%(1)NyieRMSE(2)1NeMAE(3)N=1NZ(y;-p
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CatBoost 供水 组合 预测 模型 探讨
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。