闽江流域水质预测模型研究.pdf
《闽江流域水质预测模型研究.pdf》由会员分享,可在线阅读,更多相关《闽江流域水质预测模型研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、闽江流域水质预测模型研究林闽微摘要:良好的水环境是人类社会经济可持续发展的前提和必备因素,在河流水环境不断被污染和破坏的前提下,水质的预测工作格外关键,并且对河流水环境的研究和维护具有重大的基础意义。使用XGBoost算法对闽江流域的水质进行预测。收集了大量的水质监测数据,并使用XGBoost算法,结合有效的数据预处理操作,对数据进行建模和分析。结果显示,XGBoost算法在水质预测方面具有很高的准确性和可靠性。关键词:水质预测;XGBoost算法;特征工程;建模分析一、前言随着社会的快速发展,工业生产排放的废水、日常生活排放的污水,及农业生产的化肥滥用、畜牧业养殖的废水等,都对自然环境的水质
2、造成了极大的危害。因此,加强水质监测和预测刻不容缓。良好的水质监测工作可以为监管部门提供更好的决策依据,踏踏实实地践行“绿水青山就是金山银山”的文明发展理念。二、闽江水域预测研究现状闽江是福建的母亲河,全长 562 公里,流域面积60,992 平方公里,约占福建全省面积的一半。加强对该水域的水质监测和预测,对福建省的健康发展和保障当地人民生活质量有着极其重要的意义。在过去的几十年中,许多学者和研究人员已经对水质进行了研究和探索,开发了各种模型和算法来预测水质变化。随着数据科学和机器学习的发展,越来越多的研究人员开始使用机器学习算法来预测水质1,从主流的 ARIMA 时间序列到一些常见的传统机器
3、算法,乃至深度学习算法层出不穷。然而,传统的 ARIMA 模型相对较为简单,所要求使用的历史数据是稳定的,或者通过差分处理后是稳定的,通过对数据进行差分、移动平均等操作,试图查找出历史数据的周期性和趋势,并剔除其中的噪音数据,完成对数据内在规律的分析及预测2。其本质是捕捉数据之间的线性关系,而无法获取内部的非线性关系,因此预测效果相对不够理想。在一些水系简单的河流区域,此种方法的预测精度也能满足要求。当下火热的神经网络算法,其预测精度相对更高,模型的鲁棒性更强,可以人为搭建各种复杂的非线性网络结构模型,理论上可以拟合出任意程度的非线性结果,但是对数据量的要求相对较多,否则容易导致模型过拟合的情
4、况3。同时,神经网络模型因为其庞大的计算量需要依赖于 GPU 来完成对数据的预测,以确保预测的实时性,这样无形中增加了模型部署时设备的投入成本。另外,该模型的可解释性较差,导致其在后期分析124信息系统工程学术研究问题时劣势比较明显,难以提供有效的针对性处理措施建议。对传统机器学习而言,其计算量相对神经网络模型少,因此对设备的要求相对不高。同时,传统机器学习所建立的模型,可以计算得到模型输入的各个变量的权重大小,从而大大有利于后期的分析,便于相关决策部门针对产生污染的相关因素采取针对性措施,这样不仅对水质进行预测,还可以进行预防,掌握监管的主动性4。XGBoost 算法模型从诞生以来就是各种竞
5、赛项目的“大杀器”,具有高效、灵活和轻便的特点,在数据挖掘、推荐系统等领域得到广泛应用。5因此,综合考虑,我们选择了以 XGBoost 算法为基础的传统机器学习模型,并结合我们自身的数据特征工程,以实现对水质进行高精度预测,从而对水质进行有效的管理和保护。三、数据采集和处理我们收集了近几年闽江某流域的一些水质监测站的记录数据,及各污染排放点的监控数据,用以尝试进行各个指标的排放数据预测。考虑到不同监测站所监测的指标类型不尽相同,为提升后期算法模型的自适应部署能力,我们考虑提取一些常见的公共预测指标进行事先设定。这样构建出来的模型,既能对某个指标类型完成更精确的预测,也能避免训练出一些无意义的模
6、型。同时,为了降低模型复杂度,我们随机选择了两个相邻的水质监测站及两监测站之间的污染排放点的监控数据,利用上游的水质监测站及两监测站之间的污染排放数据,来预测下游的水质监测站的水质指标。(一)数据的分组处理由于不同污染排放点所属的企业规模、产品等存在差异,各自的排放指标类型不尽相同,即有些企业的排放可能存在某个指标,而另外一些企业可能不存在该指标。且企业规模大小不同,所排放的数据量级也可能存在较大差异。因此,需事先对污染排放点的监测数据进行分组处理,获取属于相同企业的排放数据,以免在后期数据整合处理异常值和填充时造成错误。(二)数据的频率统一化处理由于发现水质监测站的监测频率与污染排放点的监测
7、频率不一致,我们对这些数据进行了初步预处理,以将这些数据同步到统一的频率记录,方便后期的数据整合。具体是对数据进行重采样操作,整合成统一频率后,再将这些不同来源的数据按照相同的时间点进行合并。重采样时,由于数据中存在一些异常数据,需事先将负值和异常值替换成空值,以免影响重采样的结果。(三)提取有效字段的数据在处理水质监测站的数据时,检查发现可能存在水质监测站因改造或设备更新,导致某些监测指标的增减情况,即前期建模时存在某个监测指标数据,而后期新数据无该监测指标数据。也可能存在前期建模时无某个监测指标数据,而后期新数据却存在监测数据。对于新数据的预测,则不能事先删除字段。因此,在前期建模时,可以
8、先删除无效字段(即无监测数据的字段),但后期新数据纳入预测时,应只将 0 和空白替换成空值,而不能随意删除字段。这样才能确保在数据建模时,所建模型为有效模型。在后期预测时纳入的数据,也只是选取与前期建模一致的字段数据。如预测时处理数据事先删除无用字段,会导致预测时的字段数量与模型的字段数量不一致,导致无法预测。(四)对数据缺失值和异常值的处理数据重采样后,如产生的新数值存在 0,需替换成空值。而对超过一定阈值的异常值,一般采用盖帽法,即将超出阈值的异常值直接重置为阈值。如将异常值直接替换成空值,会存在所有数据被替换成空值的情况。且部分字段的数据比较稀疏,且分布异常,替换成空值的操作容易导致数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 闽江 流域 水质 预测 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。