基于机器学习的金属有机框架吸附水中重金属性能预测_姜明星.pdf
《基于机器学习的金属有机框架吸附水中重金属性能预测_姜明星.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的金属有机框架吸附水中重金属性能预测_姜明星.pdf(9页珍藏版)》请在咨信网上搜索。
1、中国环境科学 2023,43(5):23192327 China Environmental Science 姜明星,王斯坦,许端平.基于机器学习的金属有机框架吸附水中重金属性能预测 J.中国环境科学,2023,43(5):2319-2327 Jiang M X,Wang S T,Xu D P.Prediction of adsorption performance of MOFs for heavy metals in water based on machine learning J.China Environmental Science,2023,43(5):2319-2327 基于机器
2、学习的金属有机框架吸附水中重金属性能预测 姜明星,王斯坦*,许端平(辽宁工程技术大学环境科学与工程学院,辽宁 阜新 123000)摘要:为了能准确预测金属有机框架材料(MOFs)对水中重金属的吸附性能,收集了 48 篇文献中的 MOFs 结构特征和成分特性,以及吸附水中重金属的实验参数建立数据集,训练并评价了 6 种回归模型,包括支持向量回归(SVR)、K-最近邻(KNN)、提升法(AdaBoost)、梯度提升树(GBDT)、随机森林(RF)和袋装法(Bagging).结果表明:基于树的集成学习模型的预测性能表现优异,其中以 GBDT 算法训练的模型性能最佳;进一步应用该模型,证明了机器学习方
3、法可以准确预测 MOFs 对水中重金属的吸附性能;排列重要性与部分依赖图(PDP)显示,除了可控的实验参数外,影响吸附量的重要因素是 MOFs 的孔径、比表面积、孔体积.本研究中的方法不仅能预测 MOFs 结构和性能的关系,还可以基于有效的实验参数模拟水中重金属的去除,进而为吸附材料的筛选优化提供参考.关键词:水处理;机器学习;金属有机框架;重金属吸附;预测模型 中图分类号:X703 文献标识码:A 文章编号:1000-6923(2023)05-2319-09 Prediction of adsorption performance of MOFs for heavy metals in wa
4、ter based on machine learning.JIANG Ming-xing,WANG Si-tan*,XU Duan-ping(College of Environmental Science and Engineering,Liaoning Technical University,Fuxin 123000,China).China Environmental Science,2023,43(5):23192327 Abstract:In order to accurately predict the adsorption performance of MOFs on hea
5、vy metals in water,the structural and compositional features of MOFs as well as their experimental parameters for adsorption of heavy metals were extracted to build a dataset,which were collected from the experimental results of 48 published papers.Six regression models were trained and evaluated,in
6、cluding SVR,KNN,AdaBoost,GBDT,RF and Bagging.The results showed that the tree-based ensemble learning models exhibited excellent prediction performance.Especially,the GBDT was determined as the optimal algorithm.With the further application of the model,it is demonstrated that the machine learning m
7、ethod can accurately predict the adsorption performance of MOFs for heavy metals in water.The feature importance ranking(FIR)and partial dependence plots(PDP)analyses revealed that,besides the controllable experimental parameters,the pore size,specific surface area and pore volume of MOFs were the k
8、ey factors affecting the adsorption capacity.The method in this study not only predicts the structure-performance relationships,but also simulates the removal of heavy metals in water based on effective experimental parameters,which could provide guidance for screening and optimization of adsorbent
9、materials.Key words:water treatment;machine learning;metal-organic frameworks;adsorption of heavy metals;prediction model 化学密集型行业会排放大量受重金属污染的废水,这些废水进入水环境后会严重危害水生态系统,也时刻威胁着人体的健康,吸附法是处理重金属废水的有效途径之一1.金属有机框架材料(MOFs)因其大比表面积和高孔隙率,可调的孔径,良好的拓扑结构,功能可控性等优点,在吸附重金属领域受到科研者的广泛关注2.近年来,实验室制备的 MOFs数量呈现爆发式增长,不仅在吸附气体领
10、域被广泛研究3,而且在吸附水中污染物方面的研究也初具规模,例如吸附水中抗生素4和重金属5-7.然而,理论上通过改变有机配体和金属节点可以合成无限多种MOFs材料8,基于大量的人工实验来探索吸附剂的吸附性能,效率较低.因此,能够快速预测 MOFs 吸附水中重金属性能的方法应运而生.数据驱动的机器学习(ML)因其较少地依赖先验知识,具有低计算成本与强大的预测能力等优点,在解决复杂的大数据集面前展现出了广阔前景.在环境科学领域,数据分析工具和环境监测技术发展迅速,产生的数据量与复杂性不断提高,给 ML 的应用提供了条件9.近年来,ML 已在环境功能材料筛 收稿日期:2022-09-13 基金项目:国
11、家重点研发计划项目(2019YFC1803800);辽宁省教育厅科学研究项目(LJ2019QL009)*责任作者,副教授, DOI:10.19674/ki.issn1000-6923.20230116.0032320 中 国 环 境 科 学 43 卷 选 10、预测大气污染11-13、气体吸附14、探索吸附机理15、模拟水中污染物的去除等方面展现出极大的发展潜力16.但 ML 在吸附科学中的应用仍处于初级阶段,特别是在预测 MOFs吸附水中重金属性能,进而发现性能良好的吸附材料方面鲜见报道.因此,本研究采用纯数据驱动的ML方法,以收集的(48 篇文献中的)MOFs 结构特征和成分特性,以及吸附
12、水中重金属时的实验参数作为数据来源,训练并评价了 6 种回归模型,即支持向量回归(SVR)17、K-最近邻(KNN)18、提升法(AdaBoost)19、梯度提升树(GBDT)20、随机森林(RF)21和袋装法(Bagging)22.进一步分析影响因素,预测 MOFs 对水中重金属的吸附性能,以期探索到能准确预测吸附性能的最佳 ML方法,辅助科研,进而为大量MOFs吸附水中重金属的筛选优化提供参考.1 数据与方法 1.1 数据收集 如图 1 所示,文献数据主要来自数据库(如Science Direct、Web of Science、ACS publications等).收集了在过去 10 年中
13、的 48 份同行评议出版物,并初步提取了 1870 个数据点.该数据集涉及基MOFs、改性功能化、复合等共 87 种 MOFs 材料去吸附 8 种不同价态的重金属(Cr()、Cr()、Pb()、Cd()、Cu()、As()、As()、Hg(II).图 1 工作流程 Fig.1 Machine learning workflow 表 1 特征名称缩写 Table 1 Abbreviations of feature names 释义 缩写 释义 缩写目标重金属 TgMet 孔体积(cm3/g)PV 配位金属 MT 污染物浓度(mg/L)CI 有机配体 OL 吸附剂剂量(mg/L)AD 改性方法
14、ModM 反应时间(min)t 比表面积(m2/g)SA pH 值 pH 孔径(nm)PS 反应温度(K)Tem 该数据集以吸附量(Q)为预测目标,单位 mg/g.收集的 12 个特征如表 1,大致分为 3 类:(1)吸附剂性质,例如配位金属(MT)、有机配体(OL)、改性方法(ModM)、比表面积(SA)、孔径(PS)、孔体积(PV);(2)实验参数,例如污染物浓度(CI)、吸附剂剂量(AD)、反应时间(t)、pH 值(pH)、反应温度(Tem);(3)目标重金属(TgMet).因为不同研究数据的不一致性,在数据收集过程中纳入了以下假设和策略:(1)收集的所有数据都是被无偏接受的;(2)所有
15、这些数据点都是直接从文献的图表或文本中收集的;(3)对于表中未直接列出或未以文本形式详细说明的数据点,使用Web Plot Digitizer 软件从图形中提取以获取必要的数据,所有值都经过仔细筛选.1.2 数据预处理 图 2 不同方法插补的数据集建模后的预测精度 Fig.2 Prediction accuracies after modeling of data sets interpolated by different methods 对 1870 个数据点进行了全面筛选,采用有代表5 期 姜明星等:基于机器学习的金属有机框架吸附水中重金属性能预测 2321 性的样本,然后对整个数据集检
16、索重复样本进行剔除操作.数据集被组织成 1469 行 13 列,对于特征 pH 值的缺失值默认为7,Tem 的缺失值默认为298K.剩下6个变量存在部分缺失值,按缺失值占比大小排列依次是 PV、PS、SA、CI、AD 和 t,分别占 29.75%、24.23%、5.92%、2.18%、0.48%、0.48%.然后分别使用均值插补、多变量插补、KNN 插补、RF 插补 4 种缺失值插补方法插补数据,通过 AdaBoost 算法对插补后的数据集进行建模,用平均绝对误差(MAE)评估预测精度,筛选出最优插补方法.如图 2 所示,用 RF 方法插补的数据集拥有最小的平均绝对误差,说明性能最好,本研究将
17、使用 RF 方法插补缺失值后的数据集.为了解决定量变量不同量纲对模型预测性能的影响,在模型训练前对所有样本进行了标准化处理.为适用 ML建模,提前对定性变量进行标签编码.1.3 统计分布与特征分析 1.3.1 统计分布 经过数据预处理,最终完整的数据集由 1469 行和 13 列组成.ML 应用中考虑的变量包括 MT、OL、ModM、SA、PS、PV、CI、AD、t、pH、Tem、TgMet 和预测目标 Q,数据集中用于预测的 12 个特征的统计分布信息如图 3(定量变量)和图 4(定性变量)所示.t(min)pH 值反应温度 图 3 定量变量的统计分布 Fig.3 Statistical d
18、istribution map of quantitative variables 其他其他 其他其他其他其他 图 4 定性变量的统计分布 Fig.4 Statistical distribution map of qualitative variables H2BDC:苯二甲酸及其衍生物;3A5MT:3-氨基-5-巯基-1,2,4-三氮唑;MMI:甲基咪唑;MSA:巯基琥珀酸;H3BTC 和 H3BTBA:苯三羧酸类化合物 1.3.2 相关性分析 针对回归模型中的多重共线性问题,即输入变量之间不应高度相关,通过计算数据集中定量变量之间的皮尔逊相关系数来度量相关程度23.图 5 展示了数据集中
19、所有定量变量的皮尔逊相关矩阵,其中吸附剂的比表面积与孔体积之间达到强相关性,如图 6 所示.在数据集的孔径特征变化不明显的情况下,孔体积越大意味着吸附剂拥有着高孔隙率进而拥有更大的单位比表面积,除此之外未观察到输入变量之间的强相关性.2322 中 国 环 境 科 学 43 卷 t t 图 5 定量变量间的相关性热力图 Fig.5 Thermal map of correlation between quantitative variables 图 6 MOFs 的比表面积和孔体积之间的关系 Fig.6 Scatter plot between specific surface area and
20、 pore volume of MOFs 1.3.3 特征重要性 本研究使用排列重要性来理解每个特征的重要程度.树模型基于基尼指数或熵选择分割节点,节点的最佳选择导致最小的基尼指数,在此基础上计算重要性得分24.排列重要性对理解每个特征对模型预测的重要程度提供了参考,但不利于进一步理解特征怎样影响目标变量.为此,通过部分依赖图(PDP)可视化较重要的特征如何影响目标变量,为 MOFs 吸附水中重金属的性能预测提供指导.PDP有一个回归函数,除了1个或2个目标特征外,PDP 可以将其它特征边缘化使得对 ML 预测不产生影响,进而针对目标特征提供敏感性分析25.1.4 研究方法 1.4.1 建模与
21、评价 对于提高 ML 模型的预测性能,其关键因素在于将其重要超参数调到最优26.为建立性能优越的预测模型,本研究将数据集分为训练集与测试集,80%的训练集用于训练模型并调整模型参数,20%的测试集用于评价模型性能.在模型调参时首先确定模型的参数空间,然后基于训练集使用网格搜索法27、10 折交叉验证确定最优超参数 28,即每次对具有不同超参数的 ML 模型进行训练和验证,得到模型的最优超参数组合.模型训练完成后,对测试集进行预测并通过拟合系数(R2)为模型打分,计算预测值与真实值之间的平均绝对误差(MAE)来评估预测精度.根据相关文献发现,在此类高维特征研究中线性 ML 算法的预测性能往往逊色
22、于非线性算法29.例如线性回归(LR),该算法对异常值较敏感,并且对高维特征无法反映其复杂关系,被认为是一种结构简单的算法30.因此,本研究使用了基于非线性核函数的 SVR、KNN 和基于树的集成学习算法AdaBoost、GBDT、RF、Bagging 共 6 种 ML 回归算法来训练预测模型.1.4.2 支持向量回归 支持向量回归(SVR)以训练集为数据对象,分析输入变量和连续型输出变量之间的关系,找到最大边界回归平面,以实现对新观测输出变量值的稳健预测.SVR 假设()f x与y之间的偏差在一个数值范围内,仅当大于时才计算损失 31.SVR 问题可形式化为:2?,11min()2iimii
23、w biC=+(1)()s.t.,iiif xy+(),iiiyfx+0,0,1,2,iiim=(2)式中:C 为正则化常数,i和i为松弛变量,m 为样本数,w 和 b 为待确定的模型参数.根据 KKT 条件,得到支持向量回归的形解:()()()1,miiiif xk x xb=+(3)式中:()()()T,iik x xxx=为核函数.1.4.3 K 最近邻 K 最近邻(KNN)是一种非参数算法,使用训练集中的 K 个近邻样本预测新的样本数据,对于回归问题,最终预测是 K 个最近邻的平均值 32.其应用欧几里得距离来确定样本的最近邻,数学表达式如下:5 期 姜明星等:基于机器学习的金属有机框
24、架吸附水中重金属性能预测 2323 ()()2Euclidean1,pijikjkkdXXXX=(4)式中:iX和jX是两样本观测点,p为维度,d为欧几里得距离.1.4.4 集成学习 集成学习通过建立多个基学习器来完成学习任务,本研究使用基于提升法的集成学习算法 AdaBoost、GBDT 和基于自主采样法的Bagging 和 RF.其中,基学习器的建立是使用决策树算法,决策树基于叶节点的推理规则能够实现对新数据的分类或回归预测.回归树主要指 CART 算法,为二叉树,采用递归二分策略划分区域,其在生长过程中通常采用方差作为测度输出变量异质性的指标31,33.回归树节点t的方差的数学定义为:(
25、)()()2211tNiitSty ty tN=(5)式中:()iyt为节点t中样本观测iX的输出变量值;()y t为节点t中输出变量的平均值.AdaBoost 算法根据初始训练集训练出一个基学习器,再根据其表现对样本权值调整,训练下一个学习器,如此循环迭代,直到达到预先指定的最大迭代次数.与前者不同的是,GBDT 迭代过程中基于损失函数采用梯度下降法找到最优模型.提升法的预测过程可表述为:()()()1bibibbifXfXGX=+(6)即 迭 代 次数 每 增 加 一 次,就 有 一 个 新 的 模 型()bbiGX加入进来参与预测,b为模型权重.Bagging 算法从数据集中有放回重采样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 金属 有机 框架 吸附 水中 重金属 性能 预测 明星
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。