基于CatBoost和XGBoost组合模型的水深反演.pdf
《基于CatBoost和XGBoost组合模型的水深反演.pdf》由会员分享,可在线阅读,更多相关《基于CatBoost和XGBoost组合模型的水深反演.pdf(5页珍藏版)》请在咨信网上搜索。
1、第43卷第3期2023年5月引文格式:曾书玉,谢涛,孔瑞瑶.基于CatBoost和XCBoost组合模型的水深反演J.海洋测绘,2 0 2 3,43(3):59-6 3.D01:10.3969/j.issn.1671-3044.2023.03.013海洋测绘HYDROGRAPHIC SURVEYING AND CHARTINGVol.43,No.3May.,2023基于CatBoost和XGBoost组合模型的水深反演曾书玉,谢涛12,孔瑞瑶1(1.南京信息工程大学遥感与测绘工程学院,江苏南京2 10 0 44;2.青岛海洋科学与技术国家实验室区域海洋动力学与数值模拟功能实验室,山东,青岛2
2、6 6 2 37)摘要:为获取高精度的水深信息以满足海洋研究各领域的需要,提出一种CatBoost和XGBoost模型组合的水深反演模型。选取Sentinel-2A卫星遥感数据,以瓦胡岛为研究区域,引入CatBoost和XCBoost模型,对二者进行线性组合,构建CatBoostXG Bo o s t 组合模型。实验结果表明:组合模型的决定系数、均方根误差、平均绝对误差以及平均相对误差分别为95.32%、1.2 9m、0.8 6 m、2 0.51%,与单一模型相比,组合模型的水深反演精度有一定提高。关键词:海洋遥感;水深反演;组合模型;CatBoost模型;XGBoost模型中图分类号:P23
3、71引言在海洋研究领域,获取水深信息是海上航行、海洋资源探测和环境保护等活动的基础。然而,在传统的船载水深探测中,船只难以到达某些特殊区域。而遥感探测具有成本低、覆盖广等优势,得以突破传统探测的局限性。多光谱遥感应用于水深反演的技术经历了长足的革新,时至今日有3种方法占主流1-2 。理论解析模型是利用辐射传输方程,建立辐亮度与水深之间的关系,然而该方法需要获取众多水体光学参数,获取过程过于复杂3。半理论半经验模型是先通过统计学方法得到一些参数,再利用理论模型辅助反演水深,但是精度有待提高4。近年来,基于机器学习的统计模型十分流行,这类模型是利用遥感数据与已知点水深值之间的统计关系对未知点的水深
4、值进行反演,模型构建较为简便,并且反演结果也有较高的可靠性。其中,在水深反演中,应用较为广泛的机器学习方法有BP人工神经网络(back propagation artificial neural network)、R BF神经网络(radial basis function neural network)、随机森林(random forest),反演精度较传统模型更高5-9O文献10 提出,单一模型侧重的信息不同,将多个模型进行组合可以更全面地利用信息,获得更优的预测结果。基于此思路,许多学者将多种经典机器学习方法组合应用于研究中1-13,预测精度较单一模收稿日期:2 0 2 2-12-0 7
5、;修回日期:2 0 2 3-0 4-19基金项目:国家重点研发计划(2 0 2 2 YFC3104900/2022YFC3104905);江苏省应急管理科技项目(YJGL-YF-2020-16);江苏省自然资源发展专项资金(海洋科技创新)项目(JSZRHYKJ202114)。作者简介:曾书玉(2 0 0 2-),女,湖北鄂州人,本科,主要从事海洋遥感研究。文献标志码:A文章编号:16 7 1-30 44(2 0 2 3)0 3-0 0 59-0 5型均有一定提升。基于机器学习的统计模型中,Boosting算法(提升方法)具有高效、参数少等优点。其中,CatBoost(c a t e g o r
6、 i c a l b o o s t i n g)模型能有效解决预测偏移问题14 ,XGBoost(extreme gradient boosting)模型精度高15。本文提出一种基于 CatBoost 和 XGBoost 的组合模型,以期结合两种模型的优势,提高水深反演精度,并将反演结果与单独使用Boosting算法的反演结果进行对比,评估组合模型的水深反演能力。2研究区概况与数据处理2研究区概况本文的研究区域位于瓦胡岛西南侧卡波雷里市附近。瓦胡岛地处美国夏威夷州,面积约为157 4km,位于2 115 N2145N,157 30 W 158 2 0 W之间。岛上地势起伏大,沿海地形复杂,全
7、年气候暖湿。2.2数据与预处理2.2.1多光谱遥感数据遥感数据采用了研究区域的Sentinel-2A卫星多光谱影像,成像时间为2 0 19年11月2 5日。卫星轨道高度为7 6 8 km,重访周期为10 天,获取图像的空间分辨率为10 m、2 0 m 和6 0 m,为方便后续操作将图像全部重采样为10 m空间分辨率。Sentinel-2A卫星使用的探测器是多光谱成像仪(MSI),拥有多个波段。利用Sen2cor插件,对卫星直接获取的数据进行大气校正,由L1C级数据生成L2A级数据16 602.2.2机载激光雷达数据研究区域的实测水深数据由机载SHOALS(scanning hydrograph
8、ic operational airborne lidarsurvey)系统采集得到。SHOALS 系统使用红、蓝光两种激光束对水深进行探测,探测深度最高可达50m,系统技术较为成熟。2.2.3潮汐数据由于本文采用的LiDAR测深数据获取的时间与遥感影像的成像时刻不同,所以要对LiDAR测深数据进行潮汐校正。将LiDAR测深数据加上瞬时潮高-0.0 5m,校正为多光谱遥感影像数据成像时刻的瞬时水深。3研究方法3.1CatBoost 模型CatBoost模型是一种梯度提升算法库,不易陷人过拟合问题,缓解了传统Boosting算法的预测偏移问题,泛化能力强。(1)减少过拟合问题。CatBoost模
9、型采用了完全对称树作为基模型,将树中每个叶子节点的索引编码为长度与树深度相等的二进制矢量,能够有效避免过拟合问题17 。(2)缓解预测偏移问题。CatBoost 模型对每一次迭代所需的无偏梯度估计进行建树,有效克服了预测偏移,同时也强化了模型的泛化能力。3.2XGBoost 模型XGBoost模型的主要思路是基于上一个学习器的结果和目标之间的偏差,生成下一个学习器,从而提高模型精度。该模型采用多个简单的基学习器,针对回归问题效果非常好。(1)拟合精度高。XGBoost模型利用二阶泰勒公式将损失函数展开,同时使用一阶导和二阶导,从而提高预测精度。(2)模型复杂度较低。XGBoost模型在梯度提升
10、树 GBDT(gradient boosting decision tree)的损失函数的基础上加入了正则化项,能够有效降低模型复杂度。3.3CatBoost-XGBoost 模型为了提高模型的水深反演能力,克服单一模型的局限性,本文在XGBoost模型的基础上引入CatBoost模型,提出了CatBoostXG Bo o s t 组合模型,表达式为式(1)。此组合模型不但拥有XGBoost模型精度高的优点,还继承了CatBoost模型不易过拟合的优点,弥补了XGBoost模型的预测偏移问题,强化了模型的泛化性能。CatBoost XG Bo o s t 组合模型对于单一模型的计算结果,进行加
11、权线性组合,海洋测绘以决定系数(R)为精度评价标准确定权重,建模流程见图1。随机选取样本点的8 0%作为模型的训练点,其余2 0%则作为测试点。CatBoost模型和XGBoost模型参数皆取初始值,利用训练点的多光谱影像所有波段的辐射亮度值和实测水深数据对模型进行训练,用测试点对模型进行精度评估。将两种单一模型的输出结果分别乘以权重w1、W2,其关系满足式(2),设w,初始值为1,w初始值为0,以一定的步长不断更新赋予两个单一模型的权重大小,并计算R,将反演精度最高的加权线性组合形式作为最终的组合模型。输人测试点辐射亮度值数据预处理XGBoost模型预测结果图1建模流程示意图组合模型的表达式
12、为:Z;=W,21;+W22i式中,Z,为组合模型反演水深值;z1VZ2i分别为CatBoost和XGBoost模型的反演水深值;W1、W2 分别为组合模型中CatBoost模型和XGBoost模型的权重系数,且满足式(2)。W,+W2=13.4精度评价本文涉及的精度评价指标有R、均方根误差(R M SE)、平均绝对误差(MAE)和平均相对误差(MRE)。R?=1-(3)RMSE=(4)nMAE=n第43卷GatBoost模型预测结果设置权重,输出组合模型计算决定系数否快定系数增大舍弃该组合模型保留该组合模型文是输出组合模型(1)(2)(5)第3期MRE=nZ式中,n为测试点个数;Z,为第i个
13、测试点的实际水深值与反演水深值之差;Z?为测试点实际水深值与其平均值之差;Z,为测试点实际水深值的平均值。R越高,说明反演结果越精确;RMSE、M A E、MRE越低,说明反演结果越精确。4结果与分析根据上述模型构建思路,绘制出组合模型决定系数随权重w,变化的曲线见图2。当w,取0.7 5、w取0.25时,组合模型的决定系数最大,也即水深反演结果的精度最高,此时组合模型的效果最优。0.952F0.9500.9460.0图2 决定系数与权重w,的变化关系示意图为了进一步评估组合模型的水深反演能力,本文分别计算了CatBoost、XG Bo o s t 和组合模型的4种精度指标,对比结果见表1。表
14、1各模型精度参数模型R/(%)RMSE/mCatBoost95.24XGBoost94.62组合模型95.32由表1可发现,3种模型的反演精度指标R均大于94%,反演得到的水深数据与实测的水深数据之间具有显著的相关性,表明CatBoost模型和XCBoost模型,以及CatBoost-XCBoost组合模型均适用于本研究区域的水深反演,具有较为理想的反演能力。CatBoost-XCBoost组合模型的R、R M SE、MAE3个指标的表现均是3种模型中最优的,分别为9 5.32%、1.2 9 m和0.8 6 m,仅在MRE上表现比XGBoost模型差,为2 0.51%。整体而言,CatBoos
15、t-XGBoost组合模型表现略优于另外两种单一模型,在该海域有更强的水深反演能力。图3(a)(c)分别为CatBoost模型、XGBoost模型、CatBoost-XGBoost组合模型的反演水深值与实测水深值的散点图,横轴为实测水深数据,纵轴为模型反演得到的水深数据,红色虚线为y=x参考线。3种模型的散点大体都集中在参考线附近,说明3种模型得到的反演结果均具有较强的可信度,模曾书玉,等:基于CatBoost和XCBoost组合模型的水深反演Z IAZ.0.20.41.301.391.2961型均具有一定的反演能力。图3(b)能够直观地看(6)出XGBoost模型的散点图较另外两个模型更为分
16、散,表明该模型在研究区域的反演能力略低于另外两种模型。其中,水深在10 m以内时,散点在参考线两侧聚集地尤为紧密,而组合模型图中的点则聚集得最为紧密,说明该水深范围内3种模型的反演精度均较高,并且组合模型的反演精度高于另外两者;而水深在10 2 0 m时,3种模型的表现均有所下降,其中XGBoost模型的散点聚集得最为松散、离参考线最远,CatBoost模型和组合模型的散点紧密程度与趋势性相当,略高于XCBoost模型;水深在20m以上时,3种模型图中的散点则普遍聚集得十分松散,偏差过大,反演结果非常不可信,模型的反演能力很弱。这种情况可能是由于随着水深的增加,水体对于可见光的吸收越来越强导致
17、遥感数据更难反映水深信息导致的。同时,随着水深的增加,散点更容易落到参考线以下,说明在水深较大时,3种模型均更倾向于低估水深。0.60.8MAE/mMRE/(%)0.8723.190.9413.290.8620.511.0WI301050030252015105003010500(c)Ca t Bo o s t-XG Bo o s t 组合模型图3反演水深与实测水深的散点示意图为更精确地测定不同水深范围内组合模型的反演精度,划分0 5、5 10、10 15、15 2 0、2 0 2 5m共5个水深区间,分别利用组合模型反演水深,计算预测精度,具体见图4。图中,折线直观地反映出在510m这个水深
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CatBoost XGBoost 组合 模型 水深 反演
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。