基于XGBoost算法的近紫外通道地表反射率模拟_奥勇.pdf
《基于XGBoost算法的近紫外通道地表反射率模拟_奥勇.pdf》由会员分享,可在线阅读,更多相关《基于XGBoost算法的近紫外通道地表反射率模拟_奥勇.pdf(8页珍藏版)》请在咨信网上搜索。
1、测绘通报2023 年第 6 期引文格式:奥勇,李红丽,张文娟,等 基于 XGBoost 算法的近紫外通道地表反射率模拟J 测绘通报,2023(6):68-74 DOI:10 13474/j cnki11-2246 2023 0170基于 XGBoost 算法的近紫外通道地表反射率模拟奥勇1,李红丽2,3,张文娟3,秦梦2,3(1 长安大学土地工程学院,陕西 西安 710054;2 长安大学地球科学与资源学院,陕西 西安 710054;3 中国科学院空天信息创新研究院,北京 100094)摘要:紫外谱段在全球极光探测、海洋溢油、大气辉光等领域具有重要应用价值,其地表反射特性是研究中的重要背景数据
2、,但现有卫星数据资源较少,难以满足应用需求。针对这一问题,本文提出了基于机器学习 XGBoost 算法的近紫外(350400 nm)通道地表反射率数据模拟方法。首先,选取 Sentinel-2 MSI 2、3、4 通道多光谱数据为数据源,结合其通道特点基于 USGS 地物光谱数据库获取植被、水体、土壤等典型地物光谱数据,并等效计算到相应通道。其次,对数据源和待模拟通道开展相关性分析,Sentinel-2MSI 2、3、4 通道与待模拟通道相关系数均大于 0.88,这表明基于该数据源可开展近紫外地表反射率数据模拟。然后,基于等效计算后的典型地物光谱数据集,利用 XGBoost 算法构建近紫外通道
3、地表反射率回归模型。精度分析结果表明,所有通道模型决定系数(R2)均达到 0.91 以上,均方根误差(RMSE)均小于 0.076,平均绝对误差百分比(MAPE)整体在 20%以内,且上述 3 个精度指标针对不同类别样本的标准差在 0.021 2 范围内,可见模型精度较高,同时具有良好的稳健性。最后,基于 Sentinel-2 MSI 2、3、4 通道图像数据,生成 355、365、375、385、395 nm 的地表反射率模拟图像,图像较好地体现了地物光谱特性。关键词:近紫外;地表反射率模拟;机器学习;XGBoost中图分类号:P237文献标识码:A文章编号:0494-0911(2023)0
4、6-0068-07Near-ultraviolet channel surface reflectance simulation based onXGBoost algorithmAO Yong1,LI Hongli2,3,ZHANG Wenjuan3,QIN Meng2,3(1 School of Land Engineering,ChangAn University,Xian 710054,China;2 School of Earth Science and Resources,ChangAn University,Xian 710054,China;3 Aerospace Inform
5、ation Research Institute,Chinese Academy of Sciences,Beijing 100094,China)Abstract:The ultraviolet spectrum has significant applications in the fields of global auroral detection,marine oil spill,atmosphericglow,etc Surface reflectance is important background data in the research However,the existin
6、g satellite data resources are relativelyinsufficient to meet the application needs In this study,a machine learning-based on XGBoost algorithm is proposed for simulatingsurface reflectance data in the near-ultraviolet(N-UV)(350400 nm)spectral channel Firstly,Sentinel-2 MSI 2,3 and 4 channelsare sel
7、ected as the data source and the spectral of vegetation,water,soil and other typical features are extract based on the USGSspectral database,then equivalently calculated to the corresponding channels Secondly,the correlation analysis between the data sourceand the channel to be simulated is carried
8、out The correlation coefficients between Sentinel-2 MSI 2,3 and 4 channels and thechannels to be simulated are all greater than 0.88,which indicates that the N-UV surface reflectance simulation can be carried outbased on this data source Thirdly,based on the typical spectral data set after the equiv
9、alent calculation construct XGBoost regressionmodel to simulate the N-UV channel surface reflectance Results indicate that the coefficient of determination(R2)of all the channelmodels is above 0.91,the root mean square error(RMSE)is less than 0.076,the mean absolute error percentage(MAPE)is within20
10、%,and the standard deviation of the above three accuracy indicators for different categories of samples is within 0.0212,which showsthat the model has high accuracy and robustness Finally,based on the Sentinel-2 MSI 2,3 and 4 channels image data,the simulatedimages of surface reflectance at 355,365,
11、375,385 and 395 nm are generated,and the images better reflect the spectral characteristics ofthe surfaceKey words:near-ultraviolet;surface reflectance simulation;machine learning;XGBoost自 20 世纪 60 年代以来,对地观测卫星为国土资源调查、农作物估产、土壤研究提供了强有力的86收稿日期:2022-11-10;修回日期:2023-04-20基金项目:中国科学院青年创新促进会资助项目(2019132)作者简
12、介:奥勇(1965),男,博士,副教授,研究方向为遥感科学与技术、地理信息系统。E-mail:aoyong chd edu cn通信作者:张文娟。E-mail:zhangwj aircas ac cn2023 年第 6 期奥勇,等:基于 XGBoost 算法的近紫外通道地表反射率模拟数据支撑1。其中,近紫外谱段被广泛应用于水色遥感2、海洋溢油监测3 及全球气候变化4-5 等领域,这主要是由于该谱段大气辐射传输过程中臭氧等大气分子表现出强散射特性6。但该波段有一定的太阳辐射穿过大气到达地表,产生的地表背景辐射为大气等相关研究带来不确定性,因此需研究近紫外通道地表背景辐射特性。目前,国内近紫外谱段
13、卫星主要有高分五号(GF-5)卫星上搭载的我国首颗紫外-可见光波段大气痕量差分吸收光谱仪(EMI)7 及 HY-1C/D 卫星上搭载的紫外成像仪8,它们主要监测大气污染气体、海洋气溶胶等,对地表探测的卫星较少。鉴于现有卫星难以满足需求,本文围绕谱段范围为 350400 nm 的近紫外波段,开展地表背景辐射数据模拟研究。地表背景辐射数据模拟包括地表反射率和发射率数据的模拟,其研究方法可分为 3 种9:基于物理模型的方法,其联合地物理化性质与辐射传输模型,实现对地表背景辐射数据的模拟,如针对植被的冠层辐射传输模型 PROSAIL10。该方法在地表参量和观测数据之间具有明确的因果关系,可解释性强。然
14、而,针对不同的地物该方法需建立新的模型,在实际应用中实施难度大。基于光谱混合模型的方法,该模型主要利用现有光谱库或图像中的端元光谱,结合光谱混合模型反演端元丰度,进而实现对地表背景辐射数据的模拟11。与基于物理模型的方法相比,光谱混合模型无须获取大量的目标参量,但该模型需要根据特定的遥感图像逐步进行端元光谱选择、端元丰度反演,进而实现图像模拟,模型可迁移能力弱,限制了其在不同场景下的应用。基于光谱通道相关性的方法,以典型地物光谱数据为基础,利用待模拟通道与相邻数据源通道之间的光谱相关性,构建两者的线性或非线性回归关系。上述 3 种方法中,基于物理模型和基于光谱混合模型的模拟方法主要针对可见光或
15、红外波段的图像进行地表背景辐射数据模拟,但近紫外波段图像稀缺,限制了其在该波段的深入研究。而基于光谱通道相关性的方法独立于图像数据,利用典型地物相邻波段的光谱相关性,建立近紫外与邻近通道之间的回归关系,实现该波段地表反射率的模拟。但该方法基于传统的线性回归模型,易受多重共线性影响,导致难以模拟复杂的数据和非线性关系12。近年来,基于机器学习算法的极端梯度提升(extreme gradient boosting,XGBoost)回归模型已成为遥感领域解决问题的主要手段13。该算法的正则项等技术可有效避免模型的过拟合,从而增强模型的泛化能力14,已在各种遥感参数估计方面取得了较好的应用效果,具有高
16、精度、高时效、高稳健的特点15-16。鉴于此,本文基于 USGS(United StatesGeological Survey),地物光谱库数据,采用机器学习XGBoost 回归模型,对光谱覆盖范围为 350400 nm的近紫外通道构建地表反射率回归模型,以期为相关研究提供数据支撑。1数据准备与预处理考虑 到 高 光 谱 数 据 的 光 谱 分 辨 率 一 般 为10 nm,选择中心波长为 355、365、375、385、395 nm的 5 个近紫外(S1S5)通道作为模拟通道,针对性开展地表反射率模拟研究,通道设置见表 1。针对上述待模拟通道,首先选取合适的卫星数据源;然后结合通道范围设置,
17、开展地物光谱数据的采集、整理与预处理,从而为后续的模型构建提供数据。1.1卫星数据及地物光谱数据选取本文选取 Sentinel-2 搭载的 MSI 传感器 2、3、4波段作为数据源通道,其中心波长分别为 492.4、559.8、664.6 nm,与近紫外 S1S5 模拟通道相邻(见表 1)。此外,Sentinel-2 卫星的地表反射率产品为后续近紫外 S1S5 通道地表反射率图像模拟提供了数据保障。由此可见,Sentinel-2 MSI 的 2、3、4波段非常适合作为近紫外地表反射率模拟的数据源。表 1Sentinel-2 MSI 数据源通道与近紫外模拟通道的光谱覆盖范围nmSentinel-
18、2 MSI 数据源通道近紫外模拟通道波段中心波长波段中心波长band 2492.4S1355band 3559.8S2365band 4664.6S3375S4385S5395针对上述数据源与模拟通道的波段设置,首先需开展覆盖其通道范围的地物光谱数据收集。本文基于美国地质调查局(USGS)光谱库进行数据获取整理。USGS 光谱库涵盖了紫外到远红外(200200103nm)的波长范围,包含多种自然界常见地物,可为近紫外通道的地表反射率模拟提供类型丰富的地物光谱数据。构建光谱范围为 350700 nm的地物光谱库,称为近紫外-可见光地物光谱库(如96测绘通报2023 年第 6 期图 1 所示),涵
19、盖了人工地物、植被、干植被、土壤、矿物、水体、冰雪等 75 种地物类别,共 520 条地物反射率光谱曲线。由图 1 可以看出,在近紫外模拟通道 350400 nm 覆盖范围内植被和水体的反射率较低,大部分分布在 0.05 左右;人工地物、土壤、矿物及冰雪等地物类型较为复杂,其反射率范围基本覆盖 01。由此表明,该库地物类型丰富,构建的模型具有一定的地表普适性。图 1350700 nm 范围内各种典型地物的光谱曲线1.2光谱辐射等效计算针对上述典型地物光谱,基于 XGBoost 进行模型构建时,还需使其波长设置与待模拟和数据源通道保持一致。遥感器的光谱响应特性是利用光谱响应函数(spectral
20、 response function,SRF)进行表征,它反映了某个通道所对应的谱段范围及该范围内每个波长处的辐射响应情况。本文利用 SRF 进行地物光谱的等效计算。Sentinel-2 卫星数据在卫星发射前实验室内进行了光谱响应的详细标定,作为重要辅助参数可公开获取。其中本文所使用的数据源通道 MSI 2、3、4 波段光谱响应曲线如图 2 所示。本文待模拟的近紫外 S1S5 通道光谱分辨率为 10 nm,参考高光谱遥感器的设置,其光谱响应函数符合正态分布,可利用高斯函数构建17,计算公式为SRF(i)=e(i0)22(1)式中,0为遥感器中心波长值;SRF(i)为在波长i处的光谱响应值;为高
21、斯函数标准差。由于 SRF 最大时的半高全宽(full width at halfmaximum,FWHM)为光谱分辨率,因此光谱分辨率FWHM=2 2 ln2,因此基于光谱分辨率可计算得到函数标准差。本文光谱分辨率为 10 nm,依据式(1)计算得到的 5 个近紫外波段的光谱响应函数如图 3 所示。图 2MSI 2、3、4 波段光谱响应函数图 3近紫外 S1S5 通道模拟的光谱响应函数072023 年第 6 期奥勇,等:基于 XGBoost 算法的近紫外通道地表反射率模拟基于数据源和模拟通道的 SRF,可将近紫外-可见光地物光谱反射率等效计算到数据源通道和模拟通道,得到各通道的等效地表反射率
22、 i,计算公式为i=21SRF(i)Rrs(i)d21SRF(i)d(2)式中,i为数据源通道和模拟通道的等效地表反射率;SRF(i)为 1,2范围内卫星传感器的 SRF;Rrs(i)为 1,2范围内近紫外-可见光光谱库中的地物光谱反射率。2通道相关性分析2.1Pearsons 相关性分析线性相关分析是用于衡量两个变量间是否存在线性相关关系及线性关系密切程度的统计分析方法。通过计算 Pearsons 相关系数衡量各模拟通道与各数据源通道之间的相关性18,计算公式为r=Ni=1(X1i?X1)(X2i?X2)Ni=1(X1i?X1)2Ni=1(X2i?X2)2(3)式中,X1i、X2i为各通道的
23、第 i 个样本值;N 为样本数量。r 的取值范围为(1,1),值越大说明两变量的相关性越强。若 r 0,表明两变量为正相关关系;若 r 0,表明两变量为负相关关系。2.2相关性结果分析针对数据源和模拟通道的等效地表反射率,进行 Pearsons 相关性分析,结果见表 2。可以看出:表 2数据源通道与模拟通道间的相关系数MSI 数据源通道近紫外 S1S5 模拟通道S1S2S3S4S5band 20.956 10.962 10.968 70.975 40.982 7band 30.932 30.938 20.944 90.951 90.959 4band 40.887 10.894 50.902
24、80.911 40.920 0(1)band 2、band 3、band 4 与近紫外 S1S5 模拟通道之间具有高度的正向线性相关性。相关系数绝大部分大于 0.9,最小值为 0.887。(2)band 2、band 3、band 4 与近紫外 S1S5 模拟通道的相关性依次增强。其中 S5 通道相关系数高达0.98,这主要是由于其对应中心波长395 nm 与Sentinel-2 MSI 各通道的波长设置最为接近。(3)band 2 与各模拟通道的相关性最强,其相关系数均大于 0.95。与 band 2 通道相比,band 4 与各模拟通道的相关性最弱,其相关系数约下降了0.07,但仍大于 0
25、.88。这表明,MSI 2、3、4 数据源通道均与各模拟通道之间存在强光谱相关性。基于上述分析可知,Sentinel-2 MSI 的 2、3、4 通道可作为数据源,对近紫外 S1S5 的地表反射率进行模拟。3近紫外模拟通道模型构建3.1XGBoost 机器学习算法XGBoost 是一种基于决策树的集成式梯度提升算法14。它基于增强集成技术结合一组弱学习器,通过多次迭代生成一个强学习器。在训练过程中,首先使用整个数据集拟合一个学习器;然后添加第2 个学习器,拟合前一个学习器的残差,重复训练过程,直至满足训练标准;最后将每个学习器的预测值之和作为最终预测结果。该算法的基本原理是通过最小化目标函数获
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 XGBoost 算法 紫外 通道 地表 反射率 模拟 奥勇
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。