用于McIntosh分类的太阳黑子数据收集与实验验证.pdf
《用于McIntosh分类的太阳黑子数据收集与实验验证.pdf》由会员分享,可在线阅读,更多相关《用于McIntosh分类的太阳黑子数据收集与实验验证.pdf(16页珍藏版)》请在咨信网上搜索。
1、 .天 文 研 究 与 技 术 第 卷 第 期 年 月:./.用于 分类的太阳黑子数据收集与实验验证周美林 钟立波(.中国科学院大学 北京 .中国科学院光电技术研究所 四川 成都.中国科学院自适应光学重点实验室 四川 成都)摘要:作为预测太阳活动的重要依据 太阳黑子的麦金托什()分类由于其中某些类别与耀斑爆发有着紧密联系而应用广泛 随着数据量的快速增加 自动化进行太阳黑子的麦金托什分类已成为迫切需求 使用太阳动力学观测站()上的日震与磁场成像仪()提供的()系列数据产品和美国国家海洋和大气管理局()提供的太阳区域摘要()信息作为用于麦金托什分类的图像数据来源和标签数据来源 首先在仅有 年数据
2、数据库基础上进行扩充 建立一个完整太阳周期(时间跨度为 年)且经过数据清洗的有效太阳黑子 数据库 其次根据太阳黑子图像的特征 采取一系列如按活动区分配数据等预处理操作 并证明其科学性和必要性 最终使用卷积神经网络()中 种经典的分类神经网络模型将 和 进行麦金托什()分类对比实验 实验结果表明 相比于 除了数据量有显著提高同时有效样本的加入和无效样本的清洗使得大部分类别的加权 分数有所提升 少类的加权 分数实现 的突破 其中 的加权 分数整体提升最大 验证了建立完整可靠的数据库和使用科学合理的实验方法的有效性 能较好实现自动化且端到端地处理实际观测到太阳黑子图像的麦金托什分类任务关键词:太阳黑
3、子 分类 卷积神经网络 数据集中图分类号:文献标识码:文章编号:()太阳活动中耀斑爆发可以引起空间环境变化 对人类活动产生巨大的影响 而国际上公认且应用广泛的麦金托什分类中较为复杂的太阳黑子类别 与耀斑爆发有着紧密联系 因此 太阳黑子的麦金托什分类可以作为预测太阳耀斑的重要依据 同时由于快速增长的数据量 如何高效对太阳黑子自动进行麦金托什分类已成为太阳物理领域的迫切需求太阳黑子麦金托什分类主要经历了从专家手动、图像处理到深度学习方法 以往麦金托什自动分类方法由于主要使用全日面图像将分类任务分成太阳黑子识别、聚类/分组、分类等任务分步进行 其中分类任务主要根据 分类规则作为决策树的决策标准完成
4、但前期需要大量专家提取数据特征 实际操作复杂且精度较低 年 文建立决策树进行/分类 用简单的全连接神经网络模型完成 分类 前期同样需要大量专家手动依次提取图像中黑子群的特征并以此作为决策树或神经网络的输入 最终结果往往受聚类算法和类别不均衡影响 导致部分类别精度几乎为 此外 由于使用数据的时间跨度远远短于 年太阳黑子周期(太阳黑子的活动变基金项目:国家自然科学基金()中国科学院青年创新促进会()中国科学院光电技术研究所前沿研究基金()资助.收稿日期:修订日期:作者简介:周美林 男 硕士 主要研究太阳黑子图像处理.:.通信作者:钟立波 女 副研究员 主要研究太阳活动区自适应光学图像事后处理技术.
5、:.天 文研究与技术 卷化规律具有 年的周期性 本文将其作为可以包含一个周期内太阳黑子特征的时间跨度参考值)包含的黑子种类和数据较少 无法涵盖足够的黑子特征 模型可以利用的样本较少 最终分类结果缺乏可信度 年以来 深度学习典型算法中的卷积神经网络可以从经过简单预处理的数据甚至是原始数据中 学习到本质的、抽象的和高阶的特征 并成功应用于图像中目标和区域的检测、分割和识别任务 因此一直受到广泛关注 年 文基于/的连续光谱全日面图 用目标检测的方法进行麦金托什分类 通过大量人工手动标注 年的太阳黑子图像 获得 个标签数据 最终仅通过 年共 个黑子进行测试 部分类别数量甚至为 同时由于太阳黑子图像的连
6、续性 随机分配数据集往往造成分类精度虚高 年 文 基于大气成像组件()全日面裁剪图像 使用 对获得的 张样本进行磁分类 结果表明 尽管训练精度可达 测试精度仅有 随机对 个黑子进行测试 由于类别数量之间最大相差超过 倍的类别不均衡现象 分类结果两极分化严重 可以看出 深度学习算法具有较强的数据依赖性 对于太阳黑子麦金托什分类任务而言 以往工作中出现的问题主要来源于数据量少、数据集划分方式不合理等 总而言之 目前的分类算法采用的数据来源众多、缺少统一标准、类别数多(类)而数据量少、类别不均衡等主要因素导致解决方案复杂和模型过拟合严重 另一方面 对于太阳黑子数据的分配方式、评价标准、数据预处理等方
7、法合理性的问题也层出不穷 在两者共同作用下 分类结果不理想 因此往往难以通过深度学习实现精确且自动化的麦金托什分类综上所述 来自数据和方法方面的问题是目前实现自动分类目标的首要挑战 本文根据以往工作的问题和难点 以及实验流程中的科学性操作 分别从数据和方法方面解决问题:首先重点解决标准数据库的问题 使用局部日面图像建立完整太阳周期(时间跨度 年数据集)且经过数据清洗 同时保留一定现实数据特征的太阳黑子 数据库 另一方面 结合太阳黑子数据特点 对样本进行 和视场统一化等预处理 再使用活动区()编号进行科学合理分配数据 避免以往工作中因随机分配方式出现的数据集交叉污染情况 并采用基于类别数量的加权
8、 分数作为评价指标 既避免以往仅使用分类准确率()而未同时关注查准率()与查全率()也避免了以往使用平均准确率使得数量极少类别贡献不合理、不具备普遍性与说服力的表现影响分类结果 最终本文选取并使用卷积神经网络中一系列经典的分类神经网络模型进行太阳黑子麦金托什自动化分类实验 以充分验证 数据库和实验操作的有效性和必要性 为未来实现基于实际复杂数据集且端到端的太阳黑子麦金托什分类任务打下基础 麦金托什分类标准目前 国际上公认的太阳黑子群分类有三大标准 分别是威尔逊()山磁分类、苏黎世()分类、麦金托什分类具体而言 威尔逊山磁分类主要基于磁场极性将太阳黑子分为 和 等 类 相较之下 苏黎世分类更关注
9、太阳黑子的演化顺序与形态特征并将其细分为 和 等 类 观察发现 即使是最活跃的 类 爆发大耀斑的概率依然很低麦金托什分类在修正的苏黎世分类(即 和 共 类)基础上 额外引入更能细分太阳黑子且关联耀斑爆发的参数:描述太阳黑子组内最大黑子形态的 参量(有 和 共 类)和描述太阳黑子组内部紧密程度的 参量(有 和 共 类)如图 三者共同组成麦金托什的 分类规则 研究表明 麦金托什分类中的 和 类别与.级 射线事件的爆发率联系极高 所以可以通过太阳黑子分类预测耀斑爆发等剧烈太阳活动 且这种方法对黑子群的形态特征描述最为全面 对人类观测理解太阳活动与极端空间天气的预警有重要作用 因此 麦金托什分类是目前
10、在天文学中应用最多 也是太阳物理学家在黑子群分类中使用最广的方法 期周美林等:用于 分类的太阳黑子数据收集与实验验证 基于深度学习方法进行太阳黑子麦金托什分类的整体流程是首先建立足够多数量和类别的有效数据库 至少包含一个太阳周期的黑子特征每一个数据样本由包含活动区的局部光球层图像及对应的麦金托什分类标签组成 将准备好的数据库样本进行科学合理的训练集验证集测试集划分以及预处理 然后输入神经网络模型并获得训练结果 由完整可靠的数据库训练充分的网络模型可以实现自动化太阳黑子麦金托什分类任务 可以看出 该过程的首要任务在于获得完整有效的太阳黑子数据库 鉴于以往工作中出现的数据量少、数据集划分方式不合理
11、的问题 本文通过数据扩充、数据预处理、数据合理划分等步骤致力于构建更完善可靠的数据库 为后续太阳黑子麦金托什分类任务的实现奠定基础 数据准备与预处理 太阳黑子数据库 与以往工作中使用全日面图像不同 本文使用文整理的局部日面图像数据 由空间环境人工智能预警创新工坊提供 同时于 年图 分类规则 月 日公布作为阿里云天池大赛的太阳黑子群磁分类竞赛的官方数据集 通过对 年共 个太阳黑子()文件解压与匹配对应的 标签 我们获得了可用于麦金托什分类的原始太阳黑子数据库 并将其命名为 数据库的图像数据来源是由搭载在太阳动力学观测站上的日震与磁场成像仪提供的空间天气 活动区域数据产品()旨在通过收集、存储、跟
12、踪和分析局部日面活动区图像以研究太阳活动的变化情况(作为区分 代指原始麦金托什太阳黑子数据库/代指空间天气 活动区域数据产品)系列数据产品包括时间间隔为 的磁图和可见光图像 提供了活动区域地图 同时包含整个生命周期的自动跟踪磁场强度 并存储为 格式文件 可由两个主键索引:时间()和 活动区编号()格式是一种定义和编码数据 的 方 法 年 由 国 际 天 文 学 联 合 会()确立 以便于世界各天文台之间的天文图像数据传输和交换 与太阳黑子麦金托什分类相关的关键字参数如表 数据库的标签信息来自美国国家海洋和大气管理局 美国国家海洋和大气管理局每天将太阳黑子群麦金托什分类信息以 文件的形式实时发布
13、在:/.上并且由于该网站发布信息的及时性和完整性 得到了大部分天文研究机构的关注和认可 美国空间天气预报中心(表 文件关键字参数 /天 文研究与技术 卷)汇编的 是美国国家海洋和大气管理局和美国空军()的联合产品 每天 时发布 提供前一天在日面上观测到的活动区域的详细说明 由美国空间天气预报中心在分析和整理美国空军太阳光学观测网()的所有单独报告后汇编 文件关键字参数如表 本文通过将太阳动力学观测站日震与磁场成像仪的 文件和美国国家海洋与大气管理局 的 标签信息两者进行匹配 具体操作过程为()从 以 的方式获取 年所有 单独文件()将获取的 文件信息过滤提取关键字数据 并按年份进行汇表 文件关
14、键字参数 总 最后输出 文件()遍历 文件数据并解压为 格式 以日期和 搜索对应日期 文件相同活动区编号的麦金托什信息并命名 最后整理得到的 数据库中共有 个可用样本 包括 类麦金托什太阳黑子数据 图 是 数据库中 年 月 日 点且 编号为、活动区为、麦金托什分类为 的图像示例图 数据库中来自 年 月 日 点 编号为、活动区为、麦金托什分类为 的图像示例 :然而 上述用于麦金托什分类的原始 数据库依然存在一系列问题 无法满足太阳黑子分类任务的要求 首先 数据库的数据时间范围仅有 年 远远小于一个太阳黑子周期 使得 数据库包含的黑子特征不够完整 同时数据量较少 可信度较低 其次 数据库存在麦金托
15、什分类类别数据不均衡的问题 同时存在一系列无效数据需要过滤 此外 通过数据来源得知 数据库具有较大的扩充可能性 因此 本文在 数据库基础上进一步扩充及清洗数据 太阳黑子数据库 数据扩充与 数据库类似 扩充数据同样使用来自/提供的 系列数据产品(.)所有数据文件从网站:/./下载 均采用 格式 并将扩充数据库命名为 数据选择满足以下标准:()时间范围为 年 月至 年 月()图像数据每 拍摄一次()只有当一个 编号同时对应 期周美林等:用于 分类的太阳黑子数据收集与实验验证 于一个 时 才会选择 数据 观察发现 原 数据库的数据实际时间范围是 年 月至 年 月 同时在此时间范围内存在数据缺失 即大
16、量可用数据被忽略 故本文将数据扩增过程分为两大步:年获取遗漏的数据 年获取每天数据 两者具体下载流程如下:()从 年 月 日开始下载当天 点的 数据 并查看是否包含在原 数据库中 如有则删除 进行下一项数据 若无则进一步获取 文件中“”关键字(代表该图像块中包含黑子所在的活动区个数)若大于 则删除 进行下一项 若等于 则以 的间隔获取该活动区当天所有 数据 进行下一项数据()从 年 月 日开始 无需判断是否包含在原 数据库中 直接下载当天 点 文件并解析其“”数值大小 若大于 则删除 进行下一项 若等于 则同样以 的间隔获取该活动区当天所有 数据 进行下一项数据完成 数据和 数据扩充后 将 文
17、件解压 获取其“”和“”参数 并根据“”和时间作为连接与 文件信息对应获得该活动区内黑子群的 编号 最终 从 张太阳黑子图像的 数据库扩增到 张太阳黑子图像的原始 数据库 至此 一个完整太阳周期(年 月 日至 年 月 日)的太阳黑子数据库 初步建立完成 然而 其中夹杂着大量无法使用的数据需要进一步处理 数据清洗通过观察 中混入大量无法使用的图像数据 需要进一步清洗与过滤 首先是无效数据 如图()由于设备等因素影响形成黑图 数据库无法直接使用 需要删除 如图()图像中混入了其他组的黑子(包括但不限于突然出现、从边缘进入、逐渐平移进入等)也需要人工删除此外 中也存在大量处于极端的日面边缘且黑子不明
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用于 McIntosh 分类 太阳黑子 数据 收集 实验 验证
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。