基于机器学习的安全大数据技术课程实验教学设计_杜锋.pdf
《基于机器学习的安全大数据技术课程实验教学设计_杜锋.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的安全大数据技术课程实验教学设计_杜锋.pdf(6页珍藏版)》请在咨信网上搜索。
1、 实 验 技 术 与 管 理 第 40 卷 第 4 期 2023 年 4 月 Experimental Technology and Management Vol.40 No.4 Apr.2023 收稿日期:2022-10-11 修回日期:2022-11-17 基金项目:国家自然科学基金项目(52130409,52004291);全国煤炭行业高等教育教学改革研究课题(2021MXJG028);中国矿业大学(北京)课程建设与教学改革项目(J221203)作者简介:杜锋(1992),男,山西垣曲,博士,讲师,硕士生导师,从事安全工程的科研和教学工作,。通信作者:王凯(1972),男,河南遂平,博士
2、,教授,博士生导师,从事安全工程的科研和教学工作,。引文格式:杜锋,汪博威,汪奥杰,等.基于机器学习的安全大数据技术课程实验教学设计J.实验技术与管理,2023,40(4):181-186.Cite this article:DU F,WANG B W,WANG A J,et al.Experimental teaching design of safety big data technology course based on machine learningJ.Experimental Technology and Management,2023,40(4):181-186.(in Chi
3、nese)ISSN 1002-4956 CN11-2034/T DOI:10.16791/ki.sjg.2023.04.027 基于机器学习的安全大数据技术课程实验教学设计 杜 锋1,汪博威1,汪奥杰2,王 凯1,王 玮1(1.中国矿业大学(北京)应急管理与安全工程学院,北京 100083;2.东南大学 网络空间安全学院,江苏 南京 211102)摘 要:该教学实验设计以 Python 的机器学习整合包为内核,以煤岩瓦斯复合动力灾害预测为背景,使用Python 语言编写,方便了学生在有限的教学与实验课程中实现机器学习挖掘数据的编程任务。实验内容包括数据集构建、Apis 调用、数据集读取、数据归
4、一化处理、模型训练与导出、样本集预测、模型准确度检验等环节。该教学实验涉及学科交叉,实用性强,能够为提升学生使用恰当的现代化分析技术与工具的能力。关键词:实验教学改革;安全大数据;机器学习;数据挖掘;灾害预测 中图分类号:TD7;G642.0 文献标识码:A 文章编号:1002-4956(2023)04-0181-06 Experimental teaching design of safety big data technology course based on machine learning DU Feng1,WANG Bowei1,WANG Aojie2,WANG Kai1,WANG
5、 Wei1(1.School of Emergency Management and Safety Engineering,China University of Mining&Technology(Beijing),Beijing 100083,China;2.School of Cyber Science and Engineering,Southeast University,Nanjing 211102,China)Abstract:The teaching experiment design takes Pythons machine learning integration pac
6、kage as the core,takes coal,rock and gas composite dynamic disaster prediction as the background,and is written in Python language,which facilitates students to realize the programming task of machine learning and mining data in limited teaching and experiment courses.The experiment contents include
7、 data set construction,Apis call,data set reading,data normalization processing,model training and export,sample set prediction,model accuracy test and other links.This teaching experiment involves interdisciplinary subjects and has strong practicability,which can improve students ability to use app
8、ropriate modern analysis technology and tools.Key words:experimental teaching reform;security big data;machine learning;data mining;disaster prediction 随着现代科技的发展,基于计算机技术的机器学习方法已成为推动众多领域科技进步的重要手段。为培养高素质高水平的专业人才,必须专门在高等教育阶段培养学生对机器学习等智能方法的使用和分析能力。2022 年 8 月,在 Appen 发布的2022 年人工智能和机器学习现状报告中展现了各行业不同规模公司提高
9、人工智能成熟度的战略,体现了机器学习对行业发展的推动作用1。中国矿业大学(北京)安全科学与工程专业是国家“双一流”建设学科,是大安全、矿山安全、应急技术等多方向交叉的复合工科专业,其中安全大数据技术课程是一门非常重要的专业必修课2。鉴于学生有限的计算机编程水平,以本课程为代表的安全科学与工程专业计算机技术课程,具有概念抽象、难以理182 实 验 技 术 与 管 理 解等特点。现有的安全大数据技术课程教学,主要采用教师先以多媒体方式进行线下或线上讲授,学生再完成课后习题的模式。教师的讲授往往以理论叙述、代码及代码实现成果展示为主,学生难以获得对计算机方法实现的实践认知以及解决实际问题的经验,即理
10、论教学与实践产生脱节。机器学习方法是课程教学的重要内容,在安全大数据技术课程中占有很大比重3-4。如何在有限的教学与实验课时中,使学生既能学习到理论知识,又能掌握机器学习方法在安全工程领域的应用,是目前安全大数据技术课程教学的现实问题。为了提高我校安全工程专业类学生的计算机水平,使学生具备对数据进行挖掘的能力,并能在此基础上对问题开展深入研究,本文采用基于 Python 的机器学习方法,针对矿山专业属性设计独特的教学实验案例,旨在调动学生深入理解矿山灾害事故预测问题的积极性,锻炼他们采用先进的分析预测工具解决复杂安全工程问题的能力。1 机器学习方法原理 机器学习方法从广义上来说是一种能够对机器
11、赋予学习能力,从而使其完成直接编程无法完成的功能的方法5-6。从实际工程应用来说,机器学习是利用数据训练出模型,再利用模型进行预测的方法。目前广泛应用的机器学习方法大致可以分为两类:有监督学习(supervised learning)与无监督学习(unsupervised learning)。有监督学习是从标签化训练数据集中推断出函数的机器学习方法,训练数据由一组训练实例组成。在有监督学习中,每一个例子都是一对数据,由一个输入对象(通常是一个向量)和一个期望的输出值(也被称为监督信号)组成,即用已知某种或某些特性的样本作为训练集建立一个数学模型,再用所建立的模型来预测未知样本7。有监督学习是最
12、常见的机器学习方法,如图 1 所示。无监督学习被用于缺乏足够的先验知识,数据难以人工标注类别或进行人工类别标注成本太高等情况,具体来说就是借助计算机根据类别未知的训练样本解决模式识别中的各种问题8。在安全大数据技术课程中,机器学习方法通常基于 Python 编程平台,通过导入先前发生的大量事故历史数据训练出模型,再利用模型预测某一类事件或事故是否发生,属于机器学习方法中的有监督学习。最为广泛使用的有监督学习算法包括:支持向量机(SVM)、图 1 有监督学习拟合图 神经网络算法、线性回归、逻辑回归、朴素贝叶斯、K-近邻、决策树等9-10。这些算法可以通过调用 Pycharm编译器中的 sklea
13、rn 包进行快捷使用,难度适中,是适合学生进行数据挖掘的途径。在此之前,需要对训练数据进行预处理。常见的用于分析特征列的数据预处理方法包括 MinMaxScaler、StandardScaler 等11。在实际问题中,数据通常是不完整的(如缺少某些感兴趣的属性值)、不一致的(如代码与名称存在差异),这就使得数据集极易受到噪声(错误异常值)的侵扰,这就需要将原始数据集转化为可以理解的格式或符合挖掘要求的格式。2 实验案例背景及数据集构建 在安全大数据课程中,机器学习方法通常用于预测某类事故发生的概率。煤岩瓦斯复合动力灾害是影响我国深部煤炭安全高效开采的重大灾害之一12-13,其影响因素众多且孕育
14、演化机制尚不明朗,无法充分挖掘指标特征与灾害发生的内在联系,传统复合动力灾害预测手段存在预测指标单一、预测准确率不理想等缺点14-16。本教学实验案例收集了来自山西、陕西、河南、安徽四个产煤大省 20102020 年来发生的 105组煤岩瓦斯复合动力灾害数据,包括埋深、断层数量、软分层变化、煤体破坏类、煤厚、软分层厚度、煤层倾角、揉皱系数、瓦斯放散初速度、坚固性系数、瓦斯压力、瓦斯含量、顶板抗压强度、最大主应力、煤厚变异系数、煤层倾角变异系数等 16 项特征标签,数据集样本量适中,标签量较多,涉及时空范围广,将使研究结果具有范围普适性。我们从这些数据中随机抽取了 80 组数据用于模型训练,如表
15、 1 所示,剩余的 25 组用于后期模型预测,如表 2 所示。在表 1 中“是否发生复合灾害”一栏中,0 代表不发生灾害,1 代表发生煤与瓦斯突出灾害17,2 代表发生煤岩瓦斯复合动力灾害。杜 锋,等:基于机器学习的安全大数据技术课程实验教学设计 183 表 1 用于训练的数据集表 组序号 埋深/m 断层数量 软分层变化 顶板抗压强度/MPa最大主应力/MPa 煤厚变异系数 煤层倾角变异系数 是否发生灾害1 830 0 0.5 58.03 34.15 0 0 1 2 479 1 0.5 48.18 28.1 0 0.51 2 3 457 0 0.5 53.06 28.1 0 0.14 1 4
16、563 1 0.5 47.65 29.06 0 0 2 5 510 0 0.5 44.39 28.1 0 0 2 6 590 0 0.5 37.64 29.06 0.11 0 2 7 577 0 0.5 43.44 29.06 0 0 2 8 564 1 1 76.09 29.06 0 0 0 9 575 0 0.5 48.89 29.06 0 0 2 10 584 1 0.5 55.12 29.06 0.2 0 1 78 424 0 0.5 76.76 28.1 0 0.47 0 79 607 1 0.5 57.68 29.06 0.19 0 0 80 562 1 1 79.09 29.06
17、 0 0 0 表 2 待预测的数据集表 组序号 埋深/m 断层数量 软分层变化 顶板抗压强度/MPa最大主应力/MPa煤厚变异系数 煤层倾角变异系数1 560 2 1 67.56 29.06 0 0 2 558 0 0.5 67.02 29.06 0.23 0 3 540 0 0.5 45.74 28.1 0 0.13 4 565 0 1 65.77 29.06 0 0 5 565 1 0.5 49.08 29.06 0 0 6 431 0 0.5 68.89 28.1 0 0.47 7 535 0 0.5 47.04 28.1 0 0 8 566 1 0.5 38.95 29.06 0 0
18、9 533 0 0.5 37.87 28.1 0 0 10 558 1 0.5 38.91 29.06 0 0 23 629 1 0.5 72.42 29.06 0.19 0 24 557 2 0.5 35.67 29.06 0 0 25 502 1 1 71.3 29.06 0 0.31 3 使用 Pycharm 平台进行 Apis 调用及数据集读取 3.1 硬件基本需求 本教学实验案例的硬件需求为:Windows 7 系统及以上,电脑配置内存 4 G 及以上,硬盘存储 500 G及以上,处理器 i5 及以上。3.2 Apis 调用 本教学实验案例的内核为 Apis,它将机器学习功能进行封装
19、,并将其与 sklearn 连接,sklearn 进一步封装 Apis 成为 Python 的模块,以方便使用。可以直接通过 Pycharm 编译器调用其中的某些功能,使操作更加方便直观。本实验案例使用的预处理方法为 StandardScaler,使用的分类方法为支持向量机(SVM),所以需要调用 sklearn 包中这两项的 Api。首先要在 Pycharm 界面下方找到 Python Packages,在 PyPI 仓库里搜索 scikit-learn 并安装。184 实 验 技 术 与 管 理 随后在代码行键入调用 Apis 的代码(含注释)如下:3.3 数据集读取 由于数据集样本量较大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 安全 数据 技术 课程 实验教学 设计 杜锋
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。