基于服务器集群的大数据实训平台建设.pdf
《基于服务器集群的大数据实训平台建设.pdf》由会员分享,可在线阅读,更多相关《基于服务器集群的大数据实训平台建设.pdf(8页珍藏版)》请在咨信网上搜索。
1、实验室建设与管理基于服务器集群的大数据实训平台建设韩磊,施展,施炎峰(南京工程学院计算机工程学院,南京211167)摘要:数据科学与大数据技术专业是“新工科”背景下的新兴专业,其理论教学体系已初步形成,但在实践教学尤其是实验平台建设方面存在不足。为此,提出基于 Hadoop 集群和虚拟化技术的大数据实训平台建设方案,并开展递进式项目化教学实践。大数据实训平台建设思路为“2+2+2”方案,即构建 Hadoop 和云计算两个功能集群,部署教学管理和资源虚拟管理两组系统,服务大数据日常教学和创新实践两类应用。梳理大数据专业实践教学体系的递进关系,在大数据实训平台上,以推荐系统为例进行了实验设计和项目
2、教学实践,取得良好教学效果。关键词:新工科;大数据专业;教学平台;专业建设中图分类号:TP39文献标志码:ADOI:10.12179/1672-4550.20220498Construction of Big Data Teaching Platform Based on Server ClusterHANLei,SHIZhan,SHIYanfeng(SchoolofComputerEngineering,NanjingInstituteofTechnology,Nanjing211167,China)Abstract:DataScienceandBigDataTechnologyisanem
3、ergingspecialtyunderthebackgroundofNewEngineering.Itstheoretical teaching system has been preliminarily formed,but there are deficiencies in practical teaching,especially in theconstructionoftheexperimentalplatform.Therefore,thispaperputsforwardtheconstructionschemeofabigdatateachingplatformbased on
4、 Hadoop cluster and virtualization technology,and carries out progressive projected-based practical teaching.Theconstructionschemeisabbreviatedas“2+2+2”,namelytwofunctionalclustersofHadoopandcloudcomputing,twogroupsofteachingmanagementandresourcemanagementsystems,andtwokindsofapplicationsbothdailyte
5、achingandinnovativepractice.Analyzingtheprogressiverelationshipofthebigdataprofessionalpracticeteachingsystem,theprojectteachingisimplementedonthisplatformwiththerecommendationsystemasanexample.Studentsexperimentalexperienceandoverallteachingeffecthavebeensignificantlyimproved.Key words:newengineeri
6、ng;datascienceandbigdatatechnology;experimentalplatform;specialtyconstruction数据科学与大数据技术专业(以下简称大数据专业)是“新工科”背景下的新兴专业1,也是教育部落实促进大数据发展行动纲要而批准的计算机类特设专业2。中国大数据技术与应用联盟的统计数据显示,我国大数据产业规模逐年提高,大数据人才缺口巨大,大数据专业的设立顺应了大数据人才需求3。从招聘网站公开的岗位看,大数据采集工程师、实施运维工程师、大数据应用开发工程师、数据分析工程师、机器学习算法工程师、数据科学家等岗位需求量大。不同岗位的知识、能力、素质要求差异
7、较大,但强化实践是这些岗位的共同特征。强化实践教学离不开优质的实验平台,作为新兴专业,大数据专业的实训平台建设还不完善,在平台系统结构、实践教学设计等方面亟待深入研究。1大数据专业实践教学体系分析1.1大数据专业课程体系逐步完善我国最早设立大数据专业的 3 所高校于2016 年开始招生,随后各高校前赴后继,设置大数据专业的本科院校多达 600 余所。这些高校在 收稿日期:20220815;修回日期:20230516 基金项目:江苏高校哲学社会科学研究项目(2022SJYB0436);南京工程学院高等教育研究重点项目(2019ZD02)。作者简介:韩磊(1982),男,博士,副教授,主要从事大数
8、据技术、人工智能方面的教学与科研。E-mail:第 21 卷第 4 期实验科学与技术 Vol.21No.42023 年 8 月ExperimentScienceandTechnology Aug.2023专业定位、人才培养方面各具特色,形成了百花齐放的局面4。在人才培养方案和课程设置方面,积累了宝贵经验,形成的课程体系主要包括计算机科学、数据科学、大数据技术 3 类课程5。1)计算机科学类课程包括 Python 语言、Java语言、数据结构、计算机组成原理、操作系统、计算机网络等。这类课程服务于学生了解计算机的发展历史、计算机的软硬件构成及运行环境、编程技术等。2)数据科学类课程主要包括统计学
9、、离散数学、数值计算方法、数据科学导论、数据库原理、大数据存储与管理、并行与分布式计算、数据可视理论等。这类课程培养学生在大数据数理基础、数据存储原理、并行计算和可视化方法等方面的能力。3)大数据技术类课程有数据采集与预处理、机器学习、深度学习、R 语言数据分析、数据挖掘、行业大数据分析等。此类课程通常以项目化教学的方式,培养学生分析、挖掘大数据的技术能力。1.2大数据实践教学有待优化尽管各高校已经设计了相对完善的人才培养方案和课程体系,但总体来看,实践教学仍是各高校大数据专业的短板所在6,具体表现在如下3 个方面。1)实训平台算力不足各高校对新专业建设都会投入一些专项经费,用于实验室建设。考
10、虑到专业平衡,经费划拨参照传统专业实验室建设进行,但是大数据存储与计算资源价格昂贵,划拨的实验建设经费不足以购买充足的服务器,导致实训平台算力不足,学生对集群的体验感差。有的学校只购置了34 台服务器,无法同时满足两个行政班同时开展实验,只能分批进行实验。2)实验项目资源匮乏因为建设时间短,大数据专业在实践教学方面缺少具有广泛共识的经典案例。各个学校根据自身实验平台和师资力量情况,开发不同的课程资源。在实践教学过程中,实验项目设计完全依赖于教师的知识背景、实践经验。不同课程实验之间的衔接也有待进一步优化。比如,围绕同一数据集的清洗、存储、分析,进而设计对应的实验,这些工作还未进行系统化探索。3
11、)统一平台管理体系缺失目前,大数据实验室通常缺乏统一的虚拟化资源分配与管理平台,仅使用服务器操作系统自身的账户管理功能分配给学生使用,增加了教师的日常管理负担。另外,实验室资源使用相对混乱,特别是服务器的使用、维护、保养,达不到规定的要求,难以做到持续优化。2大数据实训平台总体设计针对大数据专业在实践教学中的上述痛点,本节以构建大数据实训平台为突破口,深入分析平台功能需求,进而提出完善的设计方案。2.1大数据实训平台功能需求大数据实训平台主要面向管理员、教师和学生三类用户,提供教学管理、课程资源池服务和虚拟化服务。对于教学管理功能,学生角色仅使用其中的作业管理功能。从以下 3 个方面介绍大数据
12、实训平台的功能需求。2.1.1课程教学管理功能大数据实训平台面向于大数据专业的日常教学,平台应具备课程教学中必要的管理功能。常见的管理功能包括:学生管理、课程资源建设、信息发布、作业提交与批改、成绩综合评定等,如图 1 所示。学生管理模块用于教师对参与实验或实训的学生进行系统管理。如学生名单的批量导入与导出、格式定制,学生基本信息的增删改查,实验前的分班分组,实验资源的权限分配等。课程资源建设模块除了平台预置一些资源外,应提供教师自建课程资源的接口,方便教师将教学视频、演示文稿资源传入系统;同时应支持教师设计实验资源,如实验指导教程、实验参考代码、实验数据等。作业管理模块应根据题型特点,灵活支
13、持教师录入、导入、发布等,至少应具有题库设计、组卷发布、计时、题型、统计等功能。成绩评定模块应体现过程评价,尤其是实验的参与度、资源访问情况、作业完成情况等。另外,教学管理各模块中界面构成方面有一些共同的需求,如对文件的显示与处理等7。具体需求如下。1)支持的文件类型及操作文本文件内容查看、在线编辑保存;自动生成图片文件缩略图,支持图片幻灯片播放;支持mp3、wav、wma、m4a、webma 等常见音频文件第 4 期韩磊,等:基于服务器集群的大数据实训平台建设125的在线播放;支持 flv、f4v、mp4、mkv、wmv、rmvb 等视频文件的在线播放;支持 pdf、word、excel、p
14、pt 等办公类文档;支持 zip、rar、tar、gzip 等压缩文件。2)文档操作支持类似 Windows 的键盘快捷功能,选中文件后,提供打开、复制、剪切、删除、属性、压缩、重命名等功能。课程教学管理学生管理名单导入/导出基本信息增删改查资源权限分配分班/分组管理视频资源建设演示文稿资源习题资源建设题库设计组卷发布提醒/统计资源访问评价实验结果评价作业评价课程资源建设作业管理成绩评定图1课程教学管理模块分析2.1.2课程资源池功能课程资源是大数据实训平台的重要组成部分,起到支撑大数据专业实践教学的作用。日常教学中的课内实验和综合实践阶段的教学案例共同构成了实践教学资源,不同高校的课程体系特
15、色不同,用以支撑课程体系的实践教学环节也不尽相同。因此,实践教学设计要求能够彰显教学特色,方便教师更灵活地进行教学设计。本文设计的大数据实训平台对实践教学资源的管理将以实验项目或实训项目作为优化组合的单位,逻辑上以项目库的形式存储于系统中,提供查询编辑基本接口,教师根据课程需要组合优化实验项目,如图 2 所示。同时,允许教师查询所授班级前导课程的实践项目,鼓励递进式项目开发。课程 A实验清单实验 1实验 2项目设计实训项目实训课程体系项目属性信息及课程关联项目结构化数据项目文档数据项目外部云资源理论课实践教学体系图2课程教学管理模块分析大数据实训平台提供的实践课程资源应具备如下 4 个方面的特
16、点。1)项目内容围绕大数据核心技术体系一方面,随着大数据技术迅速发展,技术生态系统越发庞大,各类组件层出不穷8。从成本角度看,针对每个组件设计实验项目,不仅可能超出高校实验室项目建设预算,而且也偏离教学实践的实际需求。另一方面,只有抓住大数据的核心技术体系,才能服务好多类高校的人才培养需求。不同特色的高校在人才培养方面都高度重视大数据核心技术体系,抓住核心技术体系,就抓住了实践教学根本。因此,项目的内容应紧紧围绕大数据核心技术体系展开。2)项目设计服务递进式项目教学递进式项目化实践教学是教师与学生通过共同实施一个完整系列的实训项目提高学生实践操作能力的教学活动9。大数据专业的递进式项目化教学能
17、够体现课程的递进式和项目的递进式,大数据实训平台在项目设计时可以围绕数据采集、清洗、存储、处理、可视化这条主线,设计项目之间的递进关系,如针对同样的数据集展开或面向同样的业务领域展开,提升教学效果。3)项目运行考虑并发性特征实验或实训项目设计与其他工程项目不同,多个班级或多个小组同时进行实验是常见的组织管理形式,所以项目设计应充分考虑运行时的并发性,结合平台资源特点,设计合理的算法和数据存储模式,必要时给出特殊的实验管理方式建议。126实验科学与技术第 21 卷4)项目维护坚持高效实用准则大数据实验和实训是有组织的学生实践,应考虑数据采集、清洗和加工对数据资源的改变,也应考虑教师结合本校特点对
18、现有实训项目的改进。前者的改变应在实验之后快速的恢复或清除;后者的改变是对项目库的丰富,应加以保留。凡此种种,都是实训平台维护应解决的重要问题,应坚持高效实用的准则,设计必要的维护操作界面,提高系统的易用性和可持续性。2.1.3虚拟化平台部署功能除了提供课程资源外,大数据实训平台还要服务于大学生创新创业,因此,平台应具有一定的开放资源,包括计算、存储和网络等。首先,对于开放资源的管理应采用 Web 化的统一界面,提供必要的身份认证和角色权限功能,不同角色具有不同的资源使用权限。其次,至少支持两个层级的资源定制云服务10,包括 IAAS 和 PAAS。IAAS 层级要提供CPU、GPU、存储、网
19、络等虚拟硬件资源,学生根据项目所需,自己安装和管理操作系统、数据库、中间件、应用软件和数据资源;PAAS 层级主要搭建机器学习领域必要的训练平台,可以通过半 PAAS 和全 PAAS 两种方式进行设计。半 PAAS平台软件层中只安装了操作系统;全平台 PAAS安装了应用软件依赖的全部平台软件,针对应用软件来做资源配额和权限控制。2.2大数据实训平台建设方案2.2.1架构设计大数据实训平台是面向实践教学的系统,教学平台对高性能的要求低于对全面性的追求。根据上节的系统需求分析,大数据教学既有特殊类别的数据采集,也有面向流数据和批数据的智能分析。因此,本文使用成熟稳定的 Lamda 架构设计大数据实
20、训平台。Lamda 架构将批处理作业和实时流处理作业分离,各自独立运行11。本文的 Lamda 架构如图 3所示,主要包括 Batch、Serving、Speed 共 3 个层次。Batch 层主要负责所有的批处理操作,同时也维护数据处理依赖的主数据,为 Serving 层提供“预计算”。而 Serving 层是对 Batch 层的增强,响应数据查询请求,既可以使用关系数据库传统技术,也可以采用 OLAP 产品。Speed 层处理流式数据,能以实时或近似实时的方式处理大量的数据,支撑的技术主要有 Storm、SparkStreaming等,也是实践教学的技术重点。Batch 层Serving
21、层原始数据批处理流数据Speed 层流处理实时视图实时视图批视图批视图查询查询图3Lamda 架构2.2.2系统部署常规实践教学以原有教学资源+教师创新教学设计的方式进行,遵循既定教学大纲,所需的平台资源固定,涉及技术基本属于 Hadoop 生态链12;而大学生创新实践活动是教师指导下的学生自主创新过程,没有既定方案,不同创新小组所需的算力、存储、网络、数据等各不相同,要求平台具有资源定制能力。考虑到大数据实训平台要支撑常规实践教学和大学生创新实践两类应用,本文提出将大数据实训平台部署为 Hadoop 和私有云两个功能集群。Hadoop 集群主要负责实践课程常规教学,私有云集群支持大学生创新实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 服务器 集群 大数 据实 平台 建设
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。