强化学习技术与应用课程建设探索_刘驰.pdf
《强化学习技术与应用课程建设探索_刘驰.pdf》由会员分享,可在线阅读,更多相关《强化学习技术与应用课程建设探索_刘驰.pdf(4页珍藏版)》请在咨信网上搜索。
1、第 4 期2023 年 4 月 10 日计 算 机 教 育Computer Education中图分类号:G64234基金项目:国家自然科学基金联合基金重点支持项目(U21A20519)。作者简介:刘驰,男,教授,研究方向为智能物联网与强化学习技术,。0引 言2017 年,国务院发布新一代人工智能发展战略规划,其中“高级机器学习理论”专栏中明确指出:“研究统计学基础理论小样本学习、深度强化学习、无监督学习、半监督学习、主动学习等学习理论和高效模型”。中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要 中明确指出:“加强原创性引领性科技攻关,瞄准人工智能、量子信息等前沿
2、领域,实施一批具有前瞻性、战略性的国家重大科技项目”“培育壮大人工智能、大数据等新兴数字产业,促进共享、平台经济健康发展”。因此,开展强化学习基础理论和方法的研究,将有力地支撑国家人工智能科技战略规划实施,具有重大意义。强化学习作为人工智能技术的重要组成部分,在控制、游戏、推荐、计算机视觉、自然语言处理、数学、生物信息学、智能交通等领域有广泛应用。1课程建设的背景与意义强化学习(Reinforcement Learning)是一种试错的机器学习方法,通过智能体与环境的交互,针对智能体做出的动作获得环境反馈,进而强化学习技术与应用课程建设探索刘 驰(北京理工大学 计算机学院,北京 100081)
3、摘 要:针对强化学习技术人才缺乏现状以及目前课程教学中存在的问题,以强化学习技术与应用课程为例,提出“应用实例讲解、理论举例讲解、结构动画讲解、类比方法运用、算法总结对比”的“五位一体”核心内容教学方法,以及“手把手实验、理论实践对应、基础高级结合”的复合型多种类实验教学方法,并介绍相应的课程体系和教具体系。通过总结北京理工大学两年的实践,说明上述课程体系取得了较好的教学效果。关键词:强化学习;课程改革;实验实践文章编号:1672-5913(2023)04-0034-04更新智能体知识和经验,选择下一个动作再次对环境进行探索。从分类上讲,强化学习技术是机器学习技术的一部分,但与监督学习、非监督
4、学习等其他机器学习方法有明显不同:强化学习的学习过程中没有监督信号,只有奖励反馈和实验试错;强化学习的环境反馈具有延时性;智能体的动作会影响后续接收到的序列数据;强化学习的过程与时间序列相关,是一个序贯决策的过程。由于深度学习(Deep Learning)模型的快速发展,与传统强化学习的结合使得对复杂环境的表征成为了可能,形成了深度强化学习技术(Deep Reinforcement Learning),实现了将强化学习的决策能力与深度学习的表征能力的有效融合,面向自动驾驶、机械臂控制等复杂场景具有重要应用。其中最著名的深度强化学习应用当属2016 年谷歌 DeepMind 公司研发的基于强化学
5、习的围棋程序 AlphaGo,击败了世界围棋大师李世石,震惊世界的同时也拉开了深度强化学习从学术界走向大众认知的帷幕。此外,深度强化学习技术也可以应用在其他学科领域,如生物工程、机械制造、化学分析、药物合成等,能够促进众多有决策需求的学科发展。近年来,国内外高校逐步开设了强化学习、DOI:10.16512/ki.jsjjy.2023.04.0162022 年中国高校计算机教育大会(三)第 4 期35深度强化学习相关的课程1。在国外,英国伦敦大学学院 David Silver 教授于 2015 年开设了面向研究生的 Reinforcement Learning 课程;美国卡耐基梅隆大学 Kate
6、rina Fragkiadaki 助理教授于 2017 年开设了 Deep Reinforcement Learning&Control 课程,介绍了强化学习及控制领域的最新进展。在国内,清华大学李升波教授于 2018年开设了面向研究生的强化学习与控制课程,以理论基础与算法设计融合的方式介绍强化学习的框架体系;北京大学张志华教授于 2018 年开设了面向本科生和研究生的强化学习基础课程。上述强化学习相关课程的开设,在很大程度上帮助了学生了解强化学习技术,但同时面临着诸多教学困境。2课程教学现状与困境2.1选课学生受限国内外已经开设的强化学习课程,主要受众还是计算机、自动化相关专业的本科生或研究
7、生,这些专业的学生拥有相对较好的编程基础,因此教师在讲授强化学习算法以及指导实验实践的过程中,可以将理论与代码相结合。但是,强化学习技术不仅仅在计算机和自动化领域应用,在物理、化学、材料、生物、机械、金融等领域也具有广泛应用,这些专业的学生需求同样迫切,因此,强化学习技术的课程教学方法须改变,以适应各个专业、不同层面的学生群体2。2.2教学方式滞后当下,国内几乎所有高校都开展了机器学习、人工智能类相关课程的教学工作,但大多属于科普类专业课的讲授模式,即从监督学习、非监督学习到强化学习都有涉猎,但受限于课时数,每一部分都不深入,更鲜见学术前沿内容的讲授。这种教学模式使得学生通常只能做到“大致了解
8、”,但是对于其深层次的数学原理理解不透,对最新的前沿技术(可能来源于最新发表的学术论文)更是无法掌握。特别是强化学习技术,相比监督和非监督学习,有着更为完整的数学理论支撑,但往往无法讲透;同时,强化学习技术仍处于飞速发展期,内容更新迭代速度很快,而目前的强化学习课程多为普及型,主要讲解的是强化学习前期发展的一些技术算法,对于国际前沿科研机构和学者的最新成果往往无法囊括,使得无法直接应用于所在领域的科研,教学内容有一定的滞后性3。2.3教学实践断续强化学习是一门理论与实践结合十分紧密的课程。每一个强化学习算法,都有其实际应用的典型例子,例如单智能体强化学习经典算法DQN 最早成功应用于雅达利游戏
9、,但在目前强化学习授课过程中,教师往往会倾向于强化学习算法流程的教学,要么忽视了编程实践的重要性(例如只准备少量编程实验),要么实验内容与算法教学的呼应不强。这使得课程的算法理论教学与实践应用指导脱节,学生在学习时往往感到枯燥无味,甚至由于听不懂个别算法细节丧失学习兴趣,不利于学习质量的整体提升。3强化学习技术与应用课程教学改革思路与做法3.1构建基础扎实、前沿引领、实验丰富、循序渐进的课程体系针对“强化学习技术与应用”这门课程,为了保证不同年级、不同专业、不同程度的学生都可以在课程学习过程中有较好的收获,在课程体系设计方面,要采用基础扎实、前沿引领、实验丰富、循序渐进的教授方式,具体包括几下
10、 几点。(1)在基础讲解方面,首先讲解课程导论并介绍课程评价方式,目的是使学生了解课程的内容、特点及其涉及的主要知识体系;其次介绍机器学习基础,由于强化学习是机器学习的一部分,因此不能把强化学习的讲授与机器学习技术分割开来;进一步介绍强化学习基础,主要介绍强化学习的概念、分类、发展历史等,同时精讲马尔可夫决策过程、动态规划算法、多臂老虎机方法、策略迭代算法、价值迭代算法等经典算法,这些算法是深度强化学习方法的基础,后期较为复杂的多智能体强化学习算法也离不开这些经典思想的运用。(2)在前沿引领方面,讲授顺序从单智能体算法逐步过渡到多智能体算法,引入学术前沿的202336计 算 机 教 育Comp
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 强化 学习 技术 应用 课程 建设 探索 刘驰
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。