文本分析途径的课程持续改进目标识别_董东.pdf
《文本分析途径的课程持续改进目标识别_董东.pdf》由会员分享,可在线阅读,更多相关《文本分析途径的课程持续改进目标识别_董东.pdf(4页珍藏版)》请在咨信网上搜索。
1、第 22卷 第 2期2023年 2月Vol.22 No.2Feb.2023软 件 导 刊Software Guide文本分析途径的课程持续改进目标识别董东(河北师范大学 计算机与网络空间安全学院,河北 石家庄 050024)摘要:持续改进是工程教育认证的基本理念。以某计算机类本科课程软件工程项目实践为案例,基于学生在项目实践教学过程中在线提交的结项报告,通过综合运用关键词语境查询、特征排名、话题识别等文本分析技术识别学生在前驱课程Java面向对象程序设计胜任力目标上的达成状态,发现了持续改进目标。该案例研究为识别程序设计类课程持续改进目标提供了一种基于文本分析的方法、过程和实现工具。关键词:数
2、据驱动的教改;持续改进;文本分析DOI:10.11907/rjdk.221193开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:G420 文献标识码:A文章编号:1672-7800(2023)002-0132-04Course Continuous Improvement Goals Recognition Based on Text Analysis ApproachDONG Dong(College of Computer&Cyber Security,Hebei Normal University,Shijiazhuang 050024,China)Abstract:
3、Continuous improvement is the basic concept of engineering education certification.Taking the course software engineering project practice for undergraduate majored in computer science as a case study,based on the collection of the final reports submitted online by the students enrolled in the class
4、 of project practice,text analysis technologies,such as context query by keywords,feature ranking,topic recognition and so on,are utilized to identify the state of achievement of students with respect to the competency goal of the precursor course object-oriented programming in Java,in order to find
5、 the continuous improvement goals.This case study provides a method,process and implementation tool based on text analysis for identifying the continuous improvement goals of programming courses.Key Words:data driven teaching reform;continuous improvement;text analysis0 引言面向能力的学习效果评价越来越受到计算机教育领域的关注1
6、-4。完成任务所需的知识(Knowledge)、技能(Skills)和 素 质(Dispositions)合 称 为 胜 任 力(Competency)5。持续改进是工程教育的基本要求,利用教育数据实现教学持续改进引起越来越多教育工作者的关注6。对持续改进目标的识别一般通过任课教师的经验,或对课程目标的达成度分析实现7。对知识的学习效果易于实施客观教育测量,然而技能和素质更多是内隐的心理生理认知习得成果,难以通过面向知识的客观教育方法实施有效评价。是否可以通过对学生的技能和素质在实操过程中认知发展水平进行度量,进而实现对学习目标的难度评价呢?教育与认知心理学的相关研究给予了肯定回答8。卖油翁说
7、:“我亦无他,惟手熟尔。”9这意味着技能是靠实际操练才能形成,并不是依赖单纯的记忆和理解等认知行为,因此技能评价也应在实际操练中进行。例如,中国传统武术通过打擂台比拼功夫高低;对厨师水平的评价是通过专家品尝其制作的菜品来完成;在车里平放一满杯水,通过观察水是否溢出这一显式特征评价驾驶员行车的平稳性这一内隐特征。目前对能力的度量方法包括基于课程测验成绩和基于量表两大类。基于课程测验成绩的方法通过设计面向能力度量的试题卷,按照一定评分标准判卷后得到一个分数,然后通过这个分数评价学习者个体和总体对能力目标的达成度;基于量表的方法通过设计量表,通常使用评分加总式的李克特(Rensis Likert)五
8、级量表,然后让学习者回答问卷的项目,具体指出自己对该项收稿日期:2022-02-28基金项目:教育部教育考试院“十四五”规划支撑专项(NEEA2021064)作者简介:董东(1971-),男,硕士,河北师范大学计算机与网络空间安全学院副教授,研究方向为大数据分析、计算机教育。第 2 期董东:文本分析途径的课程持续改进目标识别陈述的认同程度,最后对量表进行分析。这两种方法共同的问题有:一是对试卷题目或李克特选项的设计难度较大;二是没有体现实际操练。随着大数据可得性的提高10-11,数据驱动教学引起了教育工作者的兴趣。例如,王树梅等12基于线上讨论、作业、实验、阶段测试等各教学环节的评价数据提出数
9、据驱动的形成性学习效果评价方法;王莉等13对大学计算机公共课的“平台+数据”线上混合式教学课前、课中、课后3个环节中得到的学生学习数据进行分析,阐述如何把握教学质量。然而,如何通过学习过程中的数据发现课程教学改进目标未见深入论述;樊敏生等14对如何有效地在教学中实现基于数据的、动态化的学习干预进行了理论与实践探索;梅鹏江等15通过学习通平台收集学习行为数据对学生进行聚类分析,以发现不同类型学生的学习行为特点,但仅限于对学习行为方面的教学改进目标识别。当前大多数据驱动教学改进方法基于过程性评价数据进行。为此,本文提出一种直接包含外显性因素过程数据的方法,通过本科课程软件工程项目实践中对工程项目学
10、生选课系统 的案例研究,总结了通过文本分析技术识别持续改进目标的方法,即完成一学期的程序设计类课程后,在后继学期要求学生使用该课程所学语言完成一个具体的工程项目,然后通过分析学生在项目完成过程中遇到的问题和认知变化发现其能力方面的欠缺,从而得出对该课程的改进目标。1 课程概况Java面向对象程序设计课程在应用型本科计算机类专业第2学年第4学期进行,学生已经学过C语言程序设计和数据结构知识。该课程每周线下讲授2课时,实验2课时。课堂教学以板书知识点+程序演示方式为主;实验教学以验证型实验为主,主要通过重做教师课堂演示的例子强化对知识点的理解。该课程的目标包括能够通过例子解释封装、继承和多态的概念
11、;能够实现给定的类模型;能够使用群集框架(Collections Framework)实现集合、线性表等数据结构;能够使用Java Swing设计图形用户界面;能够使用输入输出流读写文件;能够使用Java程序解决综合实际问题等。课程评价主要根据平时作业、实验报告和期末考试进行。学生选课系统 是一个基于Java平台的软件工程实践项目,要求学生提交的项目报告包含组员分工及组内评价、文件版本、数据库版本、图形用户界面(GUI)版本、Web版本等各个版本完成的工作(基本要求)、扩展功能实现方法、遇到的问题及解决方法、个人提高等。2 持续改进目标识别方法与过程通过对学生提交的项目结项报告进行文本分析来识
12、别课程的持续改进目标。从最具演绎性到最具归纳性可将文本分析分为计数和字典方法、有监督学习和无监督学习3类。演绎性使用了先验知识,事先知道寻找什么,并假设某些规则或前提;而归纳性是指不使用先验知识,以某种算法从文本中识别有意义的模式。计数和字典方法使用关键词、布尔表达式或正则表达式来计算文本中某些词元的出现频率。如果预先确定了类别,有监督的方法比较合适;无监督方法的优势在于发现未知的类别。选课学生结项报告中的“遇到的问题及解决方法”和“个人提高”部分为能力达成度评价提供了外显特征。通过关键字语境查询、特征排名、用户自定义关键字分类查询和话题检测等技术,综合识别存在的共性特征,最后结合人工解释和判
13、断,形成前驱课程目标达成度评价,得到前驱课程的持续改进目标。通过文本分析识别课程持续改进目标的技术路线如图1所示。3 工具与实现建立语料库以及后续分析均在R 4.1.2中完成,使用的R包包括文本数据量化分析包quanteda16、结构话题模型包 stm17以及 readtext包等。本文使用的 quanteda包提供的功能及其实现函数如表1所示。项目报告文本文本初始词元集合词元集合文档特征矩阵文本转换建立语料库,解析词元过滤停用词创建文档特征矩阵关键词分类查询特征排名话题检测描述性统计关键词语境查询自定义停用词 Fig.1Technology roadmap图1技术路线Table 1Funct
14、ions and implementation表1功能及实现函数功能建立语料库解析词元描述性统计过滤停用词关键字语境查询文档特征矩阵定义用户字典特征排名函数corpus()token()summary()stopwords()kwic()dfm()dictionary()topFeatures()1332023 年软 件 导 刊本案例中共有84名同学参与工程项目,自由结合,分为21组。首先将学生提交的Word文件形式的结项报告另存为文本文件,然后删除“完成工作”部分,仅保留“遇到的问题及解决方法”和“个人提高”部分。通过 R 包 readtext导入这21个文本文件,然后使用quanteda包
15、的corpus()函数构造成语料库。解析词元也称为词元化(tokenize),是指将文本切割为词元的过程,这一步骤对计算文本分析至关重要,最常见的词元为英文单词、运算符、标点符号、汉字、汉字词组、成语等。采用quanteda包的summary()函数得出的语料库中词元和句子描述性统计如表2所示。可以看出,21篇文档平均每篇有1 461个词元,最少的有36个词元,最多有4 618个词元,可以进一步进行基于词元的分析。下一步是过滤停用词。首先自定义停用词,例如姓名、学号、任务、分工、实验、报告、错误、代码、进行、GUI、Person、Teacher等,连同英文通用停用词、中文停用词全部过滤,如此便
16、得到用于进一步分析的词元集合。基于词元集合,以“了解、熟悉、加深、明白、清楚、懂得”这些认知动词作为关键词,通过 kwic()函数逐一查询其出现的上下文。返回 88个匹配项目,其中有“加深 final关键字理解”“加深 HashMap理解”“加深Iterator接口理解”“了解map键值用法”等,说明学生对final关键字、对群集Map、迭代器以及接口等的掌握可能有所欠缺。然后使用 dfm()函数创建文档特征矩阵,应用 topfeatures()函数从特征矩阵中提取前90个特征,结果如表3所示。文档特征矩阵将词元作为行,将词元的计数作为列,例如“用户”在语料库中的计数是97。计数相同的词元视为
17、排名相同。从表中可以看到,学生对接口、容器、路径、输入、布局、窗口、框、Map、导入(import)等的学习目标未达成。接下来进行关键词分类查询。首先定义6类关键字,分别为异常、群集、流、接口、和图形界面。异常类中的关键字有 NullPointerException、InputMismatchException、try、catch;群集类中的关键字有List、Map、HashMap、key、value、equals、hashcode、Iterator、next、hasNextInterface;流类中的关键字有FileReader、FileInputStream、Scanner;接口类中的关键
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 分析 途径 课程 持续 改进 目标 识别 董东
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。