基于Open XML和有限自动机的试卷自动生成系统.pdf
《基于Open XML和有限自动机的试卷自动生成系统.pdf》由会员分享,可在线阅读,更多相关《基于Open XML和有限自动机的试卷自动生成系统.pdf(6页珍藏版)》请在咨信网上搜索。
1、顺 德 职 业 技 术 学 院 学 报第 21 卷38基于 Open XML 和有限自动机的试卷自动生成系统林晓1,吴为民2*,刘勇峰1(1.福建船政交通职业学院 人事处,福建 福州 350007;2.福建船政交通职业学院 信息与智慧交通学院,福建 福州 350007)摘要:考试出题讲究高保密性和高时效性,不允许将题目事先导入数据库再自动生成试卷,需要现场从大量的 WORD 文档中直接抽取题目并排版生成试卷,这是一项耗时耗力的工作。本研究利用 Open XML 文档的开源性,直接对 DOCX 和 XLSX 文档的内容进行分析读取,并利用有限状态自动机原理对文档的内容进行分类处理,自动生成试卷、
2、答案卷和答题卡文档。实验表明这种方法能够正确按照要求生成试卷,既解决了考试中的保密性要求又提高了工作效率,节省了人力成本。关键词:Open XML 标准;有限自动机;试卷自动生成中图分类号:TP391,G405 文献标志码:A 文章编号:1672-6138(2023)03-0038-06DOI:10.3969/j.issn.1672-6138.2023.03.007 收稿日期:2023-05-24 基金项目:福建省教育厅 2021 年度中青年教师教育科研项目(FZJX21B-039);2022 年校级科教发展基金项目(20220209)。作者简介:林晓(1984),女,福建福州人,助理研究员,
3、硕士,研究方向:教育管理、职业教育。通讯简介:吴为民(1970),男,教授,E-mail:。第 21 卷 第 3 期2023 年 7 月Vol.21 No.3July 2023顺 德 职 业 技 术 学 院 学 报Journal of Shunde Polytechnic考试作为鉴定知识水平的一种方法,已经延续了上千年。命题的全过程包括了几个重要的环节,出题、选题、组题、试卷排版、参考答案、封装。随着信息技术的不断发展,自动试卷生成机制,为命题这一复杂的事项带来了便捷。自动试卷生成机制具有系统、可靠、保密性高、可重复等优势,特别适用于笔试的出题工作。许多笔试对题库保密性要求非常高,有的甚至要求
4、仅在出题的当天,在监督人员的监督下,由出题专家当场解封题库或者现场出题,且出题的环境与外界隔绝联系;除命题专家研究选择考题外,有时还需要工作人员将试题进行电子化转码,以及将电子试题排版、打印、装订、封袋等。在题量大、考生多的情况时,工作人员的人工工作就非常耗时,且容易出错1。1 研究现状大多数试卷生成系统基于服务器架构的设计,利用数据库对试题进行标准化处理,已有多位学者展开研究,贾寒霜等提出运用 ASP.NET 开发,结合SQLSERVER 数据库,利用 WEB 数据库存储技术以实现网络组卷在线考试2;韦忠庆等提出基于 SaaS模式,采用改进遗传算法的智能组卷算法实现公布式在线考试3;韩啸等提
5、出基因表达式编程算法,通过使用适当的遗传算子,采用线性定长的编码方式实现构造智能组卷方法4;焦瑞等采用计算机提供的随机函数结合智能思路确定试题库结构5;秦哲韩等为了降低组卷难度和提高组卷效率,采用PHP 技术,结合 My SQL 数据库、Excel 文件及手动输入组成的试题库开发新的智能组卷系统6;王高平等提出通过遗传算法使试卷生成结合课程以及所要考查的知识点,试卷的难度,不同题型的不同分值和数量,以及总分的限制等要求7。这种传统的试卷生成系统均需使用数据库软件用于存储试题,出题前期工序复杂,需要拟定大量的题库,且事先科技与应用第 3 期39规范好格式并录入到系统中。由于在试题录入过程和数据库
6、管理过程,都存在泄密的风险,而且数据库存储题库的可视化程度不高,如何利用计算机技术在封闭的环境下、无数据库题库软件支持、无法事先获得题目的情况下进行快速出题,既要满足考试考务工作保密性高和时间短的要求,又要克服手工操作带来的速度慢、错误多等问题,成为需要解决的问题。2 基于OXML的WORD文档内容的解析与提取Open XML(Open eXtensible Markup Language)是一种文档的国际化标准,实现文件格式的互操作性。出题人员在现场用于出题的题库资料一般都是以 WORD文档的 DOCX 格式存储,或者可在现场转为 WORD文档 DOCX 格式。OXML(Open eXten
7、sible Markup Language)架构已经成为通用的标准化,被各大软件厂商所支持的文档架构,可以实现跨平台,在不同的应用中打开8。刘伟男对 WORD 的 OXML 格式进行了分析并开发了智能处理桌面系统9;杨英等提出了一种针对复制类作弊的检测方法10。Open XML 标准使得 DOCX 文档、XLSX 文档自动处理成为可能。利用DOCX 格式文档和 XLSX 文档的 Open XML 的架构,可直接对其内容和格式通过应用程序进行应用层的处理,再生成新的 Open XML 文档。这样便可脱离数据库软件,实现题库信息的存储与处理,既满足笔试保密性的要求,又减少笔试出题的人力及时间成本。
8、WORD 的 DOCX 文档以 ZIP 包的形式存储,包的格式遵守 ISO/IEC 29500-2 标准11。ZIP 包里面包含多个 Open XML 格式的文件,文件内容包括了 XML文档之间的关系定义、文档属性、内容数据,内容类型等,如图 1 所示。最基本的 DOCX 文档内容文件为document.xml 文件,其结构内容包括 节点,节点包含子节点 节点,节点又包含多个块级节点元素,如。中包含多个 元素,元素表示连续的文本,节点在元素 中,文档的内容存储在 节点中,本系统主要从 节点提取出文本信息进行处理,如图 2 所示。图 1 一个 word 文档 test.docx 包结构图图 2
9、一个 word 文档 document.xml 样例片段由于初始的 WORD 题库文档是由不同的专家或部门提供的,文档的格式存在不规范、不完全相同的情况,所以系统一开始需要对题库的 WORD 文件进行预处理。预处理的内容包括多个方面,例如将DOC 文档转为 DOCX 文档;对回车换行用 节点替代;将所有段落的列表编号方式改为纯文本方式,以方便处理;将全角的中文都统一为半角的中文;图片是试卷内容的重要部分,为方便处理,事先将 WORD 文档段落包含的图像都预先存储到一个文件夹中,图像的位置用“-image1-”、“-image2-”、“-imagen-”来取替代,以简化处理的流程,在生成试卷的时
10、候,林晓,等:基于 Open XML 和有限自动机的试卷自动生成系统顺 德 职 业 技 术 学 院 学 报第 21 卷40再把“-imagen-”重新替代为图片;通过对题库文件的预处理,规范文档 XML 格式,同时对题库文件格式进行统一,消除文档中有歧义的地方,保证题库的规范性。在预处理完成之后,系统提取出文档包含的文字内容,用正则表达式 RE(Regular Expression)实现对文本内容的分割、提取和匹配。例如,规定以阿拉伯数字开始后面有跟踪分隔符的文本是题干,通过使用正则表达式分离出题号、提取关键特征词等来判断是否是题干,其中分离题号的正则表达式如下:s|t *(d+)、|.|s|
11、.|t .*实现对 WORD 题库文件的程序级别内容提取与分析,将产生的内容提供给下一阶段有限状态机进行处理。在最后生成试卷、答案卷和答题卡的阶段,根据 Open XML 标准对已有的模板生成对应的 DOCX文档,如图 3 所示。对象从一种状态迁移到另外一种状态,并执行不同的动作。本研究使用确定的有限状态自动机(DFA,Deterministic Finite Machine),其定义如下:DFA=(Q,q0,F)(1)其中 Q 是所有状态的集合,是所有输入的集合,q0代表初始状态,F 是接受状态的集合,是状态转移函数 QQ。本研究利用确定性有限状态机对题库的读取过程进行建模。从题库的 WOR
12、D 文档中提取出的段落文字按内容分为三个类别,分别是题干部分、选项部分、答案部分。每次读取 word 一个段落,根据读取的内容使状态机进入不同的状态,进行相应的读写操作。根据有限状态机的定义:表 1 表示输入的动作内容列表。表 2 中 A 代表文字内容检测结果 A,B 代表文字内容检测结果 B,C 代表代表文字内容检测结果 C,D 代表代表文字内容检测结果 D,S0代表 IDLE 状态,S1代表题干状态,S2代表选项状态,S3代表答案状态,S4代表结束状态。本系统的确定性有限状态机模型如图 4 所示,圆形代表状态,同心圆代表接受状态 F。我们默认文档的第一段是题干,非题干的文字内容都略去,所以
13、在空闲状态 S0时候,检测结果 A 才能跳转到接受状态 S1。输入含义正则表达式A检索到数字序号开头,如“1.”“1、”等0-9+.、sB检索文字中包含吧“答案”.*答案.*C检索到以ABCDEF开头ABCDEF.D读到文件尾部表 1 输入动作表Q=S0_IDLE 状态,S1_ 题于状态,S2_ 选项状态,S3_ 答案状态,S4_ 结束状态(2)q0=S0_IDLE 状态(3)=文字内容检测结果 A,文字内容检测结果B,文字内容检测结果 C,文字内容检测结果 D(4)F=S1_ 题干状态,S2_ 选项状态,S3_ 答案状态,S4_ 结束状态(5)现状态S0S0S0S1S1S1S1S2S2S2S
14、2S3S3S3S3输入AB,CDABCDABCDABCD新状态S1S0S4S1S2S3S4S1S2S3S4S1S2S3S4表 2 状态转移函数表图 3 试卷文档预处理流程对文档内容进行OXML 分析与提取DOC 转为DOCX 格式DOCX 的规范化处理WORD 文档预处理3 基于确定性有限状态机的试卷生成设计通常情况下 WORD 题库文件中题目和答案存在于同一个文档中,则需要对其内容进行分析判断和分类处理,再依据组卷策略生成最终需要的试卷。本研究利用有限状态自动机原理对文本的内容进行分类处理。有限状态机(FSM,Finite State Machine)是基于单个对象状态转换序列的计算模型12
15、-13,对象在任意一个时刻只有一种状态,根据输入的不同,使得第 3 期415 系统的实现与测试评估本系统的实现语言为 Python,用 Pyqt 库实现界面编程,通过 python-docx 库,lxml 库的接口对Open XML 文档进行读取与生成。系统的主界面图如图 8 所示。系统支持的试题题型有单选、多选、判断、填空、简答等,题型可以根据需求增加。系统需要对题库的 WORD 题库文件名进行规范,规则如下:将单选题题库文件名定义为 DX_A-Z.docx,例如 DX_A.docx、DX_B.docx;将多选题的题库文件文件名为MX_A-Z.docx,例 如 MX_A.docx、MX_B.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于Open XML和有限自动机的试卷自动生成系统 基于 Open XML 有限 自动机 试卷 自动 生成 系统
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。