![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于DBSCAN和随机森林的单词记忆检索难度预测研究.pdf
《基于DBSCAN和随机森林的单词记忆检索难度预测研究.pdf》由会员分享,可在线阅读,更多相关《基于DBSCAN和随机森林的单词记忆检索难度预测研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、现代电子技术Modern Electronics Technique2023年11月1日第46卷第21期Nov.2023Vol.46 No.210 引 言单词记忆是语言学习的重要环节之一,而如何快速、有效地记忆单词一直是学习者和教育者所关注的问题。文 献 1表 明“Without grammar very little can be conveyed;Without vocabulary nothing can be conveyed”。目前对于单词记忆的研究已经比较充分,文献23研究了如何减少单词记忆的枯燥性;文献4运用艾宾浩斯遗忘曲线提出了最优化单词记忆方法;文献5提出了象形图解单词记忆的
2、方案。现有大部分研究追求如何高效地记忆单词,没有对人在记忆中的单词检索过程进行探讨。目前已有一些基于心理学的记忆检索研究。DOI:10.16652/j.issn.1004373x.2023.21.020引用格式:傅小倞,罗正军,杨艺豪,等.基于DBSCAN和随机森林的单词记忆检索难度预测研究J.现代电子技术,2023,46(21):105110.基于DBSCAN和随机森林的单词记忆检索难度预测研究傅小倞,罗正军,杨艺豪,郑祝倩(南京航空航天大学 经济与管理学院,江苏 南京 210000)摘 要:单词记忆检索是指人在记忆中搜索到一个单词的过程,是单词学习的重要方面。目前关于单词记忆检索的研究非常
3、有限。文中提出一种基于DBSCAN聚类和随机森林的单词记忆检索难度预测模型,通过仿真程序和机器学习算法,从单词自身特征出发预测单词记忆检索的难度。首先开发一个单词记忆检索仿真程序,根据仿真程序结果以及单词的字母组成结构、词性、使用频率构造特征向量,训练一个随机森林回归模型集用于预测单词记忆检索难度七维向量表达。另外,使用DBSCAN聚类算法获取单词难度标签,在此基础上训练一个随机森林分类预测模型用于预测单词的难度分类。实验结果表明:回归模型集平均拟合优度R2值达到了0.906;分类预测模型准确率达到了0.985;模型整体具有较好的鲁棒性。关键词:记忆检索;DBSCAN聚类;特征向量;回归模型;
4、分类预测;拟合优度;鲁棒性中图分类号:TN911.134 文献标识码:A 文章编号:1004373X(2023)21010506Research on word memory retrieval difficulty prediction based on DBSCAN and random forestFU Xiaoliang,LUO Zhengjun,YANG Yihao,ZHENG Zhuqian(School of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 21
5、0000,China)Abstract:Word memory retrieval refers to the process of finding a word in memory,which is an important aspect of word learning.Currently,the research on word memory retrieval is very limited.In view of this,a word memory retrieval difficulty prediction model based on DBSCAN clustering and
6、 random forest is proposed.Simulation programs and machine learning algorithms are used to predict the word memory retrieval difficulty based on the characteristics of words.A word memory retrieval simulation program is developed first,and then,according to the results of the simulation program,the
7、letter composition structure,the part of speech and the usage frequency of words,feature vectors are constructed,and a random forest regression model set is trained to predict the seven dimensional vector expression of the word memory retrieval difficulty.In addition,DBSCAN clustering algorithm is u
8、sed to obtain the word difficulty label,and on this basis,a random forest classification prediction model is trained to predict the difficulty classification of words.The experimental results show that the mean goodness of fit R value of regression model sets reaches 0.906,the accuracy rate of the c
9、lassification prediction model reaches 0.985,and the proposed model has good robustness as a whole.Keywords:memory retrieval;DBSCAN clustering;feature vector;regression model;classification prediction;goodness of fit;robustness收稿日期:20230330 修回日期:20230425基金项目:基于循数治理的可再生能源电力消纳机制及政策研究(ND2021002)105105现
10、代电子技术2023年第46卷文献6通过实验得到了工作记忆搜索和视觉搜索具有相同搜索机制的结论;文献7认为少量相似项目不会影响工作记忆序列的检索。但是目前尚未有针对单词的记忆检索研究,也没有研究从单词自身的角度去挖掘单词的哪些属性会决定其记忆检索难度。随机森林和聚类算法已被广泛应用于工程管理预测(如连铸坯纵裂预测8、陷落柱识别9、大型建筑能耗负荷预测10),且取得了较好的效果。本文提出一种将DBSCAN 聚类和随机森林相结合的单词记忆检索难度预测模型。该模型基于单词的固有特征,在单词记忆检索仿真程序的支持下,考虑了单词的字母组成结构、使用频率、词性等因素,预测出任意五个字母单词的记忆检索难度七维
11、向量表达,以及相应的难度分类。本文所提出的预测模型能够为进一步研究单词记忆检索机制提供有价值的实证支持。1 单词记忆检索难度预测模型1.1 单词特征单词记忆检索难度的特性与人的心理学机理密切相关,但是其共性取决于单词的固有特征。本文以字母组成结构、使用频率、词性作为决定单词记忆检索难度的固有特征。1.1.1 字母组成结构单词的字母组成结构是检索难度的决定性因素之一。部分研究强调字母存在类 SNARC 效应,人在对英文单词尾字母的加工过程中存在显著的类 SNARC 效应1112。因此本文认为不同字母组成结构的单词在人们记忆中被检索到的难易程度有差别。1.1.2 使用频率单词本身在日常生活中的使用
12、频率也会决定它的记忆检索难度。曾有实验证实单词使用频率越低,SNARC效应越显著13。因此本文认为具有不同使用频率的单词在人们的记忆中被检索到的难易程度也是不同的。1.1.3 词 性词性与字母结构和使用频率具有一定的相关性。比如在英语单词中,介词的数量大约只有 150个,大部分介词使用频率较高并且字母结构比较固定,因此本文将词性作为字母组成结构和使用频率的补充。1.2 数 据本文从美国COMAP公司的赛题中获取了一个数据文件,该文件是对 纽约时报 单词猜谜游戏的用户提交结果,能为模型的建立提供数据支撑。1.2.1 猜词游戏Wordle是 纽约时报 的一款猜单词游戏,每天提供一个秘密单词供广大玩
13、家猜测。玩家尝试通过在 6次或更少的尝试中猜出一个五个字母的单词来解决谜题。玩家每猜测一次都会获得相应的字母提示,随后根据之前的所有提示再重新猜测单词,直至猜对。具体游戏规则见Wordle官网13。1.2.2 数据说明美国COMAP公司统计了玩家的游玩结果并公开发布出一个Excel数据文件14,一共有359条记录。本文获取了该数据文件,将其记作数据E1。该数据文件中的玩家尝试次数百分比能够反映出一个单词被检索到的难度,即尝试次数越多的单词越难在记忆中被检索到。为了得到单词使用频率的信息,本文从一个单词库网站15上获取了一个由 74 995个单词组成的词典集合G,并从另一个网站16上获取了3 5
14、65个日常生活中高频出现的词汇,作为词典集合B。令S为所有单词的集合,B为高频词汇集合,C=S-B为低频词汇集合。1.2.3 数据预处理文件中的大部分单词都能在集合G中找到,以集合G中的词性标记为基础,为少数不能在集合G中找到的单词做人工标记。随后,将属于集合B的单词标记为高频词,属于集合C的单词标记为非高频词。将上述处理过后的数据文件记为数据E2。1.3 模型建立1.3.1 单词检索仿真程序人类玩家在猜词时会根据已经得到的提示信息在大脑中搜索可能正确的单词。本文开发了一个单词检索仿真程序来模拟人猜词的逻辑特征。首先建立一个全部由五个字母单词构成的词典空间。将集合G与数据E2中的单词取并集,只
15、选择所有字母数量为5的单词作为词典空间F。算法1展示了计算机模拟人猜词时的基本步骤。算法1:单词检索仿真程序算法Input:正确单词w0;词典空间F;集合B;最大重选次数YOutput:猜测次数n1:n=0;2:while F的单词数量1 do3:w=随机选取一个F中的单词;4:for y=1Y do5:if w C:6:w=随机抽取一个F中的单词;7:else:8:break;9:初始化三个列表:Ct,ICt,ILn;10:for k=04 do106第21期11:if w k=w0 k:12:将k添加到Ct列表;13:else if w k w0 k and w k w0:14:将k添加到
16、ICt列表;15:else if w k w0:16:将k添加到ILn列表;17:for all w1 A do18:for all i,j,kCt,ILn,ICt do19:if w i=w1i|w j w1|w j =w1 j w k w1:20:从A中删除w1;21:break;22:n+=1;23:return n本文的仿真程序抽取到生僻单词的概率更小,这与人类玩家更容易想到常用词这一事实是一致的。1.3.2 特征工程算法 1每执行一次,就相当于人类玩家进行一次猜词游戏。使用仿真程序完成相互独立的成千上万轮猜测,并统计计算机猜测结果的分布。为了预测第k次猜出某个单词的人类玩家比例,需要
17、把机器第k次猜出该单词的概率作为它的一个特征。在计算这个概率时,以频率fk代替概率。用列数为 130的行向量W表达单词字母组成结构的特征。其公式如下:W=L1,L2,L3,L4,L5(1)式中:Li是列数为 26 的行向量,表示单词的第i个字母的位置,存在位为1,非存在位均置为0。按照主流的英语语法,英语单词有 9种词性,它们分别是:名词、动词、形容词、副词、代词、冠词、介词、连词、感叹词。用列数为 9的行向量C表达单词的词性特征。同样将存在位置为1,非存在位均置为0。用列数为2的行向量U表达单词是否常用的特征。最终单词在第k次被猜测出的回归模型训练特征被构造为Fk,其公式如下:Fk=fk,W
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 DBSCAN 随机 森林 单词 记忆 检索 难度 预测 研究
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。