非平衡数据集下的高职学生就业预测模型_熊露露.pdf
《非平衡数据集下的高职学生就业预测模型_熊露露.pdf》由会员分享,可在线阅读,更多相关《非平衡数据集下的高职学生就业预测模型_熊露露.pdf(5页珍藏版)》请在咨信网上搜索。
1、2023 年第 3 期计算机与数字工程收稿日期:2022年8月14日,修回日期:2022年9月18日基金项目:自治区高校科研项目(编号:XJEDU2017S032);新疆师范大学“数据安全”重点验室招标项目(编号:XJNUSYS102017B04)资助。作者简介:熊露露,女,硕士研究生,研究方向:教育数据挖掘。年梅,女,博士,教授,研究方向:计算机网络。张俊,男,硕士,工程师,研究方向:SDN及网络安全。1引言高职学生的就业率是高职院校学生培养质量的重要体现,而就业预测指对未毕业的学生能否就业进行预测,提前对可能就业困难的学生进行有效的指导,提高学生的就业率,促进高职院校学生扩招工作良性循环发
2、展。2就业预测相关研究近年来,国内外很多学者对影响学生就业的因素和就业预测模型进行了研究。李琦1运用互信息和权重相结合的特征选择算法HMIGW以及XGBoost分类预测算法,对本科毕业生就业情况和就业类型进行预测;马茂源2利用半监督自训练方法非平衡数据集下的高职学生就业预测模型熊露露1,2年梅1张俊3(1.新疆师范大学乌鲁木齐830054)(2.新疆铁道职业技术学院乌鲁木齐830000)(3.中国科学院新疆理化技术研究所乌鲁木齐830011)摘要传统机器学习算法对不平衡数据进行二分类时,容易出现分类偏移问题,就业预测数据存在正负样本不平衡问题,为了提高就业预测的精度,论文设计了ADASYN-S
3、MOTE-RF就业预测模型。首先使用ADASYN-SMOTE算法对训练集生成和扩充小类样本,然后使用随机森林(RF)算法建立预测模型。实验结果表明,ADASYN-SMOTE-RF模型较好地解决了样本不均衡导致的预测准确度不高的问题,为高职学生就业率的提高提供技术支持。关键词就业预测;ADASYN-SMOTE-RF;过采样处理;随机森林;就业率中图分类号TP391DOI:10.3969/j.issn.1672-9722.2023.03.025Employment Forecasting Model of Higher Vocational StudentsBased on Unbalanced
4、Data SetXIONG Lulu1,2NIAN Mei1ZHANG Jun3(1.Xinjiang Normal University,Urumqi830054)(2.Xinjiang Railway Vocational and Technical College,Urumqi830000)(3.Xinjiang Institute of Physical and Chemical Technology,Chinese Academy of Sciences,Urumqi830011)AbstractWhen the traditional machine learning algori
5、thm is used to classify the unbalanced data,it is easy to have the problem of classification deviation.The employment forecast data has the problem of imbalance between positive and negative samples.In order to improve the accuracy of employment prediction,this paper designs the ADASYN-SMOTE-RF empl
6、oyment predictionmodel.Firstly,the ADASYN-SMOTE-RF algorithm is used to generate and expand the small class samples for the training set,andthen the random forest(RF)algorithm is used to establish the model prediction model.The experimental results show that ADAASYN-SMOTE-RF model can solve the prob
7、lem of low prediction accuracy caused by unbalanced samples,and provide technical support for the improvement of employment rate of higher vocational students.Key Wordsemployment forecast,ADASYN-SMOTE-RF,oversampling,random forest,employment rateClass NumberTP391总第 401期2023 年第 3期计算机与数字工程Computer&Dig
8、ital EngineeringVol.51No.3675第 51 卷解决就业预测样本不均衡使分类器精度低的问题;李想3采用灰色模型和神经网络对大学生就业数进行预测;程昌品4等利用决策树算法对本科毕业生就业进行了预测。从以上文献可知,现有的就业预测研究主要面向本科生进行,高职学生就业预测的研究成果较少;此外现有的就业预测模型大多基于平衡数据集的机器学习算法,对于类别样本不平衡的数据集,分类器倾向于将所有的样本预测为样本数目较多的类别56,预测结果没有实际意义。而就业预测的目的是找出数目较少的未就业学生,并基于其存在的问题进行针对性的就业指导,从而提高学生整体的就业率。以上研究成果均无法解决上述
9、问题。围绕如何解决非平衡数据集下的高职学生就业预测问题,本文的主要贡献如下:1)创新性地提出了基于 ADASYN-SMOTE 算法的小类样本生成策略,有效地解决了机器学习对于不平衡数据集中小类样本误判问题。2)基于 ADASYN-SMOTE 算法构建后的平衡数据集,运用随机森林算法建立高职学生就业预测模型,该模型不仅具有更高的泛化能力,并且能全面准确地预测出不能就业的学生,对于提高高职学生就业率具有较高的实用价值。3构建高职学生就业预测模型3.1数据准备3.1.1数据对象的采集本研究以某高职院校的毕业生就业和成绩数据为研究对象。从学校招生就业系统中提取2016年2020年毕业生就业数据3778
10、条记录,从教务管理系统中提取相应毕业生 3 年 6 学期成绩数据22668条记录。3.1.2数据预处理将每名学生3年6学期所有成绩按照学号进行整合,学生成绩由原来的22688条减少到3778条。为了能够体现学生的综合学习质量,按照人才培养方案将学生的成绩整合为基础、专业基础、专业、专业核心、技能鉴定、实习、实训、职业生涯规划、论文 9 个类别的成绩。各类别平均分按照式(1)计算得到:Cmi=j=1kCmijk(1)其中Cmi为第m个学生的第i类别成绩的平均分,每个学生成绩Ci(基础,专业基础论文),m(1,3778)。Cmij为第m个学生的第i类别中的j科目成绩,k为i类别中科目总数。将就业数
11、据和处理后的成绩数据通过“学号”关联合并,用均值填充缺失数据;将定性数据改为数值型数据,如就业属性列中“就业”为 0,“未就业”为1;为了消除特征数据之间的量纲影响,运用最大-最小规范化使数据取值范围为 0,1,使各指标处于同一数量级,以便进行综合对比和评价。3.2就业预测指标变量选取就业预测需要准确选取预测指标变量,本文使用递归特征消除法RFE对就业预测指标选取。递归特征消除法(Recursive Feature Elimination,RFE)属于包装法中非线性分类器中的重要方法,该方法可以选择高质量的子集7。将最大最小规范化的指标数据输入到以随机森林作为基模型,目标变量为RFE的特征选择
12、模型,通过计算得到不同特征数下模型性能分数,如图1所示(横坐标为特征数,纵坐标为模型性能分数)。0.920.910.900.890.880.870.860.85246810121416图1特征数与模型性能之间的关系由图1中可以看出,特征数是14时模型的性能最好,所以本研究采用排名为前14的特征作为分类模型的特征。3.3基于ADASYN-SMOTE的不平衡数据处理3.3.1ADASYN算法ADASYN算法8,根据少数类样本的分布特点自适应地引入新样本缓解数据不平衡的问题9。但ADASYN算法会造成在易分类边界合成较少样本,难分类边界合成较多样本10,易受离群点的影响。3.3.2SMOTE算法SM
13、OTE算法11,则是在少数类样本和其相邻少数类邻居的连线上引入合成样本,以消除类间不平衡度。但该算法未考虑样本的分布特点,合成的新少数类样本点会与原始数据高度相似,甚至重复,很难为分类器提供新的分类信息12。本文数据集存在样本不均衡问题,单独使用ADASYN算法或SMOTE算法均无法达到平衡数据熊露露等:非平衡数据集下的高职学生就业预测模型6762023 年第 3 期计算机与数字工程的最佳效果,故此,本文创新性地提出 ADASYN-SMOTE过采样算法,解决样本的均衡性问题。3.3.3基于ADASYN和SMOTE算法的小类样本合成算法将整个训练集中n个样本 xi,yi,i=1,2n,其中xi是
14、多维空间X的一个样本,yiY=0,1是分类标签,yi=1是小类样本(“未就业”),yi=0是大类样本(“就业”)。ms是少类样本数,ml是大类样本数。ms+ml=n,且msml。1)计算每个小类在样本中的K近邻,其近邻的大样本数量记为k1;2)比较k与k1的值,若k1=k,即样本点周围都是大类样本,将该小类样本删除;若k/2k1k,则认为该样本属于边界区域中,将其放入Merge集合中;如果0k1k/2,则认为其不在边界区域中,将其放入Middle集合中;3)计算Merge和Middle集合中样本数量,分别记为 n1 和 n2。其中 Merge=a1,a2an1,Middle=b1,b2bn2;
15、Merge集合中的插值率Gi:Gi=n1ml,扩充倍数h=mlms;4)计算合成小样本的总数:G=(ml-ms)*,其中(0,1),表示加入合成样本后的不均衡度;5)找出 Merge 集合中每个少数类样本ai在 n维空间的k近邻,计算其比率ri=ik,i=1,2n1,其 中i是ai的 k 近 邻 中 大 类 样 本 的 数 量,ri(0,1;6)正则化 r,r?i=rii=1msri,ri实际上为概率分布(r?i=1);7)对于Merge集合中的每个少数类样本ai根据gi=Gi*r?i*G*h,计算需合成的少数类样本数,按照如下的方法对ai生成gi个样本:对1gi个样本执行(1)(2)循环:(
16、1)在每个待合成的少数类样本ai周围k个邻居中选择一个少数类样本azi。(2)依据式(2)进行插值:xj=ai+(azi-ai)(2)8)计算Merge集合中小类样本的插值总数M:M=i=1n1gi,则Middle集合中每个少数类样本的采样倍率N为:N=G-Mn29)对于 Middle 中每个少数类样本bm,其中m(1,n2),按照如下的方法对于每个少数类样本bm生成N个样本:对1N个样本执行以下循环:(1)以欧式距离为标准计算其到少数类样本集中所有样本的距离,得到其 k 个近邻,记为 Z=b1,b2bn3,从中选取bm1,其中m1(1,n3)。(2)按照式(3)计算插值:anew=am1+r
17、and(0,1)*|bm1-bm|(3)3.4基于RF的毕业生就业预测模型随机森林算法13是复合决策树的集成机器学习算法,采用“袋装”方法训练数据,该算法具有准确、高效,鲁棒等优点。算法的数学模型公式如式(4):fRF(x)=1Nt=0Th(x;at)(4)将数据集按照9 1的比例分为训练集和测试集。对训练集数据进行 ADASYN-SMOTE 过采样处理,然后使用随机森林模型进行训练。用测试集验证,对测试结果分析,并通过绘制学习率曲线的方 式 确 定 当 参 数 n_estimators=90,min_samples_split=2时随机森林模型效果最优。4实验结果与分析准确率作为传统分类器算
18、法的判断依据,在不平衡数据集中单独使用没有实际意义。为了更科学地描述实验结果,本文采用AUC14,F1-score15,Accuracy判断模型效果。AUC的取值介于0.1和1之间,值越接近于1越好,相比于其他的评价指标更具有泛化性16。就业预测的重要目的是对未就业学生的准确全面预测,F1-score是查准率和查全率的调和平均值,F1-score越大,对未就业学生预测越全面准确;Accuracy是分类器对正负样本总体的预测准确率,值越接近于1越好。测试后的实验结果如表1所示,由该表可知,运用 ADASYN-SMOTE-RF 算法,F1-score 比原始数据-RF提高11%,比ADASYN-R
19、F算法提高8%,比 SMOTE-RF 算 法 提 高 5%,比 ADASYN 和SMOTE-RF10算法提高 6%;Accuracy值和 AUC值均最大,该结果充分说明了 ADASYN-SMOTE-RF模型在对不均衡就业数据预测方面的精度和泛化能力均最强。677第 51 卷表1实验结果表算法原始数据-RFADASYN-SMOTE-RFADASYN和SMOTE-RFADASYN-RFSMOTE-RFF1-score0.740.850.790.770.80Accuracy0.93630.95760.94690.92830.9416AUC0.9530.9710.9610.9690.8905结语本文使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 平衡 数据 高职 学生 就业 预测 模型 露露
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。