![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于EasyEnsemble和XGBoost的冠心病预测模型研究.pdf
《基于EasyEnsemble和XGBoost的冠心病预测模型研究.pdf》由会员分享,可在线阅读,更多相关《基于EasyEnsemble和XGBoost的冠心病预测模型研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、计算机时代 2023年 第12期0 引言据不完全统计,截至2018年,我国的心血管疾病患者数量高达3.3亿1。心血管疾病死亡率高居城乡居民总死亡率首位,其中农村居民为46.66%,城市居民为43.81%。近年来人工智能辅助诊疗技术成为热门研究方向,基于机器学习的辅助医疗技术也不断成熟。就心血管疾病而言,其重要的行为风险是吸烟、酗酒、不健康饮食、缺乏锻炼等。行为风险因素的影响在个体中表现为血压高、血糖高、血脂高、超重和肥胖等。这些表现是可以量化的,根据这些影响结果的量化数据做数据分析,识别出易患病、已患病的人群,让其早日接受治疗,有助于提高人民群众健康水平。医疗预测应着重观察患病样本的预测准确性
2、。实际情况中,医疗类数据集存在数据不平衡的情况,即健康样本多于患病样本。故使用人工智能方法做预测时,可以采用数据平衡算法、引入注意力机制等方法,来提高患病样本的识别准确率。DOI:10.16644/33-1094/tp.2023.12.014基于EasyEnsemble和XGBoost的冠心病预测模型研究*彭昊1,申艳光1,李焰2(1.河北工程大学信息与电气工程学院,河北 邯郸 056000;2.河北工程大学附属医院)摘要:针对医疗样本不平衡的问题,使用集成采样EasyEnsemble算法和XGBoost算法结合,搭建冠心病预测模型,来提高患病样本识别准确率。选用公开弗雷明翰冠心病数据集,对数
3、据预处理后,先采用EasyEnsemble算法平衡数据集,后采用极端梯度提升算法XGBoost作为基分类器进行训练,调整各项实验参数,并采用准确率、召回率、ROC曲线下面积(AUC)等指标评价模型。实验结果表明,相较于XGBoost、过采样SMOTE+XGBoost、欠采样TomekLinks+XGBoost三种方法,EasyEnsemble+XGBoost模型极大地提高了召回率。关键词:冠心病;疾病预测;XGBoost;SMOTE;EasyEnsemble中图分类号:TP181;R54文献标识码:A文章编号:1006-8228(2023)12-64-04Research on coronar
4、y heart disease prediction model based on EasyEnsemble and XGBoostPeng Hao1,Shen Yanguang1,Li Yan2(1.School of Information Electrical Engineering,Hebei University of Engineering,Handan,Hebei 056000,China;2.Affiliated Hospital of Hebei Engineering University)Abstract:In response to the issue of imbal
5、anced medical samples,the integrated sampling EasyEnsemble algorithm and XGBoostalgorithm are combined to build a coronary heart disease prediction model to improve the accuracy of disease sample recognition.Selecting the publicly available Framingham coronary heart disease dataset and after preproc
6、essing the data,the EasyEnsemblealgorithm is used to balance the dataset,and then the extreme gradient boosting algorithm XGBoost is used as the base classifierfor training.Various experimental parameters are adjusted,and the model is evaluated using indicators such as accuracy,recall,andAUC(area un
7、der ROC curve).The experimental results show that compared to the three methods of XGBoost,oversamplingSMOTE+XGBoost,and undersampling TomekLinks+XGBoost,the EasyEnsemble+XGBoost model greatly improves the recall rate.Key words:coronary heart disease;disease prediction;XGBoost;SMOTE;EasyEnsemble收稿日期
8、:2023-09-14*基金项目:河北省医学科学研究项目(20220037)作者简介:彭昊(1997-),男,河北邯郸人,硕士研究生,主要研究方向:机器学习。通讯作者:申艳光(1970-),女,河北邯郸人,硕士,教授,CCF会员,硕士生导师,主要研究方向:机器学习、数据挖掘。64Computer Era No.12 2023以冠心病为例,林加仑2等人使用逻辑回归 LR、支持向量机SVM、极端梯度提升XGBoost算法进行预测;洪韵3等人使用SMOTE+logisitic、SMOTE+XGBoost算法预测,分别取得了67%、76%的准确度;Hoda4使用 KNN 算法,取得了 66.7%的准确
9、度;蒋林甫5使用PCHD-TABNET算法预测,虽然只取得了60%的准确度,但患病样本的识别准确率却有极大提升。综上,本文以冠心病预测为主题,结合患病人群和正常人群的医疗数据,运用过采样、欠采样和集成采样三种算法来平衡数据集,使用XGBoost算法进行模型训练,建立对应的冠心病的预测模型,为冠心病高危人群的防治提供参考。1 数据预处理1.1 数据来源本文数据集来是国外机器学习竞赛Kaggle网站的马萨诸塞州弗雷明翰镇居民的心血管研究数据集。该数据集可预测患者在未来十年内是否会患冠心病。数据集包含 4240例样本、15项特征属性、一项结果。样本当中,十年内发病患者644例,不发作3596例,二者
10、数量差接近六倍,存在数据不平衡现象。特征属性当中Sex(性别)、Education(教育水平)、BPmeds(是否服用降压药)、Currentsmoke(是否吸烟)、Diabetes(糖尿病)、Prevalentstroke(中风)、prevalentHyp(高血压)、CigsPerDay(吸烟数量)为离散型变量,Totchol(血清总胆固醇)、BMI(体重指数)、Glucose(血糖)、Heartrate(心率)、Age(年龄)、Sysbp(收缩压)、Diabp(舒张压)为连续型变量。TenYearCHD(未来十年内是否患病)记录结果,其中0为负例代表健康样本,1为正例代表患病样本。1.2
11、数据处理1.2.1 缺失值处理本文采用的数据集中,有七项特征存在缺失现象,依 次 为 Glucose、Education、Bpmeds、Totchol、CigsPerDay、BMI、Heartrate,分别缺失 9.15%、2.48%、1.25%、1.18%、0.68%、0.45%、0.02%,含有缺失值数据总占比 15.21%。数据缺失会增加分析预测的难度,提 高运算时间,降低结果准确性。因此,本文对Education、BPMeds采用众数填补,对Glucose、TotChol、CigsPerDay、BMI、Heartrate采用均值填补。1.2.2 离群值处理医疗样本中,必然存在一些特征中
12、的数据远超正常范围。数据分析时发现,Totchol、SysBP、Glucose等特征存在大量离群值。为了减小异常值对训练的影响,在尽量保留数据特征的情况下,本文将上述存在离群值的特征范围上界修正为当前最大值的75%,超出该范围的数据修改为范围上界。数据处理完毕后,将数据集按照8:2划分训练集和测试集。训练集 3392 例,其中健康样本 2877 例,患病样本515例;测试集848例,其中健康样本719例,患病样本129例。后续所有采样算法均只在训练集上操作。2 模型搭建2.1 XGBoost算法原理XGBoost是一种 Boosting集成树模型,核心思想是将多个弱分类器集成成为一个强分类器。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 EasyEnsemble XGBoost 冠心病 预测 模型 研究
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。