基于机器学习方法的早期糖尿病风险预测.pdf
《基于机器学习方法的早期糖尿病风险预测.pdf》由会员分享,可在线阅读,更多相关《基于机器学习方法的早期糖尿病风险预测.pdf(11页珍藏版)》请在咨信网上搜索。
1、Statistics and Application 统计学与应用统计学与应用,2023,12(4),974-984 Published Online August 2023 in Hans.https:/www.hanspub.org/journal/sa https:/doi.org/10.12677/sa.2023.124101 文章引用文章引用:练春兰.基于机器学习方法的早期糖尿病风险预测J.统计学与应用,2023,12(4):974-984.DOI:10.12677/sa.2023.124101 基于机器学习方基于机器学习方法法的的早期糖尿病风险预测早期糖尿病风险预测 练春兰练春兰
2、云南财经大学统计与数学学院,云南 昆明 收稿日期:2023年7月16日;录用日期:2023年8月6日;发布日期:2023年8月18日 摘摘 要要 糖尿糖尿病疾病病疾病是一个日益严重的医学问题,它是一种代谢疾病,身体内的葡萄糖长期处于一个高水平的状是一个日益严重的医学问题,它是一种代谢疾病,身体内的葡萄糖长期处于一个高水平的状态,会产生尿频、口渴、饥饿程态,会产生尿频、口渴、饥饿程度加剧等症状,从而导致肾衰竭、中风、视力受损等并发症的产生。糖度加剧等症状,从而导致肾衰竭、中风、视力受损等并发症的产生。糖尿病的识别往往是病人询问医生或者是到诊断中心询问,会使诊断过程过于繁琐。但是逐步上升的机器尿病
3、的识别往往是病人询问医生或者是到诊断中心询问,会使诊断过程过于繁琐。但是逐步上升的机器学习方法解决了这一问题。本次研究的目的是采用机器学习方法,预测患者患糖尿病的可能性。因此采学习方法解决了这一问题。本次研究的目的是采用机器学习方法,预测患者患糖尿病的可能性。因此采用四个机器学习分类算法,即朴素贝叶斯、决策树、随机森林及逻辑斯蒂回归,来检测早期糖尿病。实用四个机器学习分类算法,即朴素贝叶斯、决策树、随机森林及逻辑斯蒂回归,来检测早期糖尿病。实验采用的是验采用的是UCI机器学习库中,从孟加拉国锡尔赫特的锡尔赫特医院患者那里收集的直接问卷。这四个机器学习库中,从孟加拉国锡尔赫特的锡尔赫特医院患者那
4、里收集的直接问卷。这四个算法的性能评估采用准确率来进行评估。实验显示随机森林的精度优于其他算法,达到了算法的性能评估采用准确率来进行评估。实验显示随机森林的精度优于其他算法,达到了98.07%。关键词关键词 朴素贝叶斯,决策树,随机森林,逻辑斯蒂回归,朴素贝叶斯,决策树,随机森林,逻辑斯蒂回归,R语言语言 Machine Learning-Based Approach to Early Diabetes Risk Prediction Chunlan Lian College of Statistics and Mathematics,Yunnan University of Finance
5、and Economics,Kunming Yunnan Received:Jul.16th,2023;accepted:Aug.6th,2023;published:Aug.18th,2023 Abstract Diabetic disease is a growing medical problem.It is a metabolic disease in which glucose in the body remains at a high level for a long time,producing symptoms such as frequent urination,thirst
6、 and increased hunger levels,which can lead to complications such as kidney failure,stroke and impaired vision.Diabetes is often identified by the patient asking a doctor or visiting a diag-nostic centre,which can make the diagnosis process too cumbersome.But progressively increas-ing machine learni
7、ng methods solve this problem.The aim of this study was to use machine learning 练春兰 DOI:10.12677/sa.2023.124101 975 统计学与应用 methods to predict the likelihood of a patient developing diabetes.Four machine learning classi-fication algorithms,namely,plain Bayesian,decision tree,random forest and logisti
8、c regression,were therefore used to detect early diabetes.The experiments were conducted using direct ques-tionnaires collected from patients at Sylhet Hospital,Sylhet,Bangladesh,from the UCI Machine Learning Library.The performance of these four algorithms was evaluated using accuracy.The experimen
9、ts showed that Random Forest outperformed the other algorithms with an accuracy of 98.07%.Keywords Naive Bayes,Decision Trees,Random Forest,Logistic Regression,R Language Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International Lic
10、ense(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 2021 年 12 月 6 日,国际糖尿病联盟(IDF)发布了最新的全球糖尿病数据,据统计 2021 年全球约 5.37亿成年人(2079 岁)患有糖尿病(10 个人中就有 1 人为糖尿病患者);预计到 2030 年,该数字将上升到 6.43亿;到 2045 年将上升到 7.83 亿。在此期间,世界人口估计增长 20%,而糖尿病患者人数估计增加 46%。低收入和中等收入国家的患病率上升速度高于高收入国家。糖尿病是失明、肾衰竭、心脏病发作、中风和下肢截肢的主要病因。2
11、000 年至 2019 年期间,糖尿病导致的死亡增加了 3%。2019 年,糖尿病以及糖尿病引起的肾脏疾病估计造成 200 万人死亡。可以看出糖尿病的经济成本似乎在全球范围内都有所增加。糖尿病是由于胰腺细胞产生的胰岛素不足或身体细胞对产生的胰岛素没有适当反应,导致碳水化合物、脂肪、蛋白质代谢紊乱,造成多种器官的慢性损伤、功能障碍甚至衰竭1。糖尿病主要有四种类型2,它们分别是:1)I 型糖尿病:发病与 T 细胞介导的自身免疫导致胰岛 细胞的选择性破坏,胰岛素分泌减少和绝对缺乏有关,单用口服药无效,需要注射胰岛素来治疗3。2)II 型糖尿病:发病由遗传易感性和现代生活方式(膳食、运动)造成的胰岛素
12、分泌缺陷造成3。3)其他特殊类型:肝脏疾病、慢性肾功能不全、多种内分泌疾病、急性感染、创伤,外科手术都可能导致血糖一过性升高3。4)妊娠糖尿病:妊娠期间引发的糖尿病,产后需控制恢复,仍是危险人群。一般情况下在婴儿出生之后就会消退3。机器学习的分类算法广泛应用与医学领域的数据分类。糖尿病受身高、体重、遗传和胰岛素功能等功能的影响,我们考虑的主要因素就是血糖浓度。早期识别是唯一远离并发症的补救方法4。许多研究者进行疾病诊断实验时,会使用各种分类的机器学习算法,例如:支持向量机(SVM)5、朴素贝叶斯6、决策树7、逻辑斯蒂回归8、神经网络9等等。数据挖掘10和机器学习方法对于来自不同数据源的数据的疾
13、病诊断处理具有强大的能力11。在研究糖尿病,Nai-Arun 等人12提出了一种分类集成学习来研究糖尿病,利用增益比特征选择技术对数据进行分析。Orabi 等人13介绍了一种通过提高预防措施警报来帮助人们的方法。它是糖尿病疾病的预测系统,它将预测是否成为候选人以及在什么年龄。该系统基于机器学习概念,使用决策树技术,通过添加带有随机化代码的回归技术来预测年龄。Bamnote 等人14Open AccessOpen Access练春兰 DOI:10.12677/sa.2023.124101 976 统计学与应用 提出了一种使用遗传编程(GP)检测糖尿病的分类器,使用分类表达式创建分类器。使用仅算术
14、运算符的简化函数池,允许在交叉和突变期间进行较少的验证和宽大处理。Nai-Arun 等人15首先研究了四个众所周知的分类模型,即决策树、人工神经网络、逻辑回归和朴素贝叶斯。然后,研究了袋装和增压技术以提高此类模型的鲁棒性。诸如对糖尿病的研究还有很多很多,如,Vijiya Kumar 等人16提出的使用随机森林对糖尿病进行预测;Sisodia 等人17研究的是使用分类算法预测糖尿病等等。本次的研究工作是关注早期糖尿病这一疾病。在这项工作中采取了朴素贝叶斯、决策树、随机森林和逻辑斯蒂回归,这四种机器学习方法来对早期糖尿病进行预测。在四种机器学习方法下,都取得了良好的精度。其余的研究讨论组织结构如下
15、:第二部分,介绍机器学习分类算法。第三部分,进行数据集的实证分析及评估结果。第四部分,进行研究总结。2.相关理论及方法相关理论及方法 2.1.朴素贝叶斯朴素贝叶斯 朴素贝叶斯分类(Naive Bayes)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入 x 求出使得后验概率最大的输出 y 4。它适用于数据不平衡及数据缺失,而且还适用于维度非常高的数据集。朴素贝叶斯分类广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。根据朴素贝叶斯算法可得:()()()()|P Y XP Y P X
16、 YP X=,其中,()|P Y X是目标类后验概率,()|P X Y是预测类概率,()P Y是 Y 概率是正确的,()P X是预测的先验概率6。2.2.决策树决策树 决策树(Decision Tree)是一个监督机器学习算法,主要用于研究分类问题。一个决策树学习算法需要包含特征选择、决策树生成和决策树剪枝过程。本文使用的是 ID3 算法,它的核心是在决策树各个节点上应用信息增益准则选择特征,递归的构建决策树。信息增益(),g M A也就是:()()(),|g M AH MH M A=,其中,()H M是数据集 M 的经验熵,()|H M A是数据集 M 的经验条件熵7。决策树一般适合处理离散
17、型数据,计算复杂度不高,对中间值的缺失不敏感,可以处理不相关特征数据。但是决策树方法可能产生过度匹配问题,对连续性的字段比较难以预测。它通常适用于金融分析、医疗诊断、营销推荐、交通安全等7。2.3.随机森林随机森林 随机森林(Random Forest)是建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果16。随机森林适用于高维数据,不容易产生过拟合。对于大部分数据遗失,仍然可以维持高准确度。对于数据集的适
18、应能力强,既能处理离散型数据,也能处理连续性数据,数据集也无需规范化16。2.4.逻辑斯蒂回归逻辑斯蒂回归 二项逻辑斯蒂回归模型(binomial logistic regression)是一种分类模型,它属于对数线性模型,原理是根据现有的数据对分类边界线建立回归公式,以此进行分类。它常用于数据挖掘、疾病自动诊断、经济预测等领域。它仅能适用于线性问题,容易欠拟合,导致分类精度不高8。练春兰 DOI:10.12677/sa.2023.124101 977 统计学与应用 3.实证分析实证分析 3.1.数据集说明数据集说明 本次使用的数据是早期糖尿病风险预测数据集,从孟加拉国锡尔赫特的锡尔赫特糖尿病
19、医院的患者那里收集的直接问卷。问卷中包含了年龄、性别、多尿等等,如表 1,收集了 520 名患者数据。在实验中,随机选取 80%的数据用于训练过程,20%的数据用于测试过程。Table 1.Variable description 表表 1.变量说明 变量名称 说明 年龄(Age)定量变量,2065 性别(Gender)定性变量,男/女 多尿(Polyuria)定性变量,Yes/No 烦渴(Polydipsia)定性变量,Yes/No 突然减肥(Sudden weight loss)定性变量,Yes/No 虚弱(Weakness)定性变量,Yes/No 多食症(Polyphagia)定性变量,
20、Yes/No 生殖器鹅口疮(Genital thrush)定性变量,Yes/No 视觉模糊(Visual blurring)定性变量,Yes/No 瘙痒(Itching)定性变量,Yes/No 易怒(Irritability)定性变量,Yes/No 延迟愈合(Delayed healing)定性变量,Yes/No 部分麻痹(Partial paresis)定性变量,Yes/No 肌肉刺激(Muscle stiffness)定性变量,Yes/No 脱发(Alopecia)定性变量,Yes/No 肥胖(Obesity)定性变量,Yes/No 等级(Class)定性变量,Positive/Negat
21、ive 3.2.结果与分析结果与分析 3.2.1.朴素贝叶斯朴素贝叶斯 利用朴素贝叶斯进行建模,绘制出 ROC 曲线,如图 1 所示,可以看出 AUC 的值达到 0.913,说明该分类器的性能比较好。然后使用混合矩阵,查看模型评估结果,如表 2 所示,计算出模型准确率为 90.38%。由于该组数据没有空值,则不需要拉普拉斯平滑处理。练春兰 DOI:10.12677/sa.2023.124101 978 统计学与应用 Figure 1.Naive Bayesian ROC curves 图图 1.朴素贝叶斯 ROC 曲线 Table 2.Confusion matrix of naive Bay
22、esian 表表 2.朴素贝叶斯混合矩阵 Negative Positive Negative 37 8 Positive 2 57 3.2.2.决策树决策树 利用决策树进行建模,对树进行可视化,如图 2 所示,通过检查底部节点,可以看到有多少分类是正确的。决策树对于检查特征的重要性、每个特征的预测能力也很有用,特征重要性按降序排序,如表3 所示,可以看出对于早期糖尿病来说重要的因素是烦渴(Polydipsia),多尿(Polyuria),最不重要的因素是年龄(Age),视觉模糊(visual blurring)。绘制出 ROC 曲线,如图 3 所示,可以看出 AUC 的值达到了 0.915,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习方法 早期 糖尿病 风险 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。