基于GA-XGBoost算法的肺癌预测研究.pdf
《基于GA-XGBoost算法的肺癌预测研究.pdf》由会员分享,可在线阅读,更多相关《基于GA-XGBoost算法的肺癌预测研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、计算机时代 2023年 第11期0 引言肺癌是起源于肺部支气管黏膜或腺体的恶性肿瘤,其发病率和死亡率增长很快,是对人的健康及生命威胁最大的恶性肿瘤之一1。由于肺栓塞常常伴有呼吸困难、咳嗽、胸痛、咯血等症状,临床症状特异性不强,通常难以鉴别,故漏诊率较高,以致延误救治时机2。在我国,肺癌是危害人类的生命健康的主要恶性肿瘤之一,在排名前十的恶性肿瘤中,肺癌的发病率和死亡率分别占 20.03%和 26.99%3。若肺癌在早期阶段能被及时发现并得到恰当的治疗,患者的5年生存率可提高到50%甚至更高4。在早些年,Ledley5等人第一次将医学领域的数学模型应用到计算机辅助诊断中,首次提出计算机辅助诊断。
2、Weizeng Li等6提出了将决策树和逻辑回归相结合的逻辑树,分别评估单个和多个肿瘤标志物的诊断价值;Caijoie Ren等7提出一种基于临床肺癌个体化鉴别方案,采用LASSO进行回归分析,得到了最优预测结果;Nuhic Jusua 等8利用机器学习算法预测模型作为一种非侵入性工具来区分恶性与良性,应用于肺癌的预测分类。Stefano Elia等9使用遗传算法在五种肿瘤标志物种选择出两种指标物进行联合检测,得到了最好的肺癌预测结果。相对于单个模型而言,DOI:10.16644/33-1094/tp.2023.11.028基于GA-XGBoost算法的肺癌预测研究*柯东,晏峻峰(湖南中医药大
3、学信息科学与工程学院,湖南 长沙 410208)摘要:为辅助医生进行早期的肺癌预测,提出用遗传算法(GA)对集成算法XGBoost进行优化的GA-XGBoost预测方法。针对机器学习存在的样本数量小、数据质量不佳等问题,提出结合SMOTE过采样、随机森林特征重要性排序构建最终肺癌预测模型,进行肺癌的预测分类。对数据集进行测试,结果表明:与K最近邻、SVM、决策树、XGBoost算法相比,该模型准确率93.2%,同时具有更快的响应速度,综合性能最优。关键词:肺癌;SMOTE过采样;特征选择;遗传算法;集成算法;XGBoost中图分类号:TP391文献标识码:A文章编号:1006-8228(202
4、3)11-131-05Research on lung cancer prediction based on GA-XGBoost algorithmKe Dong,Yan Junfeng(School of Information Science and Engineering,Hunan University of Chinese Medicine,Changsha,Hunan 410208,China)Abstract:In order to assist doctors in early prediction of lung cancer,a GA-XGBoost prediction
5、 method optimized by geneticalgorithm(GA)on integrated algorithm XGBoost is proposed.In view of the problems existing in machine learning such as smallsample quantity and poor data quality,a final lung cancer prediction model is proposed by combining SMOTE oversampling andrandom forest feature impor
6、tance ranking to predict and classify lung cancer.The dataset is tested and the results show thatcompared with the K-nearest neighbor,SVM,decision tree and XGBoost algorithm,the proposed model has the best comprehensiveperformance with the accuracy of 93.2%and faster response speed.Key words:lung ca
7、ncer;SMOTE oversampling;feature selection;genetic algorithm;integrated algorithm;XGBoost收稿日期:2023-07-18*基金项目:湖南省教育厅重点项目“具有模糊不确定性的危急重症中医诊疗知识表示与融合研究”(21A0250)作者简介:柯东(1992-),男,湖北鄂州人,硕士研究生,主要研究方向:机器学习。通讯作者:晏峻峰(1965-),女,江西宜春人,博士,教授,博士生导师,主要研究方向:人工智能及其应用。131Computer Era No.11 2023集成模型由多个基学习器构成,因此具有更好的分类和回
8、归效果。例如张楚函10以随机森林算法建立术前诊断模型,建立了肺癌前期预诊断模型;张雨晴等11应用随机森林分析非吸烟女性肺癌风险因素。然而,机器学习在肺癌研究中也面临一些挑战,如样本大小、数据质量、模型的可解释性以及算法模型耗时长等方面的限制。因此,本研究致力于解决这些问题,探索临床上肺癌患者与其生活习惯之间的关系,建立基于生活习惯进行肺癌预测的分类模型。通过算法的融合、优化,确定的最终模型在肺癌数据集上进行试验,实验得到93.2%的高准确率,同时算法模型相比强分类器SVM具有更快的响应速度,充分证明该模型能应用到临床,辅助医生进行疑似病例的肺癌预测,结合必要的医学检查,及时对肺癌患者进行医学干
9、预,为肺癌患者争取更多的治疗从而提高生存率。1 研究方法本文方法如下:不平衡数据是指数据集中某一类别的样本数量明显少于其他类别的样本数量12,本文数据集标签比例严重失衡,标签为0的样本29条,标签为1的样本280条,即正负标签比例大约为1:9,因此引入过采样技术SMOTE方法对数据做均衡化处理;对本实验所用到的肺癌数据集进行随机森林重要性排名,根据排名结果选择贡献较大的特征,参与模型计算,实现降低数据纬度、提高分类准确率的效果;构建GA-XGBoost算法模型即:采用遗传算法优化梯度提升树算法XGBoost,并与其他机器学习方法如支持向量机(SVM),决策树(DT)、K 最近邻(KNN)、贝叶
10、斯(NB)以及未调优的XGBoost进行对比,证明模型的优越性。具体流程图如图1所示。图1系统流程图1.1 构建GA-XGBoost模型极端梯度提升树(XGBoost)算法是由陈天奇在2014年提出,该算法能够极大地提升模型的训练速度和预测精度13。它的设计是为了正确使用资源,克服以往梯度提升的局限性14。本文 XGBoost目标函数如下:Obj=i=1nl(yi,yn)+k=1k(fk)(fk)=+12|2)在XGBoost中,损失函数的二阶泰勒展开被用来描述每一棵树的目标函数。其中,yi表示输出值,yi表示标签值,fk表示模型的第k棵树,T表示叶子结点的个数,w表示叶子结点所占的权重;表示
11、惩罚正则项,表示叶子权重惩罚正则项,用来剪枝,可以防止过拟合。根据上述公式,优化目标为:L(t)=i-1ngift(xi)+12htf2t(xi)+(ft)gi=yt(t-1)l(yi,yt-1i)hi=2v(t-1)l(yi,yt-1i)(ft)=T+12i=1T2j在每次迭代过程中,对于当前的树而言,叶子权重表达式如下:*j=-GjHj+其中,Gj表示在第i个叶子结点中,落入其中的全部样本一阶导数总和;Hj表示在第i个叶子结点中,落入其中的全部样本二阶导数总和。根据上述推导,最终的目标函数可表示为:L*(q)=-12j=1kG2jHj+遗传算法(GA)是一种求解优化问题的工具15,主要用于
12、解决搜索和优化问题。算法过程如下:初始化:生成一组初始种群,其中每个个体代表一个解。适应度评估:对每个个体进行适应度评估,即计算其对应的目标函数值。选择:从种群中选择一部分个体作为下一代种群的父代。交叉:对父代中的个体进行交叉操作,生成新的子代。变异:对子代中的个体进行变异操作,引入随机因素,增加种群的多样性,防止算法陷入局部最优解。更新种群:将父代和子代合并,生成新的种群。终止条件判断:判断是否达到终止条件,如最大迭代次数、目标函数达到某个阈值等。132计算机时代 2023年 第11期 输出结果:输出最优解或者最优解对应的目标函数值。本实验构建GA-XGBoost肺癌诊断模型如图2。图2XG
13、Boost结合GA算法优化超参数流程图2 实验过程及结果分析本文基于Anaconda开发环境下的jupyter-notebook编辑器。研究选用kaggle学习库所公开的的肺癌数据集。该数据集包含疑似肺癌患者平时生活习惯和生理、行为表现等部分数据,一共有 309个样本,类别为良性肿瘤和肺癌肿瘤,数据集包含的 14个特征基于疑似患者的生活记录,分别是年龄(AGE)性别(SEX)、是否吸烟(SMOKING)、黄色手指(YELLOW)、平时是否有同辈压力(PRESSURE)、是否焦虑(ANXIETY)、是 否 有 慢 性 病(CHRONIC DISEASE)、是 否 感 到疲 劳、是 否 哮 喘、药
14、 物 过 敏(ALLERGY)、饮 酒(ALCOHOL CONSUMING)、咳嗽(COUGHING)、呼吸急促(SHORTNESS OF BREATH)、吞咽困难、胸痛(CHEST PAIN)、是否肺癌(LUNG_CANCER)。特征中“是”为1,“否”为0;标签中患肺癌为1,没有患肺癌为 0。实验以 70%的数据集作为训练集,30%作为测试集。2.1 评价指标在分类指标问题上采用混淆矩阵是最直观的,混淆矩阵可以详细的展示分类性能。混淆矩阵如表1所示。表1混淆矩阵真实值为正例真实值为负例预测值为正例TPFP预测值为负例FNTN本文在混淆矩阵基础上引入准确率(Accuracy)、灵敏度(Sen
15、sitivity)、特异度(Specificity)作为算法的判断指标。其中灵敏度又叫真阳性比例,即实际发病且被准确诊断的病人所占比例;特异度又称为真阴性率,是指实际无病并能准确检测的病历所占比例:Accurancy=TP+TNTP+FP+TN+FNSensitivity=TPTP+FNSpecificity=TNTN+FP2.2 数据均衡化处理本文数据集标签比例严重失衡,标签为0的样本29条,标签为1的样本280条,即正负标签比例大约为1:9。采用SVM-SMOTE过采样技术进行数据均衡化处理,原始数据和均衡化处理后的数据分布如图 3、图4所示。图3原始数据特征直方图133Computer
16、Era No.11 20232.3 特征选择特征重要性计算结果可以用于特征选择和可视化,帮助我们理解模型的特征贡献程度,从而更好地解释和使用模型。本文通过随机森林算法得出特征重要性排序,结果如表2所示。表2随机森林特征重要性排序RankRank1234567891011121314FeatureFeatureALCOHOL CONSUMINGPEER_PRESSUREALLERGYWHEEZINGCOUGHINGSHORTNESS OF BREATHCHRONIC DISEASECHEST PAINSMOKINGSWALLOWING DIFFICULTYFATIGUEYELLOW_FINGER
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GA XGBoost 算法 肺癌 预测 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。