基于XGBoost算法的免疫性甲状腺功能异常预测模型构建.pdf
《基于XGBoost算法的免疫性甲状腺功能异常预测模型构建.pdf》由会员分享,可在线阅读,更多相关《基于XGBoost算法的免疫性甲状腺功能异常预测模型构建.pdf(5页珍藏版)》请在咨信网上搜索。
1、DATA ANALYSIS AND UTILIZATION 数据分析利用833江苏省中医药研究院江苏省中西医结合医院,江苏省南京市,210028作者简介:曹新志(1979),男,博士,高级工程师;研究方向:医院信息化管理和保障;E-mail:to_doi:10.3969/j.issn.1672-5166.2023.05.026基于XGBoost算法的免疫性甲状腺功能异常预测模型构建曹新志 沈君姝 王 杰文章编号:1672-5166(2023)05-833-05中图分类号:R-058;R319文献标志码:A摘要目的 构建一种基于XGBoost算法的肿瘤患者免疫性甲状腺功能异常预测模型。方法 从江
2、苏省中西医结合医院肿瘤专病库科研平台中,通过队列定义和特征提取等方法选取1 200例使用抗肿瘤药物免疫检查点抑制剂的住院患者作为研究对象,使用XGBoost机器学习算法建模并训练得到预测模型,并用Shapley附加解释器(SHAP)可视化工具对模型预测效果进行评估分析。结果 该预测模型的受试者工作特征曲线下面积为0.87,其中肝炎病史、甲状腺球蛋白、BMI值是甲状腺功能异常的重要特征。结论 基于XGBoost机器学习算法构建免疫性甲状腺功能异常预测模型,并利用SHAP工具直观展示各指标的影响,有助于医生临床决策,并做好病情干预。关键词免疫性甲状腺功能异常 XGBoost算法 预测模型Const
3、ruction of Immune Thyroid Dysfunction Prediction Model Based on XGBoost AlgorithmCAO Xinzhi,SHEN Junshu,WANG JieJiangsu Province Academy of Traditional Chinese Medicine/Jiangsu Province Hospital on Integration of Chinese and Western Medicine,Nanjing 210028,Jiangsu,ChinaAbstractObjective To establish
4、 a prediction model of immune thyroid dysfunction in tumor patients after immune therapy based on XGBoost algorithm.Methods Based on the scientific research platform of the tumor special disease bank of Jiangsu Province Hospital on Integration of Chinese and Western Medicine,1,200 inpatients who use
5、d anti-tumor drug immune checkpoint inhibitors were selected as the research objects through the methods of queue definition and feature extraction.The prediction model was trained using XGBoost machine learning algorithm,and use shapley additive explanation(SHAP)visualization tool to evaluate and a
6、nalyze the prediction effect of the model.Results The area under the receiver operating characteristic curve of the prediction model is 0.87.The history of hepatitis,thyroid globulin and BMI are important characteristics of thyroid dysfunction.Conclusion Based on XGBoost machine learning algorithm,a
7、 prediction model for immune thyroid dysfunction is constructed,and the impact of various indicators can be intuitively observed through the SHAP tool,which can help doctors make clinical decisions and intervene in advance.Keywordsimmune thyroid dysfunction;XGBoost algorithm;prediction modelChinese
8、Journal of Health Informatics and Management,October 2023,Vol.20,No.5 中国卫生信息管理杂志2023年10月第20卷第5期834中国卫生信息管理CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT0 引言近年来,肿瘤免疫治疗已成为肿瘤治疗领域的焦点,新型抗肿瘤药物免疫检查点抑制剂(immune checkpoint inhibitors,ICIs)因疗效显著广泛应用于临床,它能够显著延长癌症晚期患者的生存时间1。ICIs通过解除免疫抑制,活化 T 细胞功能,增强免疫,提高对肿
9、瘤细胞的杀伤作用,为肿瘤患者带来长期生存的可能。但是,活化的 T 细胞会攻击正常组织,自身抗体增加、细胞因子增加等会诱发自身免疫炎症,由此产生一系列免疫治疗相关不良反应(immune-related adverse events,irAEs),如免疫性肠炎、免疫性肝炎、免疫性肺炎、免疫性心肌炎、免疫性甲状腺功能异常等。其中,ICIs 相关的内分泌 irAEs 以影响腺体功能为主要表现,包括甲状腺功能紊乱、自身免疫性糖尿病、垂体功能减退和原发性肾上腺功能减退,而甲状腺功能异常发生率最高2,可表现为甲状腺毒症或甲状腺功能减退。机器学习能够进行大数据的深度挖掘与分析,其模型预测技术在肿瘤治疗不良反应
10、的管理中起着越来越重要的作用。研究显示,年龄、性别、吸烟、饮酒、体质量指数(body mass index,BMI)、慢性病史及相关检验指标可能是免疫性甲状腺功能异常的危险因素3。但是,尚未有应用于免疫性甲状腺功能异常预测的模型,本研究将对使用 ICIs 后诱发的免疫性甲状腺功能异常构建预测模型,并对模型进行可解释性分析。1 资料与方法1.1 数据来源从江苏省中西医结合医院临床科研平台中选取使用ICIs 的患者 1 200 例作为研究对象。纳入标准:使用了ICIs、年龄大于 18 周岁的肿瘤患者,且住院时间超过72 小时,临床资料完整。排除标准:在使用 ICIs 前甲状腺功能异常患者。从患者随
11、访数据中提取甲状腺相关信息,发现其中 320 例患者是使用 ICIs 后甲状腺功能异常病例,880 例是正常病例。所选择的特征数据是使用 ICIs 治疗前的数据,记录的患者信息有身高、体质量、性别、年龄、BMI,是否吸烟、饮酒,是否患有高血压、糖尿病、冠心病、脑梗塞、心肌梗死和慢性阻塞性肺疾病,以及检验指标,如三碘甲状腺原氨酸、甲状腺素、游离三碘甲状腺原氨酸、游离甲状腺素、促甲状腺素、甲状腺球蛋白抗体、抗甲状腺过氧化物酶抗体和甲状腺球蛋白。1.2 数据预处理与特征工程构建数据预处理和特征工程的构建是获取实验数据集后要做的一项重要工作,目的是把原始数据转变为训练数据。数据预处理是从数据中检测、纠
12、正或删除损坏的、不准确或不适用于模型的数据的过程,目的是让预处理后的数据适应模型,匹配模型需求4。特征工程构建是将原始数据转换为更能代表预测模型特征的过程,可以通过挑选最相关特征、提取特征和创造特征来实现,完成后能够降低模型计算成本,获得模型的最优预测效 果5。基于 Python 语言和 Anaconda 科学数据包进行数据预处理、特征工程和模型构建。1.2.1 数据预处理1.2.1.1 缺失值处理对于存在缺失数据的特征列,可采用变量删除或数值填充方法补全6。例如:年龄存在缺失值,在 1 200行数据中年龄字段缺失近 100 行,这里采用先求出年龄这列数组的平均值和标准差(分别用 mean 和
13、 std 表示),然后在 meanstd 范围内随机抽取数值作为空值 填充。1.2.1.2 标准化处理为了消除变量间数据范围差异,对相关检验指标,如三碘甲状腺原氨酸、甲状腺素、游离三碘甲状腺原氨酸等进行 Z-Score 标准化处理7。各参数标准化值=(X-mean)/std,其中 mean 是平均值,std 是标准差,经过处理后的数据均值为 0,标准差为 1。1.2.1.3 稀疏化处理在数据处理的过程中,将离散的特征数据进行One-Hot 编码,有助于模型的快速训练8。例如:将身高、体质量、性别等数据转化成离散型变量后采用One-Hot 编码,该特征若存在K个不同取值,就将这Chinese J
14、ournal of Health Informatics and Management,October 2023,Vol.20,No.5 中国卫生信息管理杂志2023年10月第20卷第5期DATA ANALYSIS AND UTILIZATION 数据分析利用835K个取值转换成K个特征,只在出现相同类别时取值为1,其余为 0,即一个变量扩展成了K个变量。1.2.2 特征工程构建数据预处理后,构建特征工程。如果特征太少,不足以描述数据;如果特征太多,容易导致过拟合9。在实际应用中可以删除无用的特征值,如序号,也可以根据身高和体质量计算出 BMI 值来生成新的特征。1.3 预测模型构建及解释1.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 XGBoost 算法 免疫性 甲状腺功能 异常 预测 模型 构建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。