基于机器学习算法的自体外周血造血干细胞采集预测模型构建与应用.pdf
《基于机器学习算法的自体外周血造血干细胞采集预测模型构建与应用.pdf》由会员分享,可在线阅读,更多相关《基于机器学习算法的自体外周血造血干细胞采集预测模型构建与应用.pdf(7页珍藏版)》请在咨信网上搜索。
1、复旦学报(医学版)Fudan Univ J Med Sci2023 May,50(3)基于机器学习算法的自体外周血造血干细胞采集预测模型构建与应用李若冰 唐古生 罗艳蓉 黄佳莹 张倩倩 鲁桂华(海军军医大学第一附属医院血液科 上海 200433)【摘要】目的筛选自体外周血造血干细胞(peripheral blood stem cell,PBSC)采集的危险因素并建立个体风险预测模型,以提高临床中自体 PBSC 采集的成功率。方法通过大数据平台收集 2013年 2月至 2021年 5月在海军军医大学第一附属医院血液科行自体 PBSC 采集术的恶性血液病患者 757例,对患者进行单因素显著性统计学
2、分析和多因素 Logistic回归分析对 PBSC 采集危险因素进行筛选。采用 Python 3.8.8版本、PyCharm 2021.1.3集成开发环境构建 Logistic回归模型和前馈神经网络、最小二乘支持向量机、自动机器学习 3种机器学习模型,并采用多种模型评价指标对其评价。结果共收集患者 PBSC 采集前的指标 24 项,单因素和 Logistic 回归分析筛选出 11 项PBSC 采集危险因素。所构建的 Logistic回归模型、前馈神经网络、最小二乘支持向量机和自动机器学习模型对自体 PBSC 采集风险预测的准确度分别为 0.822、0.873、0.875和 0.973。结论本研
3、究所建自动机器学习模型能够准确预测自体 PBSC采集结果,对提高临床自体 PBSC采集成功率具有重要参考价值。【关键词】血液病;造血干细胞(PBSC);机器学习;预测模型【中图分类号】TP399,R552 【文献标志码】A doi:10.3969/j.issn.1672-8467.2023.03.011Prediction model construction and application of machine learning algorithms for outcome prediction in autologous peripheral blood hematopoietic ste
4、m cell collectionLI Ruo-bing,TANG Gu-sheng,LUO Yan-rong,HUANG Jia-ying,ZHANG Qian-qian,LU Gui-hua(Department of Hematology,First Affiliated Hospital of Naval Medical University,Shanghai 200433,China)【Abstract】ObjectiveTo screen risk factors for autologous peripheral blood hematopoietic stem cell(PBS
5、C)collection and develop an individual risk prediction model to improve the success rate of autologous PBSC collection in the clinic.Methods A total of 757 patients with hematologic malignancies who underwent PBSC collection in the Department of Hematology,First Affiliated Hospital of Naval Universi
6、ty from Feb 2013 to May 2021 were collected through the big data platform,and the patients were screened for risk factors of PBSC collection by univariate statistical analysis and multivariate Logistic regression.Logistic regression models and three machine learning models,BP neural network(BPNN),le
7、ast squares support vector machine(LSSVM),and automated machine learning(Auto-ML),were constructed using Python version 3.8.8,Pycharm 2021.1.3 integrated development environment,and the models were evaluated using several model evaluation metrics.ResultsA total of 24 items of the index before PBSC c
8、ollection from patients were collected,and 11 items with risk factors 上海市自然科学基金(20ZR1457000)Corresponding author E-mail:L 网络首发时间:2023-03-22 11 18 46 网络首发地址:https:/ PBSC collection were screened by univariate and logistic regression analysis.The accuracies of the constructed logistic,BPNN,LSSVM and A
9、uto-ML models for risk prediction of autologous PBSC collection were 0.822,0.873,0.875 and 0.973,respectively.Conclusion The established Auto-ML model can accurately predict the outcome of autologous PBSC collection and will be valuable for improving the success rate of autologous PBSC collection in
10、 the clinic.【Key words】hematopathy;hematopoietic stem cell(PBSC);machine learning;prediction model*This work was supported by the Natural Science Foundation of Shanghai(20ZR1457000).自 体 外 周 血 造 血 干 细 胞 移 植(autologous peripheral blood hematopoietic stem cell transplantation,ASCT)是淋巴瘤、多发性骨髓瘤等多种恶性血液病的重
11、要治疗手段1-3,尤其是在我国少子女或单子女家庭逐渐普及的情况下,人类白细胞抗原相合同胞做供者的机会越来越少。ASCT一般是通过离心法先将患者自体外周血造血干细胞(peripheral blood stem cell,PBSC)进行提取并冷冻保存,然后对患者进行大剂量化疗和(或)放疗后再回 输 给 患 者,使 之 快 速 重 建 免 疫 系 统4-5。人 类PBSC 在外周血中含量较少,约占单个核细胞的0.1%1.0%,通常需要采用离心法对自体 PBSC 进行提纯,以获得一定数量的高纯度自体 PBSC6。但是,行 PBSC 术时如果无法获取足够的 PBSC 则会影响后期回输免疫系统的重建效果,
12、并最终造成ASCT 失败,严重威胁血液病患者生存,因此 PBSC采集成功是 ASCT 的先决条件7-8。受患者个体差异的影响,临床上 PBSC采集失败案例时有发生,造成患者需要多次采集才能达到 ASCT 移植标准,这给患者及家属造成严重的心理压力和沉重的经济负担9。如果患者在行自体 PBSC 采集术之前能够对 PBSC 采集风险进行预测,则医护人员便能够根据预测风险信息对 PBSC 采集术进行修正,以此提高自体 PBSC 采集的成功率10。目前对自体 PBSC采集风险预测的相关研究鲜有报道,医护人员多依靠自己的工作经验对患者进行评估,以此来制定相应的 PBSC 采集方案11-12。然而,受医护
13、人员的教育水平和从业经验个体差异的影响,往往无法准确预测 PBSC 结果9,13。因此探索一种具有普适性的自体 PBSC采集风险的预测方法迫在眉睫。将人工智能技术应用于 PBSC 的采集,可能有效提高临床对自体 PBSC采集结果的预测精度。本研究从数据驱动的角度出发,使用机器学习与统计学相关理论方 法,首 次 成 功 利 用 前 馈 神 经 网 络(back propagation neural network,BPNN)、最小二乘支持向 量 机(least square support vector machine,LSSVM)和 自 动 机 器 学 习(automated machine
14、learning,Auto-ML)等人工智能技术,构建了血液病患者 PBSC 采集结果风险预测模型,分别采用单因素和多因素相关性分析手段对 24 项原始变量进行筛选,利用筛选后的特征变量数据对所建模型进行训练和验证,并对模型输入的相关特征变量进行讨论分析,以期为临床医护人员的采集工作提供指导,并提高 PBSC采集成功率。资 料 和 方 法研究对象 选取 2013年 02月至 2021年 05月在海军军医大学第一附属医院血液科行自体 PBSC采集术的恶性血液病患者作为研究对象,恶性血液病类 型 包 括:急 性 淋 巴 细 胞 白 血 病(acute lymphoblastic leukemia,
15、ALL)、多 发 性 骨 髓 瘤(multiple myeloma,MM)、非 霍 奇 金 淋 巴 瘤(non-Hodgkin lymphoma,NHL)、霍 奇 金 淋 巴 瘤(Hodgkin s lymphoma,HL)。纳入标准:(1)年龄12周岁。(2)首次进行自体 PBSC采集。(3)动员方案相同,采集时间间隔 46天。排除标准:(1)临床资料不全者;(2)存在交流障碍患者。根据纳入标准初步选择 793 例患者为研究对象,按照排除标准剔除 36 例资料不全或存在交流障碍患者,最终纳入757 例血液病患者作为研究对象,筛选前后患者基线资料无差异,且在本研究执行过程中已对所有数据进行了脱
16、敏处理。本研究通过我院医学伦理委员会审批(批准号:CHEC2022-076)。PBSC 采集和计数 所有患者均采用重组人粒细 胞 刺 激 因 子(granulocyte colony stimulating factor,G-CSF),动员剂量510 g kg1 d1,连续注射46天,每天皮下注射 1次,注射时间为上午 9 00399复旦学报(医学版)2023年 5月,50(3)9 30。在动员第 4天开始评估患者白细胞和单个核细胞(包括单核细胞和淋巴细胞)比例,以确定采集的最佳时机。采用德国 Fresenius 血细胞分离机COM-ETC的单个核细胞采集程序进行采集,采集前用 0.9%生理盐
17、水预冲管道,用复方枸橼酸钠溶液抗凝,并予地塞米松 10 mg 静脉推注。循环总量设为3.54 倍的全身血容量,流速为 5060 mL/min,全血与抗凝剂流速比为 10 112 1,其余参数为系统默认值。考虑到多数患者在采集开始后会表现出不同程度的低钙,在 PBSC 采集开始后,给予患者10%葡萄糖酸钙 60 mL,经回输管道以 1015 mL/h注射泵泵入。在 循 环 结 束 后 分 别 对 CD34+和 单 个 核 细 胞(mono-nuclear cell,MNC)进行计数。每次 CD34+检测均设置对照组,取 PBSC 采集物 1 mL并调整细胞数至(0.51.0)106/mL,取 5
18、0 L,加入适量各种荧光抗体标记,温室避光孵育 15 min,加入裂红液2 mL,4 000g离心 5 min,弃上清,加入 PBS缓冲液2 mL,4 000g 离心 5 min,每管加入 PBS 缓冲液约0.3 mL,以 200 目尼龙膜过滤后上机检测。检测设备 采 用 美 国 FACSCanto 型 流 式 细 胞 仪 和FACSDiva软件,使用 CD34-PE、CD45-PerCP、FSC和 SSC等 4个参数,累积设门,分母为 CD45+WBC,检测至2105个有核细胞,取实验组和检测组CD34+细胞群含量平均值作为患者最终CD34+细胞数。同时制作 PBSC 采集物涂片两张,采用瑞
19、氏吉姆萨染液(珠海贝索生物技术有限公司)染色,在显微镜下对 MNC 细胞进行分类计数,选择两张图片MNC计数均值作为最终患者 MNC细胞计数。特征选取 根据淋巴瘤诊疗指南14、中国多发性骨髓瘤诊治指南(2020年修订)15及自体 PBSC采集相关研究16,收集患者临床基本资料,包括性别、年龄、BMI、吸烟、血液、钾、钙、钠、患病类型等 9 项一般指标和患者行 PBSC 采集术前的 C 反应蛋白、白细胞计数、淋巴细胞、单核细胞、红细胞、血小板、血红蛋白等 15项血常规指标。统计学方法 采用 SPSS 25.0和 R4.1.2进行统计学分析。符合正态分布的计量资料以 xs表示,两组组间差异采用独立
20、样本 t 检验;如不符合正态分布的计量资料用 M(P25,P75)表示,两组组间采用非参数秩和检验。计数资料以频数和百分比表示,组间比较采用2检验。PBSC 采集成功相关危险因素 分 析 采 用 多 因 素 Logistic 回 归,结 果 以 OR 和95%CI表示并进行描述性分析,检验水准=0.05。机器学模型构建 根据2018版造血干细胞移植治疗淋巴瘤中国专家共识17及本院专家经验,PBSC采集成功标准定为 CD34+细胞计数2106/kg 且MNC 细胞计数5108/kg。将 757 例患者分为采集成功组和采集失败组,对两组患者的 24项指标进行显著性统计学分析及多因素 Logisti
21、c 回归分析。以 757 例患者经 Logistic 回归分析有意义的所有指标纳入机器学习模型,采用 5 折交叉验证法对机器学习模型进行训练和验证。本研究采用 Logistic回归,BPNN 模型、LSSVM 模型和 Auto-ML模型分别对 PBSC 采 集 结 果 进 行 预 测。上 述 模 型 均 采 用Python 3.8.8 版本、PyCharm 2021.1.3 集成开发环境来构建,最后通过敏感度、特异度、准确度和 AUC对 4种模型进行评价。结 果患者一般资料 757 例行自体 PBSC 采集术患者的一般资料见表 1,其中采集成功组 592 例,采集失败组 165 例,两组患者的
22、性别和吸烟史差异有统计学意义。患者的血常规资料见表 2,两组之间 C反应蛋白、白细胞计数、红细胞计数、平均红细胞血红蛋白含量、平均红细胞血红蛋白浓度、血红蛋白含量、红细胞比积、血小板计数、血小板分布宽度差异均有统计学意义。Logistic回归分析 根据上述统计学分析结果,将 11项单因素分析中 P0.05的因素进行逐步向前多因素 Logistic 回归分析(表 3),以自体 PBSC 是否采集成功为因变量(是1,否0)。结果显示:患者性别、吸烟史、C反应蛋白、白细胞计数、红细胞计数、平均红细胞血红蛋白含量、平均红细胞血红蛋白浓度、血红蛋白含量、红细胞比积、血小板计数、血小板分布宽度与 PBSC
23、采集存在相关性。机器学习模型 将表 1 和 2 中采集成功组和采集失败组比较有统计学差异的 11 项指标纳入 4 种机器学习模型,并通过 5 折交叉验证法对训练集进行 训 练。表 4 为 Logistic、BPNN、LSSVM、Auto-ML 模型的 4 种性能评价指标,可以看出 BPNN、LSSVM、Auto-ML 模型的灵敏度、特异度、准确度和 AUC 均高于 Logistic模型,可以认为机器学习算400李若冰,等.基于机器学习算法的自体外周血造血干细胞采集预测模型构建与应用法对自体 PBSC 采集结果有着较好的预测能力,且3 种机器学习模型中 Auto-ML 最优。此外,通过对BPNN
24、、LSSVM、Auto-ML 模型 11项输入参数的重要性进行分析,发现 11 项指标在 3 种机器学习模型中 的 重 要 性 存 在 较 大 差 异,主 要 反 映 在 BPNN、LSSVM 模型输入参数的重要性分布相对均匀,而Auto-ML模型输入参数的相对重要性主要集中在红细胞和血小板,经过计算发现红细胞和血小板的相对重要性在Auto-ML模型中占比超过72.48%(图1)。临床应用 为了进一步验证 Auto-ML 模型,以2021年 7月至 2022年 3月在我院血液科行 PBSC 采集术的恶性血液病患者 107 例为研究对象,其中PBSC 采集成功 86 例,PBSC 采集失败 21
25、 例;男性67 例,女性 40 例;MM、HL、NHL 和 ALL 患者分别为 53、14、30、10 例,与模型训练数据无明显差异。收集 107 例患者的以上 11 项指标作为模型输入参表 1采集成功组与采集失败组一般资料比较Tab 1Comparison of general data between collection success group and collection failure group xs or n(%)CharacteristicAge(y)GenderMaleFemaleBMI(kg/m2)Smoke(y)SBP(mmHg)DBP(mmHg)K(mmol/L)C
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 算法 体外 造血 干细胞 采集 预测 模型 构建 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。