一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf
《一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf》由会员分享,可在线阅读,更多相关《一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf(13页珍藏版)》请在咨信网上搜索。
1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.4,Jul.2023,pp.860-872DOI:10.16337/j.10049037.2023.04.010 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法郝丽俊1,2,黄钢3,1(1.上海理工大学健康科学与工程学院,上海 200093;2.上海健康医
2、学院医疗器械学院,上海 201318;3.上海健康医学院附属嘉定中心医院上海市分子影像学重点实验室,上海 201318)摘要:提出一种改进的 AdaBoost强化学习算法,并将其应用于鉴别健康者和肝癌患者的呼气信号。首先采集志愿者(包括健康对照组和肝癌患者)的呼气信号,利用 Relief算法提取其主要特征;接着融合Stacking 模型,基于传统的机器学习算法训练得到若干基分类器组,构建一个个子分类器。为减少训练样本对分类器性能的影响,利用 K 折交叉,先后得到 k个基分类器,形成一个基分类器组;进一步,由投票法得到该基分类器组,即子分类器对测试集的预测结果;然后根据各子分类器对训练集的预测错
3、误率调整训练样本,并获得各子分类器的权重系数;最后将多个子分类器的预测结果进行加权组合,得到最终预测结果。实验结果表明,相比传统的 AdaBoost算法,改进的 AdaBoost算法在鉴别肝癌呼气和健康对照组呼气时,错误率明显下降,鲁棒性有所提升。该算法在鉴别肝癌呼气时,准确率可以达到 90%左右,特异性和精确度也均超过 95%。因此,改进的 AdaBoost算法可有效提升肝癌呼气鉴别精度,对通过呼气鉴别肝癌、实现早期诊断的研究具有重要意义。关键词:呼气检测;肝癌鉴别;AdaBoost算法;Stacking模型;基分类器组;Relief算法中图分类号:TP391 文献标志码:AAn Impro
4、ved AdaBoost Algorithm for Identifying Breath Signals of Liver CancerHAO Lijun1,2,HUANG Gang3,1(1.School of Health Science and Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Medical Instrumentation College,Shanghai University of Medicine&Health Sciences,Shangha
5、i 201318,China;3.Shanghai Key Laboratory of Molecular Imaging,Jiading District Central Hospital Affiliated Shanghai University of Medicine and Health Sciences,Shanghai 201318,China)Abstract:An improved AdaBoost reinforcement learning algorithm is proposed for distinguishing the breath signals of hea
6、lthy patients and liver cancer patients.First,the breath signals of volunteers,including healthy controls and liver cancer patients,are collected and their main features are extracted by Relief algorithm.Then,based on Stacking model,several groups of base classifiers are trained by traditional machi
7、ne learning algorithms and some sub-classifiers are then constructed.To reduce the influence of training samples on the classifier performance,a K-fold crossover is applied,and k base classifiers could be successively obtained to form a base classifier group.Further,the prediction results of this ba
8、se classifier group,i.e.,sub-classifiers on the test set,are obtained by the voting method.Then,according to the 基金项目:国家自然科学基金(82127807);国家重点研发计划(2020YFA0909000);上海市分子影像学重点实验室建设项目(18DZ2260400)。收稿日期:20220711;修订日期:20220910郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法prediction error rate of each sub-classifier on
9、 the training set,the training set is updated and the weight coefficients of each sub-classifier are obtained according to the prediction error rate of each sub-classifier on the training set.Finally,the prediction results of multiple sub-classifiers are weighted and combined to obtain the final pre
10、diction results.Experimental results show that the improved AdaBoost algorithm can achieve an accuracy of about 90%and the specificity and precision are more than 95%in discriminating the breath of liver cancer from the breath of healthy controls.Compared with the traditional AdaBoost algorithm,the
11、proposed algorithm has significantly lower error rate and improved robustness when used for liver cancer breath detection.Therefore,the improved AdaBoost algorithm can effectively improve the accuracy of liver cancer breath identification,which is important for the research of identifying liver canc
12、er by breath for early diagnosis.Key words:breath detection;liver cancer identification;AdaBoost algorithm;Stacking model;base classifier group;Relief algorithm引 言肝癌是目前全球范围内发病率和致死率最高的癌症之一。根据世界卫生组织国际癌症研究机构(IARC)研究数据显示:2020年,肝癌位于世界上发病人数最多的癌症之一,排名第三;在中国,癌症死亡率中肝癌高居第二。无论是全球还是中国,死于肝癌的人数正在越来越接近新诊断的人数1。肝癌常用
13、的主要诊断方法有血清检验、活组织检验和医学影像诊断,其中,影像诊断是辅助肝癌诊断的重要手段之一。该方法能避免对患者造成伤害,但缺点是不够准确,容易受医生主观情绪影响,而且微小的病灶不易被发现2。活组织检验是一种监测肝脏组织中可疑病变处以协助诊断的方法,需要通过穿刺和开刀获取组织。实际临床中,肝穿刺活检的应用非常谨慎,因为它有导致癌细胞转移的风险3。血清检验简单、易操作,利用肝癌分子标志物(如甲胎蛋白 AFP)进行肝癌检测。但由于约 30%的肝癌患者 AFP水平正常,因此对于那些有临床症状或者高危因素的患者,他们 AFP的检测结果不能作为唯一的参考项,诊断效率较低4。目前肝癌分子标志物也正在研究
14、中5。电子鼻是近年来一种新型的仪器,可通过采集呼气中的挥发性有机化合物(Volatile organic compounds,VOCs)监测和诊断人体疾病。该方法具有无创、操作简单、检查费用低廉等优点,已成为近年来研究的热点。Mazzone等6通过气体化学传感器检测肺癌呼气信号,灵敏度和特异度比较高,结果显示肺癌的正确分类接近 100%,健康对照的正确分类接近 94%,该研究对肺癌患者呼气中 VOCs的分析使人们看到呼气检测有望成为一种新型无创的临床诊断工具;OakleyGirvan 等7则作出一个系统评价,确定了与肺、结肠直肠和乳房相关的呼出气 VOCs,进一步表明呼气分析在癌症筛查和早期检
15、测方面显示出大好前景;Germanese等9研究检测呼出气中的氨区分肝脏损伤严重程度的可能性,证明了基于金属氧化物半导体(Metaloxidesemiconductor,MOS)气体传感器在检测呼出气氨方面可取得良好效果,发现了一些显著的相关性参数,确定了基于呼出气检测肝脏疾病的可能性;Kitiyakara 等10通过研究动物的嗅觉来预测肝细胞癌(Hepatocellular carcinoma,HCC)的可能,结果表明具有一定的可行性,准确度为 78%,但这只是概念证明,在临床应用之前,需进一步完善检测过程;秦涛11通过建立呼气检测方法学,探索了呼气中有机物浓度与肝癌的其他标志物和分期的关系
16、,并尝试建立肝癌的呼气诊断模型,结果显示部分物质诊断肝癌的灵敏性和特异性可分别达到 83.3%与 91.7%。但该研究是基于固相微萃取/气相色谱/质谱联用技术的,硬件平台昂贵且不易操作,不适宜肝癌的普及型筛查推广。基于此,本文将进一步探索如何基于电子鼻采集的呼气信号,构建高性能的鉴别诊断模型。861数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023构建数学模型表征呼气信号与病症之间的关系,是电子鼻检测算法的核心。基于呼气鉴别肝癌患者和健康者本质上是一个二分类问题。目前应用于电子鼻系统的模式识别算法主要有主成分分
17、析(Principal component analysis,PCA)算法、Fisher判别法、支持向量机、逻辑回归、人工神经网络等1214。但这些算法的性能均与训练样本的数量密切相关。为了降低训练样本数量对检测算法的影响,提升电子鼻呼气检测肝癌的准确度和特异性,本文融合 Stacking模型16,对 AdaBoost算法进行了改进,提出了一种新的强化机器学习算法。首先选择一种传统机器算法,通过 K 折交叉分组训练,依次得到 k个基分类器及对测试集的 k个预测值;进一步,基于 Stacking模型,得到该组基分类器对训练集的预测值;接着基于投票法17,由该基分类器组得到一个子分类器对测试集的预
18、测结果;然后分别选择多个不同的分类算法,并基于前一次对训练样本的预测结果调整样本权重后,依次训练得到更多的基分类器组,并得到多个子分类器对测试集的预测结果;最后将所有子分类器的预测结果进行加权组合,得到最终预测结果。这样做一方面可以减少训练样本的影响,提高分类器的泛化能力;另一方面可保留 AdaBoost算法的优点,根据子分类器的训练误差调整其权重18,将多个基分类器进行加权组合,提升分类的各项性能指标。1 鉴别分类器的设计原理 鉴别肝癌患者的呼气信号,本质上是能够设计一种算法将肝癌患者和健康对照组的样本特征进行分类区分,以实现未来利用呼气对肝癌进行早期诊断的目的。AdaBoost算法是一种自
19、适应增强方法,是集成学习的一种。集成学习是将不同模型通过某些机制或设定标准进行融合,以得到一个更加强大稳健的模型。集成学习分类器的泛化能力更强,且避免了单个模型过拟合等问题。在 AdaBoost算法中,对同样的训练集调整样本权重得到不同的训练集,并进一步训练得到多个弱分类器,然后将这些弱分类器加权组合,得到一个最终的分类器。在传统的 AdaBoost算法中,多个弱分类器是基于同一个分类算法构建的,一次训练可得到一个弱分类器,本文尝试对此进行改变调整,提出一种改进的 AdaBoost算法。为了获得具有良好泛化性能的高精度分类器,本文尝试将 3种常用集成算法的核心思想融合,设计了一种改进的 Ada
20、Boost算法。首先借鉴 Stacking模型中第一层模型的构建方法,使用 K 倍交叉划分训练集,得到不到的训练样本,并训练获得多个基学习器15;接着融合 Bagging模型中最终分类器的形成思想,基于投票方法16,由多个基学习器中确定一个子分类器;然后利用 AdaBoost理论,根据子分类器的训练误差,调整训练集样本的分布,并得到子分类器的加权系数;之后,进入新一轮的训练,获得新的子分类器。此外,为了融合多个特性的分类器,在新一轮训练中,将加入一种新的机器学习算法来重复上述步骤,基于调整样本分布后的训练集,获得新的子分类器及加权系数。在达到预设训练次数后,停止训练,并对所有子分类器进行加权和
21、组合,实现异质集成,得到最终预测结果。1.1基于 Stacking模型和投票法的子分类器构建在 AdaBoost算法中,首先从初始训练集训练出一个子分类器,再根据子分类器的表现对训练样本分布进行调整,然后基于调整后的样本分布得到下一个子分类器,如此重复,最终将多个子分类器进行加权组合17。因此,子分类器的设计是 AdaBoost算法的核心。对一组训练样本,基于某一机器学习算法,在多次训练中,可获得多个不同的基分类器。假设,将训练集记作 TrainSet,测试集记作 TestSet,基于 Stacking 模型构建子分类器的原理如图 1 所示。图 1中,训练集 TrainSet按照 K 折交叉划
22、分为 k组,取其中的(k-1)组作为训练样本 TrainData,剩余的一组作为测试样本 TestData。接着确定一种机器学习算法,基于选择的训练样本得到一个基分类器。然后依次变换测试样本和训练样本,利用同样的分类算法,训练得到更多的基分类器。基于 K 折交叉验证,对于同一个分类算法,可先后得到 k个不同的基分类器。同时,利用各基分类器逐次对相应的 k组测试862郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法样本和测试集 TestSet分别进行预测。最终可得到 k个基分类器、k组测试样本的预测值和 k个测试集的预测值。至此,一个由 k个基分类器组成的子分类器便构建而成。k
23、组测试样本的预测值集合构成该子分类器对训练集的预测。而基于投票原则,则可得到该子分类器对测试集的一组预测结果。1.2改进型 AdaBoost分类器的设计AdaBoost算法的核心是加权组合多个子分类器。在本文算法中,子分类器的设计如 1.1小节所述。对同一个训练集,依次选择不同的分类算法,随机进行 K 折交叉,训练得到多个由 k个基分类器投票形成的子分类器,为下一步组合成强化分类器提供分类器组件,如图 2所示。图 1基于 Stacking模型和投票原则的子分类器设计Fig.1Design of sub-classifier based on Stacking model and voting
24、principle图 2改进型 AdaBoost分类器的设计原理图Fig.2Design principle diagram of improved AdaBoost classifier863数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023算法的主要过程如下18:(1)确定 T个机器学习算法和训练样本空间,并初始化训练样本数据的权重,即Dji=1m i=1,2,T(1)式中:i代表第 i个子分类器,i的取值为 1-T;j代表第 j个训练样本,如果训练集样本数为 m,则 j的最大值为 m。(2)按照 1.1所
25、述,将训练集 K 折交叉分组,依次选择一折数据作为测试样本,剩余的(k-1)折数据作为训练样本,基于一个机器分类算法,进行 k次训练,逐次得到基于该机器学习算法的 k个不同的基分类器,形成一个基分类器组,记作第 i个子分类器。同时,利用该基分类器组对训练集的预测值gi(j)和真实值yj,由式(2)和(3)计算对应该子分类器的错误率ei。gi(j)=g1i,g2i,gki(2)式中:g1i,g2i,gki 分别为 k个基分类器对训练集中一折数据的预测,将其合并,构成一个子分类器对训练集全部样本的预测15。ei=kDji(k)k=1,2,m(gi(j)yj)(3)式中:k遍历训练集所有样本中,预测
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 可用 鉴别 肝癌 呼气 信号 改进 AdaBoost 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。