AdaBoost算法识别阿尔茨海默病药物活性成分.pdf
《AdaBoost算法识别阿尔茨海默病药物活性成分.pdf》由会员分享,可在线阅读,更多相关《AdaBoost算法识别阿尔茨海默病药物活性成分.pdf(5页珍藏版)》请在咨信网上搜索。
1、第37 卷第5期2023年9 月文章编号:16 7 1-3559(2 0 2 3)0 5-0 58 2-0 5济南大学学报(自然科学版)Journal of University of Jinan(Science and Technology)Vol.37 No.5Sept.2023D0I:10.13349/ki.jdxbn.20230721.001AdaBoost算法识别阿尔茨海默病药物活性成分董西尚,宋传东,王莹,杨斌(枣庄学院信息科学与工程学院,山东枣庄2 7 7 10 0)摘要:针对利用网络药理学研究中药药方治疗或预防阿尔茨海默病的机制存在人工筛选药方中活性成分具有武断性和不准确性的问
2、题,提出一种基于机器学习的阿尔茨海默病药物活性成分识别算法。该算法结合疾病相关活性成分和非活性成分,利用AdaBoost算法进行训练,进而预测新药方中与疾病相关的活性成分。实验结果表明,与线性回归、K邻近回归和贝叶斯岭回归算法相比,AdaBoost算法可以更加准确地识别阿尔茨海默病相关活性成分。关键词:阿尔茨海默病;AdaBoost算法;药物活性成分;机器学习中图分类号:TP391文献标志码:A开放科学识别码(OSID码):尚案Active Ingredients Identification forAlzheimer s Disease Drugs Based on AdaBoost Alg
3、orithmDONG Xishang,SONG Chuandong,WANG Ying,YANG Bin(School of Information Science and Engineering,Zaozhuang University,Zaozhuang 277100,Shandong,China)Abstract:Aiming at the problems of arbitrariness and inaccuracy of manual screening of active ingredients in traditionalChinese medicine prescriptio
4、ns for the treatment or prevention of Alzheimers disease by using network pharmacology,amachine learn-based algorithm for the recognition of active ingredients related to Alzheimers disease was proposed.Thealgorithm combined disease-associated active and inactive ingredients was trained using AdaBoo
5、st algorithm to predict di-sease-associated active ingredients in a new medicine prescription.The experimental results show that AdaBoost algorithmcan identify Alzheimers disease related active ingredients more accurately compared with linear regression,K nearestneighbor regression and Bayesian ridg
6、e regression algorithm.Keywords:Alzheimers disease;AdaBoost algorithm;active ingredient of drug;machine learning阿尔茨海默病(Alzheimers disease)是老年人中最常见的神经系统变性疾病,涉及大脑中控制思维、记忆和语言的部分,可导致大脑萎缩和脑细胞死亡1-3。该疾病通常从6 0 岁以后开始,随着时间的推移,症状可能会变得更加严重4,患者可能不认识家庭成员,在说话、阅读或写作方面出现困难,病情严重的患者需要全面照顾,给家庭成员带来巨收稿日期:2 0 2 2-0 8-2 5基
7、金项目:国家自然科学基金项目(6 17 0 2 445);山东省自然科学基金项目(ZR2015PF007)第一作者简介:董西尚(19 8 0 一),男,山东枣庄人。副教授,硕士,研究方向为生物信息分析。E-mail:d x s u z z.e d u.c n。通信作者简介:宋传东(19 7 2 一),男,山东枣庄人。教授,硕士,研究方向为大数据分析。E-mail:s c d s o h u.c o m。王莹(19 8 2 一),女,山东枣庄人。副教授,硕士,研究方向为生物信息。E-mail:。网络首发地址:https:/ 0 2 3-0 7-2 4T09:00:44第5期尔茨海默病症状,取得了
8、较好的效果6-9 。梁喜才等10 通过分析人参成分与阿尔茨海默病作用靶点发现人参二醇与非受体酪氨酸激酶具有较强的结合性,对阿尔茨海默病细胞具有保护作用。张运辉等1 分析了淫羊藿治疗阿尔茨海默病的作用机制,发现淫羊藿治疗阿尔茨海默病具有多成分、多靶点、多通路的特点。孙莉敏等12 研究发现了黄连解毒汤治疗阿尔茨海默病所涉及的药效成分、作用靶点、通路和相关的靶点蛋白。Xiao等13 利用网络药理学和分子对接方法研究了“七福饮”治疗阿尔茨海默病的作用机制,发现了阿尔茨海默病相关的511种成分、57 7 个潜在的靶点和通路。前期大部分研究都是基于网络药理学方法展开的,但是在分析过程中需要筛选与阿尔茨海默
9、病相关的活性成分,尤其是当中药药剂包含大量中药材和成分时,人为筛选具有武断性和不准确性。基于以上问题,本文中提出一种基于机器学习的阿尔茨海默病相关活性成分识别算法。该算法结合疾病相关活性成分,利用AdaBoost进行训练,进而预测新药方中与疾病相关的活性成分,提高了化合物筛选的效率和准确率。1AdaBoost 算法1.1AdaBoost 算法AdaBoost算法是一种动态集成分类算法,它将多个弱分类器(单层决策树)合理组合成为一个强分类器14。该算法可以选择不同的弱分类器进行级联,比如K近邻(KNN)、决策树和朴素贝叶斯分类器等。相比于普通的Bagging算法和随机森林算法,该算法可以考虑每个
10、弱分类器的权重,最终取得较高的分类精度。基于上述优点,AdaBoost算法已经广泛应用于人脸检测15、生物信息学16 和文字定位17 等领域。AdaBoost算法的框架如图1所示。具体算法流程如下。1)初始化每个样本的权重。假设数据集包含n个样本点1(x1,y),(x 2,y 2),(n,y n),其中,;为特征数据,y;为标签集,i=1,2,,n,则在开始时为每个训练样本点i赋予相同的权重W1i得到训练数据的权重分布为D,=(W1,W12,W1n)=2)训练弱分类器。根据样本对弱分类器进行训练。如果样本已准确分类,则在构建下一个训练董西尚,等:AdaBoost算法识别阿尔茨海默病药物活性成分
11、调整样本权重w(弱分类器C弱分类器C计算误分率计算误分率r2分类器权重a,分类器权重a2强分类器图1AdaBoost算法框架集时,其权重将减小。相反,如果采样点未准确分类,则权重增大。同时,根据弱分类器的分类误差计算权重,然后,使用具有更新权重的样本集训练下一个分类器,整个训练过程迭代进行。经过多次迭代后得到多个弱分类器。具体迭代过程如下。执行迭代t=1,2,T,T为迭代最大次数。(1)根据权重分布训练数据集,得到分类器C,():X (0,1)。(2)计算该分类器在训练集上的误分率为T=w,l(C(a.)*y.),nFo,C.(x;)=yi,I(C,(;)+y;)=l1,C,(;)yi,式中:
12、wt为第t次迭代对应第i个特征数据的权重:I()为分类器C()在样本集上错分的个数。(3)计算该分类器的权重at,11-T,-logat=2(4)更新训练集的权重系数D.-(w.+11,W.+1,2,w+,w+,(6)w,;exp(-a,y;C,(x,)其中,Wt1,;=nwr,texp(-a,yiC,(xn)3)将训练好的弱分类器组合成强分类器。每)个弱分类器通过分类函数连接各自的权重形成强分1n583训练集初始化权重权重W(类器。每个弱分类器经过训练过程后,分类错误率越小的弱分类器权重越大,对最终的分类函数起到的决定作用越大;而分类错误率越大的弱分类器权权重w(弱分类器C,计算误分率,分类
13、器权重a,(2)(3)(4)(5)584重越小,在最终的分类功能中具有较小的决定性作用。组合G(x)表达式为TG(x)=Za,C,(x)t=1对于二分类问题,可以通过符号函数得到分类结果H,H=sign(G(x)=sign(Za,C(x),(8)1.2活性成分识别将AdaBoost算法用于阿尔茨海默病相关活性成分识别,识别过程如图2 所示。具体过程分述如下。阿尔茨海默病搜索治疗与预防病症的药方搜集已经验证的药芳中的活性成分分子描述符得到正样本搜集非活性分析得到负样本AdaBoost算法筛选新药方中的成分图2 阿尔茨海默病药物活性成分识别流程1)以阿尔茨海默病作为关键字,在文献数据库中搜索治疗或
14、预防该疾病的药方和药物。通过对这些最新文献的分析,收集地黄饮子、黄连解毒汤、六味地黄汤、知母、人参茯苓药等重要药物或药方,检索到9 4个与阿尔茨海默病密切相关的化合物,如黄连碱、小檗碱、黄芩苷、淫羊藿苷、巴马汀、巴戟甲素、皮素、山奈酚等。这些化合物已经通过生物学实验或分子对接得到验证。本文中将其作为正样品。将上述9 4个与阿尔茨海默病密切相关的化合物输人到 DUDE网站(https:/dude.docking.org),生成非活性化合物。随机选择18 8 个非活性化合物作为负样本。构造的数据集样本个数为2 8 2,正、负样本比例为 1:2。2)活性和非活性化合物均具有分子结构。为了更好把样本化
15、合物输入到分类器进行学习,本文中利用开源化学信息学与机器学习工具包RDKit提取每个化合物的分子描述符作为化合物的特征,构成阿尔茨海默病相关数据集。每个化合物包含2 0 8济南大学学报(自然科学版)个特征。将收集的数据集输人到AdaBoost算法进行学习,预测新的药方中与阿尔茨海默病相关的活性化合物。(7)2实验通过实验验证AdaBoost算法在阿尔茨海默病T相关活性成分识别的性能。采用受试者特征(ROC)曲线、ROC曲线下与坐标轴围成的面积t=1(A U C)值和精准率与召回率的调和平均数Fi值3个指标评价算法性能。ROC曲线是以假阳率为横轴、真阳率为纵轴单调递增曲线,越接近左上角,活性成分
16、识别的效果越好。AUC值取值范围为O,1,该值越大,识别越准确。F,值平衡精准率和召回率影响,可以较为全面地评价分类效果,取值范围为0,1。为了评价AdaBoost算法的性能,将线性回归、KNN回归和贝叶斯岭回归算法同样用于识别阿尔茨海默病药物活性成分。为了比较不同测试算法的稳定性,分别使用了5种交叉验证方法(留一法交叉验证、3折交叉验证、5折交叉验证、8 折交叉验证和10 折交叉验证)。图3为不同分类算法在阿尔茨海默病的药物活性成分的识别性能。从4个分类器的ROC曲线可以看出,AdaBoost算法比线性回归、KNN回归和贝叶斯岭回归算法的识别性能更好,并且AdaBoost算法的AUC值比其他
17、3个分类算法的大,说明该算法在阿尔茨海默病的药物活性成分识别方面具有较好的稳定性和准确性。4个分类算法的F1值如图4所示。从图中可以看出:对于不同的交叉验证方法,AdaBoost算法的F1值相比线性回归、KNN回归和贝叶斯岭回归算法都有不同程度的提高,其中提升幅度最大值出现在5折交叉验证中,AdaBoost算法的Fi值较线性回归算法的提高了51.8%,提升幅度最小值出现在10 折交叉验证中,AdaBoost算法的F1值较KNN回归算法的提高了6.9%,表明AdaBoost算法可以更加准确地识别阿尔茨海默病药物的活性成分。相比于线性回归、KNN回归和贝叶斯岭回归算法,AdaBoost算法可以更加
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AdaBoost 算法 识别 阿尔茨海默病 药物 活性 成分
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。