基于秃鹰搜索的抗乳腺癌候选药物优化建模.pdf
《基于秃鹰搜索的抗乳腺癌候选药物优化建模.pdf》由会员分享,可在线阅读,更多相关《基于秃鹰搜索的抗乳腺癌候选药物优化建模.pdf(13页珍藏版)》请在咨信网上搜索。
1、Modeling and Simulation 建模与仿真建模与仿真,2023,12(4),3930-3942 Published Online July 2023 in Hans.https:/www.hanspub.org/journal/mos https:/doi.org/10.12677/mos.2023.124359 文章引用文章引用:龙楷潮,袁学枫,张利.基于秃鹰搜索的抗乳腺癌候选药物优化建模J.建模与仿真,2023,12(4):3930-3942.DOI:10.12677/mos.2023.124359 基于秃鹰搜索的抗乳腺癌候选药物优化建模基于秃鹰搜索的抗乳腺癌候选药物优化建
2、模 龙楷潮龙楷潮,袁学枫袁学枫,张张 利利*贵州大学大数据与信息工程学院,贵州 贵阳 收稿日期:2023年6月7日;录用日期:2023年7月17日;发布日期:2023年7月24日 摘摘 要要 乳腺癌在全球范围内已取代肺癌成为最常见的癌症,并且其死亡率居高不下。因此,利用机器学习和智乳腺癌在全球范围内已取代肺癌成为最常见的癌症,并且其死亡率居高不下。因此,利用机器学习和智能优化算法等技术筛选乳腺癌药物对于推动乳腺癌治疗药物的发展至关重要。本文提出了一种基于改进能优化算法等技术筛选乳腺癌药物对于推动乳腺癌治疗药物的发展至关重要。本文提出了一种基于改进的随机森林算法构建的随机森林算法构建ERa活性预
3、测模型的方法,并筛选出对生物活性最具影响力的前活性预测模型的方法,并筛选出对生物活性最具影响力的前20个分子描述符。个分子描述符。然后,使用该模型对然后,使用该模型对50个化合物的个化合物的IC50值和对应的值和对应的pIC50值进行预测。同时值进行预测。同时,借助支持向量机借助支持向量机(SVM)和和Adaboost二分类模型,对化合物二分类模型,对化合物Caco-2、CYP3A4、hERG、HOB、MN的的5种成分进行分别预测,并建种成分进行分别预测,并建立立ADMET分类预测模型。最后,利用秃鹰搜索算法构建化合物筛选模型分类预测模型。最后,利用秃鹰搜索算法构建化合物筛选模型,使用黑鹰搜使
4、用黑鹰搜索算法融合前两个索算法融合前两个模型模型,解决各类复杂数值优化问题,以找到可行性药物操作变量范围。实验结果表明,所提出的预测模,解决各类复杂数值优化问题,以找到可行性药物操作变量范围。实验结果表明,所提出的预测模型具有很高的准确性,可应用于抗乳腺癌药物的研发。型具有很高的准确性,可应用于抗乳腺癌药物的研发。关键词关键词 乳腺癌乳腺癌,随机森林随机森林,ERa活性预测活性预测,ADMET分类预测分类预测,秃鹰搜索算法秃鹰搜索算法 Optimization Modeling of Anti-Breast Cancer Candidate Drugs Based on Bald Eagle
5、Search Kaichao Long,Xuefeng Yuan,Li Zhang*College of Big Data and Information Engineering,Guizhou University,Guiyang Guizhou Received:Jun.7th,2023;accepted:Jul.17th,2023;published:Jul.24th,2023 Abstract Breast cancer has replaced lung cancer as the most common cancer worldwide,and its mortality *通讯作
6、者。龙楷潮 等 DOI:10.12677/mos.2023.124359 3931 建模与仿真 rate remains high.Therefore,the selection of breast cancer drugs using techniques such as ma-chine learning and intelligent optimization algorithms is of great significance to drive the devel-opment of breast cancer treatment drugs.In this paper,we pro
7、pose a method based on the im-proved random forest algorithm to construct an ERa activity prediction model and select the top 20 most influential molecular descriptors for biological activity.Subsequently,using this model,we predict the IC50 values and corresponding pIC50 values of 50 compounds.Furt
8、hermore,with the aid of support vector machine(SVM)and Adaboost binary classification models,we predict the five components(Caco-2,CYP3A4,hERG,HOB,MN)of the compounds separately and establish an ADMET classification prediction model.Finally,we construct a compound screening model using the Bald Eagl
9、e search algorithm and integrate it with the previous two models using the Black Hawk search algorithm to address various complex numerical optimization problems and deter-mine the feasible range of drug operating variables.Experimental results demonstrate that the proposed prediction model exhibits
10、 high accuracy and can be applied to the development of anti-breast cancer drugs.Keywords Breast Cancer,Random Forest,ERa Activity Prediction,ADMET Classification Prediction,Bald Eagle Search Algorithm Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Common
11、s Attribution International License(CC BY 4.0).http:/creativecommons.org/licenses/by/4.0/1.引言引言 乳腺癌目前发病率在 23/万之间,高居全球第一,而且还在呈上升趋势,年龄也越来越年轻化。在研究 ER 基因缺失小鼠的实验结果中,发现 ER 是治疗乳腺癌的重要靶标,因此能够拮抗 ER 活性的化合物可能是治疗乳腺癌的候选药物1。但是想要成为候选药物,除了需要具备良好的生物活性外,还需要在人体内具备良好的药代动力学性质和安全性,合称为 ADMET(Absorption 吸收、Distribution 分布、M
12、etabolism 代谢、Excretion 排泄、Toxicity 毒性)性质2。但一个化合物的活性再好,如果其 ADMET 性质不佳,比如很难被人体吸收,或者体内代谢速度太快,或者具有某种毒性,那么其仍然难以成为药物,因而还需要进行 ADMET 性质优化。传统药物研发渠道的平均成本为 26 亿美元,大概耗时 12 年,因此如何在降低成本和时间的同时确保药物的有效性成为药物公司的重大难题,基于机器学习、深度学习辅助药物各个阶段的研发越来越成为各大公司的首选。基于图注意力网络,构造分子图作为分子结构特征的药物 ADMET 分类预测模型进行药物研发的虚拟筛选,据有良好的精准性3。采用 Chemo
13、ffice 2004 中的 MOPAC-PM3 算法筛选量化吡喃酮类化合物的量子化学结构,利用人工神经网络中的径向基网络建立分子结构描述符与生物活性间的相关模型,有效的提高了对吡喃酮类化合物结构的预测精度4。基于 RegNet-1d 模型和积分梯度法的ER 拮抗剂的生物活性预测方法,通过搭建 RegNet-1d 深度学习模型,并以积分梯度法为理论基础进行数据结构优化,变量对生物活性影响的相关性分布,以此筛选合适的分子描述符变量,时优化后的模型预测准确率略有下降但所需测量的数据量大大减少,节约了药物研发的时间和成本5。采用分子描述、支持向量机、遗传算法三种机器学习建立 ADMET 的 QSAR
14、预测模型,验证结果得出可推广应用至药物代谢、毒性评估等方面6。Open AccessOpen Access龙楷潮 等 DOI:10.12677/mos.2023.124359 3932 建模与仿真 本文采用“华为杯”第十八届中国研究生数学建模竞赛 D 题中的数据,包括 1974 个化合物样本,每个样本都有 729 个分子描述符变量,5 个 ADMET 性质数据。将从分子描述符出发构建预测模型,基于融合遗传算法的随机森林算法来预测化合物的 IC50 值和对应的 pIC50 值预测值。同时再借助 SVM 与Adaboost 二分类模型,对化合物 Caco-2、CYP3A4、hERG、HOB、MN
15、的 5 中成分进行分别预测,建立ADMET 分类预测模型,从而能找到既能满足较高的化合物活性,也能拥有较好的 ADMET 性质,助于抗乳腺癌药物的研发。2.构建构建 ER 生物活性的定量预测模型生物活性的定量预测模型 2.1.特征选择特征选择 在不破坏原始数据可解释性的前提条件下,依据对分子描述符的显著性影响排名,进行特征选择。本文对各变量相关性进行分析,在最大程度上保留原始数据信息的同时,将分子变量描述符数据的维度从 729 维降至 20 维。在降维和筛选变量之前首先需要对全部 729 个变量数据进行整定。第一步:为减少计算量,删除冗余分子描述符,即需要过滤掉方差为 0 的特征7。第二步:对
16、变量数据进行归一化处理使各个特征的尺度控制在相同的范围内,这样可以便于在计算分子描述符之间相关性。第三步:对以上预处理后的数据进行特征选择,将分子变量描述符数据的维度从 729 维降至 20 维。第一步的整定算法流程,利用 Python 的 sklearn 包中 Variance Threshold 方法,他是一个简单的特征选择基准方法,该方法就是去除所有没有达到指定阈值的特征。默认是去除所有零方差的数据。第二步计算方法为:Min-Max 标准化(Min-Max Normalization)(线性函数归一化)也称为离差标准化,是对原始数据的线性变换,使得结果映射到 01 之间。利用第一步的剔除
17、后变量数据导入第二步进行变量归一化处理,根据上述数据整定算法可以实现对原始数据效果更佳的筛选8,采用 Python 语言编程实现,得到数据整定结果,整定前后样本数皆为 1974,而操作变量数由 729 降为 504。第三步利用过滤式中的互信息法9以及 lasso 回归算法进行特征选择10,设计了综合筛选模型,并调用 Pandas 工具包对各变量之间的相关度分析,去除相关度低的部分变量,最终得到符合条件的主要影响变量。采用 Python 语言对上述两种特征选择方法实现,得出前20个对生物活性最具有显著影响的分子描述符(即变量),maxHsOH,BCUTc-1h,minHBa,minwHBa,Sa
18、aCH,MLFER_A,maxHBa,MAXDN2,BCUTp-1h,gmin,maxHBd,maxHCsats,minssO,hmin,minHBint10,MDEO-12,minHBint6,ATSc4,MDEC-22,C2SP2,构建这些化合物对 ER 生物活性的定量预测模型。2.2.基于改进的随机森林算法对基于改进的随机森林算法对 ER 的活性预测的活性预测 随机森林算法属于 bagging 算法的一种,也属于 bagging 算法的一种加强算法,是将多棵 CART 回归树集成的一种有监督学习算法,其样本的数据集输入为式 x 为 SMILES,y 为输出的活性值,具体公式:()()()
19、1122,mmEx yxyxy=(2-1)迭代次数为 t 次,即是对训练集进行1,2,tt=次分别采样,得到最终的集合 E,所得集合的算术平均值就是最后的模型输出。在对模型进行训练时采取 7:3 的训练验证集比例,在训练过程中融入遗传算法加快模型收敛速度,寻找更优解,遗传算法是通过选择、交叉以及变异等机制,模拟出一个人工种群的进化过程,借鉴生物界自然选择和自然遗传机制的随机优化搜索算法,为避免决策树陷入过拟合,本文使用遗传算法来优化参数本文使用的决策树共有五个超参数:n_estimators(随机森林包含的弱分类器数量)、max_depth(树的最大深度)、min_samples_leaf(叶
20、子节点包含的样本数)、min_samples_split(分枝所包含的最少样本个数)、龙楷潮 等 DOI:10.12677/mos.2023.124359 3933 建模与仿真 max_features(选的最大特征数)。将初始种群的是数量设置为 100,维度设为 5,随机初始化种群,适应度函数为MSE。经过50次迭代后n_estimators=15,max_depth=15,min_samples_leaf=2,min_samples_split=3,max_features=7 为最优解。当使用原始随机森林算法时得到的准确度(R2)和均方误差(MSE)分别为0.61,0.76,利用改进后的
21、随机森林算法获得的结果为 0.73,0.52 其中准确度提高了 0.12,均方差减小了0.24,由实验结果可得当使用改进后的随机森林算法拟合原数据能力更强。通过改进的随机森林算法预测模型对特征 1974 个化合物中 30%数据的 IC50 值和对应的 pIC50 值验证效果如下图 1 所示。Figure 1.Validation of IC50 values and corresponding pIC50 values 图图 1.IC50 值和对应的 pIC50 值验证效果 运用此模型,再对 50 个化合物的生物活性值进行 IC50 值和对应的 pIC50 值预测,具体预测结果如下表 1 所示
22、。Table 1.Prediction results of IC50 values and corresponding pIC50 values 表表 1.IC50 值和对应的 pIC50 值预测结果 SMILES IC50_nM pIC50 SMILES IC50_nM pIC50 1 14.323 6.338 26 10.248 6.673 2 6.557 7.119 27 13.199 6.42 3 4.624 7.469 28 16.694 6.185 4 6.557 7.119 29 19.288 6.041 5 10.174 6.68 30 18.456 6.085 6 7.16
23、6 7.031 31 35.922 5.419 7 6.055 7.199 32 35.922 5.419 8 6.008 7.207 33 35.922 5.419 9 5.483 7.298 34 30.291 5.589 10 10.908 6.61 35 17.282 6.15 11 10.268 6.671 36 7.966 6.925 12 11.603 6.549 37 7.966 6.925 13 10.908 6.61 38 3.316 7.857 14 10.268 6.671 39 19.068 6.052 龙楷潮 等 DOI:10.12677/mos.2023.1243
24、59 3934 建模与仿真 Continued 15 14.004 6.361 40 19.785 6.015 16 14.004 6.361 41 19.785 6.015 17 10.466 6.652 42 19.785 6.015 18 6.313 7.157 43 19.785 6.015 19 6.914 7.066 44 45.663 5.179 20 14.263 6.342 45 19.785 6.015 21 6.476 7.132 46 45.663 5.179 22 6.235 7.17 47 19.785 6.015 23 36.958 5.39 48 15.651
25、6.249 24 40.037 5.39 49 15.111 6.285 25 11.008 6.601 50 17.517 6.137 3.构建构建 ADMET 性质预测模型性质预测模型 对于所提供的 1974 个化合物的 ADMET 是数据,分别构建化合物 Caco-2(小肠上皮细胞渗透性)、CYP3A4(能否够被 CYP3A4 代谢)、hERG(是否具有心脏毒性)、HOB(口服生物利用度)、MN(是否具有遗传毒性)的分类预测模型,然后使用所构建的 5 个分类预测模型,鉴于化合物标签均为 2 分类模型,因此我们使用广泛且经典 SVM 分类模型和 Adaboost 分类模型进行分析比较,并通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 秃鹰 搜索 乳腺癌 候选 药物 优化 建模
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。