2023年AI制药行业报告.pdf
《2023年AI制药行业报告.pdf》由会员分享,可在线阅读,更多相关《2023年AI制药行业报告.pdf(56页珍藏版)》请在咨信网上搜索。
1、-1-2-3-1-63,591.6.9%-2-一、一、AIAI 制药发展历程制药发展历程在过去的20年中,作为生命科学和信息技术的两大前沿,生物医药和人工智能这两个领域均取得了重大里程碑进展并呈现融合发展的趋势,由此推动了AI制药的兴起。随着BT(生物技术)和IT(信息技术)的不断深化,AI制药行业快速发展的势头仍将持续,为人类健康事业提供更强动力。来源:智药局二、二、AIAI 制药行业产业链条分析制药行业产业链条分析近十年来,越来越先进的信息技术得以用于生物层面,随之而来的是相关数据及工具的极大充盈,AI制药得以拓展更加多元的发展方向和更加广阔的应用空间。不仅仅局限于传统的小分子药物,AI在
2、大分子药物、细胞和基因疗法领域的作用也不断获得印证,一大批相关Biotech随之涌现。与此同时,辉瑞、赛诺菲、拜耳、强生等跨国药企和包括药明康德、IQVIA在内的CXO企业也纷纷加入进来,投身AI技术赋能药物的研发之中。图 1-1 AI 制药大事件-3-图 1-2 AI 制药行业产业链来源:智药局上游上游AI制药产业链上游主要分两大类:提供AI技术和提供生物技术的企业。提供AI技术的企业中,辅助制药的人工智能硬件设备包括服务器和芯片等。软件包括各类机器学习、深度学习以及其他人工智能算法,还有数据收集和处理平台、开源软件包以及云计算平台等辅助类软件。例如,Amazon Web Services(
3、AWS)、Google Cloud Platform(GCP)、华为云等云平台和工具为AI制药提供了强大的计算和分析能力。-4-图 1-3 上游软件服务商与AI制药公司的合作来源:智药局提供生物技术的企业包括提供CRO服务的企业和提供先进设备的企业。前者主要为提供制药流程中不同阶段辅助服务的传统CRO企业,后者则凭借冷冻电镜、自动化实验室等设备等高端设备提供技术支持。中游中游随着上游AI技术和生物技术的发展,AI制药企业的中游部分呈多元化发展趋势。按照商业模式的不同可以分为:AI+Biotech、AI+CRO、AI+软件/服务三类;同时IT头部企业以及AI与其他技术的结合应用也占据部分中游市场
4、。AI+Biotech企业从药物本身的性质或治疗手段分类,又可以分为小分子药物、大分子药物以及细胞和基因疗法。公司的核心目标是在综合考虑收支的情况下尽可能地推进管线进展。AI+CRO企业和AI+软件/服务企业的区别在于不同的业务性质带来的商业模式、团队规模等方面的差异。更加定制化的CRO业务为公司在药物机制理解、团队人员配置、成本费用开支上提出了更高要求,与之相匹配的,其在药物研发价值链条上参与分成的比例更高;而软件/服务则通过打造平台或软件间接地为AI制药提供帮助,这类企业更加考验底层算法的普遍适用性,客单价不高但容易产生规模效应,相关成本也较低。同时,国内外头部互联网企业也通过对外投资、打
5、造自有相关平台、提供算力及计算框架服务等手段,在AI制药领域积极布局。此外,AI与大模型、DEL、虚拟临床等技术的结合也成为传统制药公司融入AI技术的一种渠道。下游下游AI制药企业的下游分为传统药企、Biotech公司和CXO企业。传统药企既可以和中游企业合作管线来丰富药物种类,提高药物研发成功率,还可以利用已有的成熟销售渠道进行AI辅助研发药物的销售;Biotech公司是传统药企与AI制药企业合作的另一种模式,通过前期合作开发药物分子以及后期管线或药物授权获取收益;CXO企业同样可以从中游企业获取技术,以提高自身竞争力和市场占有率。选择适合的AI制药公司进行合作,成为药企、Biotech和C
6、XO最常见的参与方式。头部AI制药公司在传统药厂的合作的渗透率不断提升,以Exscientia为例,就已披露了和罗氏、拜耳、赛诺菲在内的顶级制药公司的合作。除此之外,部分公司还会选择软件服务合作,即AI+SaaS模式。Iktos在授权机器学习模块的同时,也包含了联合技术开发协议的形式,合作的制药公司将资助其新算法开发。但目前,这种合作模型并非国内创企变现的核心关注点。-5-数据库数据库近年来,AI制药领域数据库的迅猛发展,离不开大数据、机器学习、结构生物学等多个领域技术的不断进步和相互融合。这些技术的发展为大规模化学和生物数据的收集、分析和挖掘提供了有力支持,进一步推动了AI在制药领域的应用和
7、发展。AI制药数据库可包含:多组学系统数据库(如基因组学、转录组学、代谢组学等)、小分子化合物数据库、疾病生物学原理数据库、现存药物及靶点数据库、患者临床试验/动物模型数据库等。例如2022年DeepMind公开的蛋白质结构数据库,包含数2亿个已预测蛋白质结构。其他包括化学生物学数据库Chembl、转录组学数据库GEO、蛋白组学数据库PDB、靶点的综合数据库TTD、药物信息知识库DrugBank、临床数据数据库ClinicalTrials.gov等,这些数据被大量地用于基于AI技术的药物筛选、分子模拟和生物信息学分析,有助于加快新药发现和开发的过程。-6-7-一、一、AIAI 制药技术原理制药
8、技术原理周期长、成本高、成功率低一直是新药研发领域的痛点。随着机器学习、深度学习等关键技术的快速发展,AI已应用至药物靶点发现、化合物筛选和成药性预测等多项药物研发环节,优势逐渐显现。当前驱动AI制药公司的技术分为两类:一类是以人工智能算法为核心技术,在硬件设备的支持下和各类生物数据库的基础上开发模型进行新药研发;另一类是以前沿生物技术为核心,人工智能作为提高效率的工具辅助新药分子的发现和设计。图 2-1 技术原理当前应用在制药中的人工智能算法包括机器学习、深度神经网络、深度强化学习等多种类别,在不同的领域中各有优劣。人工智能算法的支撑层包括数据和算力,数据的主要来源包括实验数据库、开源数据库
9、(文本&结构)、物理模拟生成的数据库以及清理公开信息后构建的数据库;算力支持则依仗CPU、GPU等硬件设备。图 2-2 人工智能三要素-8-生物技术的进步为AI制药行业带来了许多新的机遇和挑战,也使得这一领域能够更加快速地发展和创新。图 2-3 生物技术-9-二、二、AIAI制药技术应用场景制药技术应用场景目前而言,AI技术在传统制药中可以应用的领域包括靶点的发现和识别、药物从头设计、ADMET预测、临床试验等在内的八大模块,基本涵盖了药物发现、开发和临床的全流程。图 2-4 AIDD应用场景-10-(一)靶点的发现和识别(一)靶点的发现和识别目前,进行靶点预测的人工智能底层算法主要包括机器学
10、习(ML)、深度学习(DL)、大型语言模型、知识图谱等。从方法上来讲,人工智能目前主要通过基于多组学分析、基于蛋白质序列、基于蛋白质结构和网络和基于网络药理学这四个技术路径来赋能靶点发现。1.1.多组学分析和药物靶点预测多组学分析和药物靶点预测伴随着高通量测序技术的发展,海量的组学数据被积累起来。面对高度复杂、维度惊人的生物学数据,AI算法可以一定程度上跨越多组学数据中存在的“维数灾难”,通过多维度组学数据的整合和高通量功能筛选能够更加系统地发现与临床密切相关的靶点。人工智能(AI),特别是深度学习(DL),非常适合处理复杂和非结构化数据,并且具有在多模态数据中发现非线性和多维数据。如图2-5
11、所示,为Insilico Medicine(英矽智能)用于靶点发现的PandaOmics平台。图 2-5 PandaOmics平台PandaOmics平台通过AI对患者基因组学和蛋白质组学等医学多组学数据的挖掘分析来实现,对正常组织和疾病组织比较,分析这两个组织的RNA或/和蛋白质差异表达,结合通路分析和强大的数据整合来发现靶点信息。实例来源:英矽智能2.2.基于序列的蛋白质可药靶性的发现基于序列的蛋白质可药靶性的发现具有相似序列的蛋白质在一定程度上具有相似的结构和功能。因此,靶点与成功靶点的序列相似性分析是研究潜在靶点的可药靶性的重要途径。同时,靶点的序列信息还衍生了许多额外的描述符,比如蛋
12、白质数据的表征方法里介绍的CTD描述符,除了基本的氨基酸组成之外,还包括由氨基酸组成计算的各种物化性质,如疏水性、极性、极化性、电荷等等。针对这样的数据,人们开发了各种基于人工智能算法的方法来预测新的靶点,深度神经网络(DNN)和K最近邻算法(KNN)是常用的人工智能算法,DNN和KNN的算法原理见图2-6所示:-11-图 2-6 DNN和KNN的算法原理3.3.基于蛋白质网络的可药靶性发现基于蛋白质网络的可药靶性发现基于网络的可药靶性发现的原理是在知识图谱及其嵌入(GRE)模型上,评估和推断不同生物实体之间的相互作用,从而发现新的可药靶性蛋白。随着AlphaFold2 的问世,越来越多的蛋白
13、质结构得到验证,现有成熟的数据库包括PDB、SCOPe、CATH、AlphaFold、TTD等。除此之外,还有与其他分子相互的作用的信息等多种数据库,如蛋白质组数据库、蛋白质相互作用数据库、药物基因组学数据库、基因本体论数据库、药物及其治疗靶点的信息、药品数据库、药物-靶点关系数据库、药物不良反应数据库等。基于知识图谱预测可药靶性识别的方法,可以整合多源异质的生物医药信息,并获取其中的内在关联,在蛋白质可药靶性的识别上占据十分重要的地位。如图2-7所示,为TriModel模型原理图,TriModel模型是一种基于知识图谱嵌入的药物-靶标预测方法。图 2-7 TriModel模型TriModel
14、模型,通过使用如KEGG、UniProt和DrugBank等现有的生物知识库生成了与药物-靶标相关的生物实体知识图谱。然后,训练TriModel模型来学习药物-靶标的有效向量表示。实例来源:Sameh K Mohamed,Vt Novek,Aayah Nounu.“Discovering protein drug targets using knowledgegraph embeddings”Bioinformatics(2019)-12-4.4.基于网络药理学的靶标发现基于网络药理学的靶标发现网络药理学是一门结合生物信息学、网络科学和药物学等学科的新兴交叉学科。它基于大规模数据和计算机技术,
15、探究药物分子与生物体内靶点、通路、基因等分子间的相互作用网络,以及这些相互作用对于药物的药效、毒性、代谢等影响。如图2-8所示,将药物、靶标等内容抽象成一个复杂的生物分子网络,可以通过它们之间的相互作用关系来认识疾病发生和发展的生物学机制。图 2-8 网络药理学中药物成分-靶标网络图实例来源:李楠,陈蕾,张琨基于网络药理学探讨人参调控铁死亡抗阿尔茨海默病的潜在作用机制 J.现代药物与临床,2022,37(2):244-251.未来网络药理学的研究将会涉及更多的多模态数据,如基因组学、转录组学、蛋白质组学、代谢组学等数据。面对多维度数据,人工智能技术在这方面的应用已经开始受到广泛关注,未来的网络
16、药理学也将借助这些技术的发展,实现更加智能化和高效的分析和预测。(二)虚拟筛选(二)虚拟筛选AIDD初创企业大多数布局了先导化合物设计、优化和合成,利用人工智能算法学习和处理海量的知识和数据,建立高效的模型,实现快速筛选,找到符合要求的化合物。例如,以Schrdinger(薛定谔)、英矽智能、深势科技为代表的企业,均在此阶段有布局。虚拟筛选是计算药物发现的一种手段。虚拟筛选(VS)一般可分两种,即基于结构的VS(SBVS)和基于配体的VS(LBVS)。1.1.基于结构的虚拟筛选基于结构的虚拟筛选基于结构的虚拟筛选,也称为基于靶标的虚拟筛选,这类药物设计方法包括常规的分子对接方法和从头设计等其他
17、方法。其中如何准确预测小分子与靶标间的结合亲和力是这类药物设计方法中的核心问题。打分函数是一种可靠的描述结合亲和力的方法,目前,融合人工智能的基于结构的ML模型(SBML)和DL模型(SBDL)评分函数显示出比传统方法普遍更优的预测精度和灵活性。如图2-9所示,为Schrdinger公司的Active Learning Glide板块。-13-图 2-9 PandaOmics平台Active Learning Docking板块通过将 Glide 对接和评分与机器学习模型的强大功能相结合,快速、准确且经济高效地筛选数十亿种可购买化合物。实例来源:Schrdinger2.2.基于配体的虚拟筛选基
18、于配体的虚拟筛选传统的基于配体的虚拟筛选(LBVS)方法可以分为基于化合物相似性的模型和用于活性预测的定量结构-活性关系(QSAR)模型。其中,基于化合物相似性的模型又可以分为基于配体分子相似性匹配和基于药效团模型的药物设计方法。深度学习在人工智能领域取得了突破性的发展,推动分子相似性方法和药效团模型的发展,也极大地丰富和发展了QSAR模型,许多深度学习的框架被用在 QSAR建模上,包括卷积神经网络、图卷积神 经 网 络 和 长 短 期 记 忆 网 络。如 图 2-10 所 示,是 一 种 基 于 深 度 学 习 模 型 的 虚 拟 筛 选 系 统DeepScreening。=图 2-10 D
19、eepScreening系统DeepScreening结合了分子指纹和深度神经网络方法,能够实现基于配体的快速筛选,获得潜在的活性化合物,加快药物发现。用户可以快速在平台上针对具体靶点构建模型,全新库的生成,以及针对特定库进行快速的高通量筛选。实例来源:-14-(三)药物从头设计(三)药物从头设计分子从头设计是计算药物发现的另一种手段,从分子表征程度的角度来考虑从头设计的方法可以分为三类,分别是基于原子的、基于片段的和基于反应的方法。对分子的不同描述方法,会引进不同的机器学习算法。采用简化分子线性输入规范(SMILES)的描述,可以通过采用长短期记忆网络(LSTM)来实现;当分子采用图形描述时
20、,可以采用蒙特卡罗树搜索来生成新分子;还有自动编码器和生成对抗网络等算法都可以用在分子生成模型中。如图2-11所示,为英矽智能2020 年推出的用于从头设计和优化小分子的软件平台 Chemistry42。图 2-11 Chemistry42平台从头生成实验流程示意图Chemistry42 是一个主动学习系统,它依赖于 42 种经过预训练的生成算法来设计类药物分子结构。他们利用各种分子表示、基础算法和策略来彻底探索化学空间。实 例 来 源:Chemistry42:An AI-Driven Platform for Molecular Design and Optimization.Journal
21、 of ChemicalInformation and Modeling,63(3),695701.-15-(四)大分子药物从头设计(四)大分子药物从头设计人工智能在大分子药物发现中的应用正在迅速增加,AI大分子公司在2021年筹集了39亿美元。成熟的生物制药公司与人工智能驱动的生物技术公司合作,同时也通过内部和收购的方式投资于构建用于大分子药物发现的人工智能能力,例如基因泰克在2021年收购了Prescient Design。相较于从已知的蛋白质出发进行设计,基于人工智能和机器学习的从头设计有助于探索更大的蛋白序列和结构空间,避免天然多肽和蛋白的成药性问题,更直接快速地得到所需蛋白,因此吸引
22、了药物研发人员不断进行理论和技术上的突破。1.1.蛋白质结构预测方法蛋白质结构预测方法预测蛋白质结构的最终目标是理解、利用并改进蛋白质的功能,从而更好地服务于诸如蛋白质设计、药物设计等其他任务。蛋白质结构预测方法包括同源建模、基于穿线法的蛋白质结构预测、基于片段组装的方法、从头折叠算法、基于氨基酸协同突变的接触预测、基于端到端的结构预测等。Deepmind团队于2020年发布的AlphaFold2是迄今为止准确度最高的蛋白质三维结构预测模型工具。如图2-12所示,为AlphaFold2中部分算法的原理。图 2-12 AlphaFold2原理示意图AlphaFold2是一个基于神经网络的全新设计
23、的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。实 例 来 源:Jumper,J.et al.Highly accurate protein structure prediction with AlphaFold.Nature 596,583 589(2021).2023年10月底,Google Deepmind联合Isomorphic Labs共同发布了新一代AlphaFold模型。新一代AlphaFold可以预测蛋白质数据库(PDB)中几乎任何分子的结构,通常具有原子精度,包括配体(小分子)、蛋白质、核酸(DNA 和 RNA)以及含有翻译后修饰(PTM)的生物分子。2.
24、2.蛋白质与多肽类药物设计蛋白质与多肽类药物设计目前,已经有较多报道关于机器学习和深度学习进行蛋白质与多肽的药物设计。设计的多肽和蛋白质类包括抗癌肽、抗菌肽、药物结合肽等。国内外相关的公司也正在合作对相关领域进行研究。多肽和蛋白质的药物设计方法包括:利用多目标遗传算法;病毒肽生成工具;利用循环神经网络;利用卷积神经网络;利用生成式对抗网络;利用变分自编码器。如图2-13所示为Peptilogics公司的Nautilus 平台,可以生成特定(可调)大小范围和复杂性的有效肽。-16-图 2-13 Nautilus 平台Nautilus 的用途包括生成特定(可调)大小范围和复杂性的有效肽,通过专有算
25、法和内部专门构建的超级计算访问不同的化学空间等等。实例来源:Peptilogics(五)(五)ADMETADMET性质预测性质预测ADMET性质预测是人工智能助力药物发现的关键领域之一。以机器学习、深度学习为代表的ADMET预测模型可以从ADMET数据中学习化学结构与药效学的关联,并能迁移至其他未知化学结构中进行高通量筛选,以降低候选化学实体的临床失败率,有效地促进了药物研发的进程。目前在这一领域,费米子科技、剂泰医药等多家国内AI制药企业走在前列,此外,包括拜耳在内的跨国药企亦有布局。如图2-14所示,为拜耳公司ADMET工具的应用案例。图 2-14 拜耳ADMET工具的应用示例拜耳的ADM
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 AI 制药 行业 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。