数据驱动的酶反应预测与设计.pdf
《数据驱动的酶反应预测与设计.pdf》由会员分享,可在线阅读,更多相关《数据驱动的酶反应预测与设计.pdf(16页珍藏版)》请在咨信网上搜索。
1、2023 年 第 4 卷 第 3 期|Synthetic Biology Journal 2023,4(3):535-550数据驱动的酶反应预测与设计曾涛,巫瑞波(中山大学药学院,广东 广州 510006)摘要:酶催化已经在日用化学品、药物和功能材料等生产中得到越来越广泛的应用。酶,作为生物制造业的核心“芯片”,其催化反应的预测与设计是推动传统生物制造走向生物智造发展的核心驱动力之一。然而目前我们对大自然酶催化的了解仍然非常有限,这严重阻碍了我们对酶催化空间的探索和利用。随着大数据时代的到来,数据驱动的计算模拟已经成为酶催化新空间的挖掘及其功能优化设计的重要手段。各种计算工具和平台的开发正极大
2、地加速并赋能于酶学相关领域的各类实验研究。本文针对酶催化过程中底物、产物和酶的预测及设计方法进行了综述,概述了近年来酶反应相关的数据库,汇总比较了数据驱动的酶反应设计工具,着重介绍了深度学习在该领域的应用,并从数据、模型、算法、平台等多方面展望和探讨了数据驱动型计算方法在酶反应预测与设计领域的发展前景。关键词:大数据;机器学习;酶催化;酶设计;生物合成中图分类号:Q814.9 文献标志码:A Data-driven prediction and design for enzymatic reactionsZENG Tao,WU Ruibo(School of Pharmaceutical Sc
3、ience,Sun Yat-Sen University,Guangzhou 510006,Guangdong,China)Abstract:Enzymes are efficient catalysts with substrate specificity and stereo-and regioselectivity,which are widely used in producing chemicals,drugs and materials.Enzymes are cores for biocatalysis,and thus prediction on their functions
4、 and design of enzymatic reactions are driving forces for intelligent biomanufacturing through biocatalysis.So far limited understanding on enzymatic catalysis hinders the exploration of enzymatic reactions for industrial applications.For example,it is difficult to predict enzymatic activities on un
5、reported substrates,to elucidate synthetic routes for newly found structures of enzymes,and to redesign enzymes for specific scenarios.In the era of big data,data-driven approaches have exhibited powerful capabilities for exploring enzymatic reactions,by filling gap between the large corpora of enzy
6、matic data and limited understanding on functions of the enzymes.Recently,computational tools and platforms have greatly accelerated experimental research,and improved the design-build-test-learn cycle.Herein we review progress in computational tools for enzymatic reaction prediction and design,focu
7、sing on the 收稿日期:2022-11-23 修回日期:2022-12-27基金项目:广东省重点研发计划(2022B1111080005)引用本文:曾涛,巫瑞波.数据驱动的酶反应预测与设计 J.合成生物学,2023,4(3):535-550Citation:ZENG Tao,WU Ruibo.Data-driven prediction and design for enzymatic reactions J.Synthetic Biology Journal,2023,4(3):535-550DOI:10.12211/2096-8280.2022-066特约评述合成生物学 第 4
8、卷application of deep learning methods in this field.Referring to key elements(substrate,product and enzyme)for enzymatic reactions,related databases are summarized.Then,the data-driven approaches for forward and backward prediction of enzymatic reaction routes and functions of enzymes,their design a
9、nd theoretical calculation for enzymatic catalysis are addressed.Finally,the status and prospective of data-driven approaches for enzymatic catalysis prediction and design,including the data,model,algorithm and platform,are discussed.Keywords:big data;machine learning;enzymatic catalysis;enzyme desi
10、gn;biosynthesis酶是自然界中的能工巧匠,其以高效、精准的手段催化生物体内大量化学反应1。酶催化的应用具有悠久的历史,最早可以追溯到古人的酿酒技术2。随着科学的进步,我们对酶催化的过程有了更深入的理解,同时在“碳中和”的大背景下,酶催化也因其高效环保、条件温和以及高立体选择性等优点被广泛应用于医药、化工等各领域3-5。此外,基于生物底盘的异源生物合成也非常依赖于由一系列酶催化反应组成的生物合成路线的优化与设计6。因此,酶被视为生物制造领域的核心“芯片”,而酶反应的机制解析与优化设计是“芯片”升级换代的重要驱动力。在酶反应机制解析方面,虽然当前通过实验和计算(如多尺度模拟方法7等)结
11、合来解析酶的三维结构、功能及其催化反应机制越来越流行8-10,但因为直接验证反应机理的实验手段有限,而QM/MM等多尺度模拟的计算代价仍然较为昂贵,当前人们所探索的酶促过程只是酶反应空间中的冰山一角。而随着测序技术的发展,有大量酶序列的功能有待阐明11,现有天然产物数据库也是日益丰富,但其中大量结构的生物合成反应路线仍有待解析12,这些都严重制约了新酶的发现与天然产物的生物制造。在酶反应优化设计方面,尽管AlphaFold213等蛋白结构预测工具为从一维序列到三维蛋白结构的理论预测提供了利器,但是基于序列的酶功能预测以及以功能为导向的蛋白序列设计相关算法进展则相对更滞后14-15。此外,在工业
12、酶领域,如何拓宽酶的底物谱、改善酶反应选择性、提升酶催化效率或稳定性是重要的研究方向16,但目前这些研究在很大程度上仍然依赖于研究人员的知识和经验。而当前广泛采用的多轮次“设计-构建-测试-学习(DBTL)”循环策略,往往要消耗大量的时间和资源。随着大数据时代的到来,利用计算机从已知的各类数据中挖掘背后隐藏的序列与酶反应相关性成为可能。例如,合成路线与酶功能的计算预测17-18可助力于生物合成途径的设计与优化,而基于代谢组和基因组数据的代谢网络模型19以及全细胞模型20则可以对物种或细胞的代谢生长过536第 4 卷 程进行模拟,进而对上述设计路线进行计算测试。总之,近年来这些数据驱动的模型正在
13、逐渐深入参与到传统DBTL的各个环节中,从而加速DBTL循环而缩短时间周期,抑或代替实验环节来缩减实验成本21-22。基于上述现状,本文首先整理了常用的酶反应数据库,然后以反应底物、产物和酶为三个抓手对近年来酶反应预测和设计的计算工具进行了梳理,最后对数据驱动的酶反应预测与设计研究进行了展望。1 酶反应数据库在数字信息的时代,数据就是生产力,因此生物信息研究领域出现了许多高质量的数据库,不仅为传统的实验人员提供了信息服务,更是在数据驱动的计算工具开发中发挥了关键作用。表1汇总了常用的几个酶反应相关的数据库,这些数据库都有相应的Web服务器,可以直接在线访问和检索,并且除了Reaxys32外,其
14、他数据库都可以免费下载使用。在 天 然 产 物 代 谢 领 域 常 用 的 数 据 库 为KEGG23和MetaCyc24,两个数据库中均搜集了大量的酶反应,并且以生物合成途径对反应进行了不同层级结构的注释,如MetaCyc中针对次级代谢产物生物合成中划分有萜类生物合成途径、聚酮生物合成途径等,而萜类合成途径中又有单萜生物合成途径、萜类生物碱合成途径等等。Rhea25是由瑞士生物信息学研究所建立并维护的专门针对酶反应的数据库,其共同参与维护的还有蛋白序列数据库Uniprot33,因此Rhea中的反应具有全面的酶信息注释,且与Uniprot高度关联。BRENDA26和SABIO-RK27则是致力
15、于搜集酶反应动力学信息的数据库,包括米氏常数(Km)、催化常数(kcat)以及酶反应条件如温度、酸碱度(pH)等,而且BRENDA还提供了酶的详细分类(EC number等)和命名信息。Reactome28、PathBank29、HMDB30是具有不同侧重点的生物通路数据库,它们搜集了包括各种代谢反应、信号转导在内的各种信号通路数据。基于以上众多数据库各有侧重,但同时又有大量重复数据的情况,Pagni 等31对KEGG、MetaCyc、HMDB等12个数据库的反应和酶进行汇总去重,构建了MetaNetX数据库,可用于基因组尺度的代谢网络模型的构建和分析。除了上述开源数据库以外,也有一些商业数据
16、库可提供信息的检索和下载服务,如 Elsevier 旗下的Reaxys32数据库,包含了从各种专利和文献中提取的有机反应和酶反应数据。2 酶反应预测与设计反应底物、产物和酶是认知酶反应的三个核心要素,因此大部分酶反应的计算预测和设计方法都围绕这三点展开,且计算模型通常是通过其中之一(或之二)对剩余要素进行预测(图 1):围绕底物、产物的正向或逆向预测探索反应和代表表1酶反应数据库Table 1Databases of enzymatic reactions数据库KEGG23MetaCyc24Rhea25BRENDA26SABIO-RK27Reactome28PathBank29HMDB30Me
17、taNetX31Reaxys32特点具有物种、基因组、酶等多水平注释的合成(代谢)反应数据库以全面的初级/次级代谢产物合成途径对反应进行注释全面的生物酶反应数据库,与Uniprot高度关联对酶的各项信息(如分类、反应、参数等)进行详细注释包含酶反应的动力学参数、反应条件等信息综合的生物通路数据库,包括代谢、信号调控等通路数据以常见模式物种为基础的代谢、调控通路数据库人体小分子代谢数据库,包含反应、MS、NMR谱图等信息整合了多个来源的生化反应数据库用于代谢网络模型构建从专利和文献搜集和整理的大量有机反应和酶反应路线(商业非开源)网址https:/www.kegg.jp/kegghttps:/m
18、etacyc.orghttps:/www.rhea-db.orghttps:/www.brenda-enzymes.orghttps:/sabiork.h-its.orghttps:/reactome.orghttp:/www.pathbank.orghttps:/hmdb.cahttps:/www.metanetx.orghttps:/537合成生物学 第 4 卷谢物空间,同时还能用于合成路线的预测;根据给定反应预测所需的酶,或者反过来对未知反应功能的酶进行酶功能分类或反应活性强度预测;根据反应和酶的信息对催化反应重要性质(如反应动力学参数)进行预测等。因此,接下来论文将以酶、底物和产物为酶
19、反应的三个抓手,从酶反应的数据表征、酶反应路线的正逆向预测、未知酶功能的预测与设计、已知功能的酶反应性质预测等方面来分别介绍。2.1 数据的表征在构建计算模型之前,我们需要对数据(即小分子和蛋白质的结构与性质)进行表征,使其转化成计算机能够理解的语言。无论是小分子还是蛋白质,都有不同维度的表征方式,如对于小分子来说,有基于二维结构的SMILES表达式、分子图(graph)和分子指纹等,还有基于三维结构的像素表征等34-35,此外也能通过分子的一维理化性质如分子量、疏水性、电荷等进行表征36。对于蛋白结构来说,最常用的是一维的氨基酸序列表征,以氨基酸序列为基础的多序列比对(MSA)结果同样也可以
20、作为表征。近年来多种蛋白质结构预测模型都表明MSA中序列共进化信息对于模型的预测精度有显著提升37。除此以外还能用二维的位置权重矩阵(PSSM)、接触图(contact map)、三维的像素点等对蛋白进行表征17。而对于化学反应,在深度学习模型发展起来之前,研究人员主要通过经验和知识对反应规则进行总结,并主要通过 SMIRKS 表达式(SMILES 的一种拓展)来表示,其中包含了特定的反应位点信息和化学键的形成和断裂模式,一些常用的化学信息学工具如RDKit38等可以直接读取SMIRKS并将其应用于给定底物,从而判断其是否符合该反应规则并生成特定的产物。对于酶来说,其功能可直接由其催化的反应来
21、表征,但除此以外,酶的分类学标签和基因本体论(gene ontology,GO)39图图1酶反应的三个核心要素(底物、酶和产物)及其信息表征方式Fig.1Key elements(substrate,enzyme and product)of enzymatic reactions and their information representations538第 4 卷 注释也常用于描述酶的功能。酶的分类学标签通常指酶学委员会(Enzyme Commission)为酶所制作的一套编号分类法,该分类以化学反应的类型为基础。每个酶的 EC number都由字母“EC”和四个数字组成,其中四个数字
22、用点分隔,第一个数字使用数字1到7分别代表目前划分的七大类酶(氧化还原酶、转移酶、水解酶、裂解酶、异构酶、连接酶和转位酶)。后面三位数字将酶的分类逐级细分,由于不同大类下的子类数目不一,因此后三位数字的取值范围并不固定。而GO注释则是现代生物学从三个方面(分子功能、细胞组分、生物过程)对基因(及其表达的蛋白或RNA)所进行的描述。和EC number类似,每个方面之中又有各种细分的描述,一般称为GO term,如“GO:0005737”是细胞组分中的细胞质,表示某基因的产物是细胞质的组成成分。在机器学习模型中,数字表征(如分子量、电荷等)可以直接作为输入,而分子图、接触图等可转换为邻接矩阵进行
23、输入,对于文本表征(如SMILES、氨基酸序列等)则有多种输入方式,如独热编码(one-hot编码)、词嵌入(word embedding)等。上述表征方式所提取出的特征各有侧重,因此在实际应用中通常需要根据任务的性质采用不同的表征方式进行模型训练。2.2 基于反应物(以及酶)的产物预测目前在自然界中仍然存在着大量未知的代谢过程,被称为“代谢暗物质”,阐明这些未知的代谢物和代谢反应能为新药发现和构建细胞工厂提供丰富的资源40。因此有许多工作聚焦于拓展现有分子的反应空间,即基于已知分子预测其潜在的各种代谢产物图2(a)。以Hatzimanikatis课题组40的工作为例,他们将前期总结的约500
24、条反应规则41应用于150万个生物来源小分子及活性小分子,构建了ATLASx数据库。该数据库中一共包含了 520万条和现有的 8000万小分子有关的反应,且其中有148万小分子此前并没有包含在任意反应中,即为“孤儿”分子。ATLASx数据库极大图图2正向和逆向反应预测正向和逆向反应预测都是从一个分子(绿色)出发预测其潜在底物或产物(黄色),箭头表示两者之间能够通过反应进行转化,在(a)中箭头从反应物指向产物,(b)中则相反。经过多次迭代能够获得一个反应网络,网络中既能采样到已知的分子(实心)又能获得全新的结构(空心)。但不同的是正向反应预测每一次迭代方向都是随机的,而逆合成预测通常有一个终点条
25、件(蓝色,如特定的原料分子),且会采取算法使得迭代过程朝着终点的方向进行Fig.2Prediction of forward and backward enzymatic reactionsPrediction starts with an enzyme molecule(green node)to deduce its substrate or product(yellow nodes),the lines represent transformation reactions between two molecules,with arrow from substrate(enzyme)to
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 驱动 反应 预测 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。