人工智能时代下的酶工程.pdf
《人工智能时代下的酶工程.pdf》由会员分享,可在线阅读,更多相关《人工智能时代下的酶工程.pdf(11页珍藏版)》请在咨信网上搜索。
1、自然界中存在的酶拥有多种多样的功能,它们已经被应用在工业生产和学术研究中,但其中许多酶的性质和功能还不能完全满足应用需要,通过改造来提升这类酶的某些特性是酶工程的重要任务。本文介绍了酶工程的主要发展历程,并重点梳理了人工智能(AI)助力酶工程领域的研究进展。酶工程主要包括理性设计、定向进化、半理性设计和人工智能辅助设计等策略。理性设计方法根据酶的催化机理、结构等先验知识进行改造。定向进化技术通过构建随机突变文库和高通量筛选提升目标酶的稳定性和活性等性质。半理性设计方法借助一系列计算方法构建相比于定向进化更小也更合理的突变文库以降低筛选工作量。人工智能技术在大量数据驱动下可以学习有关蛋白质构成和
2、进化的特征信息。通过直接学习自然界中存在的蛋白质序列、共进化信息和结构,深度神经网络已经可以解决许多类型的酶工程问题,如预测具有有益影响的突变、优化蛋白质的稳定性、提高催化活性等。通过对酶工程现状进行分析,本文旨在进一步推动酶的开发和优化以实现更广泛的应用,为研究者和相关从业人员提供更多有价值的见解。关键词:酶工程;定向进化;人工智能;深度学习中图分类号:Q814 文献标志码:A Enzyme engineering in the age of artificial intelligenceKANG Liqi1,2,TAN Pan3,HONG Liang1,2(1School of Physi
3、cs and Astronomy,Shanghai Jiao Tong University,Shanghai 200240,China;2Shanghai National Center for Applied Mathematics(SJTU Center),Institute of Natural Sciences,Shanghai Jiao Tong University,Shanghai 200240,China;3Shanghai Artificial Intelligence Laboratory,Shanghai 200240,China)Abstract:Enzymes ha
4、ve garnered significant attention in both research and industry due to their unparalleled specificity and functionality,and thus opportunities remain for enhancing their physichemical properties and fitness to improve catalytic performance.The primary objective of enzyme engineering is to optimize t
5、he fitness of targeted enzymes through various strategies for their modifications,even redesigning.This review provides a comprehensive overview for progress made in enzyme engineering,with a focus on artificial intelligence(AI)-guided design 收稿日期:2023-01-16 修回日期:2023-03-29基金项目:国家自然科学基金(12104295)引用本
6、文:康里奇,谈攀,洪亮.人工智能时代下的酶工程 J.合成生物学,2023,4(3):524-534Citation:KANG Liqi,TAN Pan,HONG Liang.Enzyme engineering in the age of artificial intelligence J.Synthetic Biology Journal,2023,4(3):524-534DOI:10.12211/2096-8280.2023-009特约评述第 4 卷 methodology.Several key strategies have been employed in enzyme engine
7、ering,including rational design,directed evolution,semi-rational design,and AI-guided design.Rational design relies on an extensive knowledge based on encompassing protein structures and catalytic mechanisms,allowing for purposeful manipulations of enzyme properties.Directed evolution,on the other h
8、and,involves the generation of a library of random variants for subsequent high-throughput screening to identify beneficial mutations.Semi-rational design combines rational design and directed evolution,resulting in a smaller,yet more targeted,library of variants,which mitigates high cost associated
9、 with extensive screening of large libraries developed through directed evolution.In recent years,AI technologies,particularly deep neural networks,have emerged as a promising approach for enzyme engineering,and AI-guided methods leverage a vast amount of information regarding protein sequences,mult
10、iple sequence alignments,and protein structures to learn key features for correlations.These learned features can then be applied to various downstream tasks in enzyme engineering,such as predicting mutations with beneficial effect,optimizing protein stability,and enhancing catalytic activity.Herewi
11、th,we delves into advancements and successes in each of these strategies for enzyme engineering,highlighting the growing impact of AI-guided design on the process.By offering a detailed examination of the current state of enzyme engineering,we aim at providing valuable insight for researchers and en
12、gineers to further advance the development and optimization of enzymes for more applications.Keywords:enzyme engineering;directed evolution;artificial intelligence;deep neural network酶是一种具有催化作用的生物大分子。经过自然选择,生物体内各种各样的酶在具备一定活性和稳定性的同时还保留了底物选择性等特异性功能。然而酶的序列空间在20N(N为蛋白质一级序列长度)量级,即便是经过了千百万年的演化,自然界也只是探索了序列
13、空间很小的一部分,这些功能还有提升的空间。因此酶工程的一项重要任务就是通过引入突变或新的结构功能域改造酶来提高特定性质以满足工业领域或实验室的需求1。蛋白质一级序列中离散的氨基酸具有高度的进化相关性,因此是酶工程主要的编辑改造对象。早在20世纪中期,Lerner等2就已经使用化学诱变的方法在细菌中引入突变。由于这种突变的靶向性无法控制,这项工作只是定向进化领域一次具有代表性的尝试。在重组蛋白技术发展成熟之后,蛋白质一级序列中的氨基酸可以被精准控制和编辑3。在此基础上,蛋白质层面有关工作机理和理化性质的先验知识可以被转化成蛋白质序列设计方案。理性设计方法便是依赖这些知识判断具体氨基酸替换后是否会
14、增强蛋白质的特定性525合成生物学 第 4 卷质,或者改造蛋白质的特异性功能,但这种方法不适用于工作机理或结构未知的蛋白质4。定向进化策略跨越了理性设计的知识壁垒,该方法通过随机突变和高通量筛选加速蛋白质向特定指标的进化过程,研究人员不再需要了解蛋白质的结构和工作机理。之后一系列半理性设计策略结合了理性设计和定向进化两种思路,通过构建更小也更合理的突变体文库提升效率。由于酶工程的实验结果可以按照统一的标准被收集,随着实验结果的累积,大量的数据推动了数据驱动的酶工程的发展。人工智能为酶工程提供了新的工具,机器学习方法与深度神经网络在该领域得到了有效利用与发展。总体来看,酶工程经历了从知识驱动到数
15、据驱动的发展历程,并且二者紧密结合,相辅相成。1 定向进化与半理性设计早期的酶工程需要通过理性设计决定突变位点,成功的案例必须建立在丰富的先验知识上4。定向进化技术的核心思路可以被分为两步,先构建大规模随机突变文库,再通过高通量实验筛选得到有益突变体。这样的过程往往会被迭代实施很多轮,直到有益突变位点积累到使蛋白质性质满足预期的数量。定向进化的发展让酶工程不再需要理解蛋白质的工作机理、结构或特定氨基酸替换的具体影响,这是酶工程历史上的重大突破。Frances H.Arnold因为在该领域做出突出贡献而获得了2018年诺贝尔化学奖。她和她的团队利用易错 PCR 技 术 成 功 实 现 了 枯 草
16、 杆 菌 蛋 白 酶 E(Subtilisin E)的进化5。经过3轮的诱变和筛选,最终在60%的二甲基甲酰胺(dimethylformamide)溶液中得到了相比野生型提高了256倍活性的6点位突变体。另一个具有代表性意义的工作是Stemmer在1994年提出的利用DNA重组构建随机突变文库6-7,这项技术利用PCR扩增目标蛋白的同源基因文库并将它们剪切成大量基因片段,通过无引物PCR技术重组后,基因片段会组成杂交基因并被克隆到表达载体中供后续筛选,得到的突变体会被用于构建新的DNA片段文库,有益的突变会在如此反复的筛选过程中累积(图1)。Stemmer团队使用该方法对-内酰胺酶(-lact
17、amase)进行了三轮重组(shuffling)和两轮回交(backcrossing),最终得到的突变体使宿主大肠杆菌(Escherichia coli)对抗生素头孢噻肟的抑制浓度比野生型提高了32 000倍。Liebeton 团队8-9将多种定向进化策略结合在一起来改造铜绿假单胞菌(Pseudomonas aeruginosa)中的细菌脂肪酶(bacterial lipase)。该团队先利用易错PCR技术,在多轮迭代过程中找到数个对蛋白质产物选择性影响较大的阳性单点突变体。然后在这些阳性突变所在位置进行饱和突变(saturation mutagenesis),得到了之前随机突变过程中漏选的更
18、好的阳性突变。在这些结果的基础上,再利用定点突变技术(site-specific mutagenesis)重新设计多点突变,最终得到的突变体在特定产物的选择性上比野生型提高了23.5倍。这种将多个定向进化策略结合起来的方法降低了随机突变漏选优秀突变体的概率,同时为饱和突变技术提供了关键的氨基酸位点。定向进化利用构建大量随机突变文库和高通量筛选的方法突破了酶工程关于催化机理、结构和特定突变影响的知识壁垒。然而对于许多蛋白质来说,高通量实验的设计仍然是一个挑战,并且多轮迭代筛选的方案会导致过长的实验周期,这对于生化实验室来说是巨大的负担,因此一部分研究重点被转移到了结合理性设计的小型突变体文库的筛
19、选中。共识序列(consensus sequence)是半理性设计中具有代表性的方法10-11。蛋白质一级序列中氨基酸之间具有高度的进化相关性,从进化角度来看,对酶活性和稳定性产生重要影响的氨基酸很可能是保守的。在给定蛋白质家族的图图1易错PCR技术(a)与基因重组技术(b)的原理Fig.1Principles for error-prone PCR(a)and DNA shuffling(b)526第 4 卷 多重序列比对(multiple sequence alignment)中,某个位置上的保守氨基酸具有更高的频率,这些残基被认为是共识残基(consensus residue)。共识序列
20、的核心思想是氨基酸频率反映了某些生物特性的相对重要性,在给定位置上用共识残基代替非共识残基往往能优化蛋白质性质11。图2以绿色荧光蛋白(green fluorescent protein,GFP)为例,展示了识别共识残基的基本原理。半理性设计是理性设计和计算方法的结合,筛选突变位点时理性思考同样重要。比如在通过酶工程提高酶的耐碱性时,序列中的天冬酰胺(asparagine)和甘氨酸(glycine)被认为对酶在碱性环境中的稳定性有负面影响,会被优先用其他氨基酸替代12-13。除此以外,分子动力学模拟、分子对接、第一性原理计算以及利用能量函数模拟退火等方法可从结构和能量角度筛选突变体14。这些计
21、算设计方法着眼于单个或者多个突变给蛋白质结构和功能带来的具体影响,可以构建相比于定向进化更小也更合理的突变文库,大幅度降低了定向进化方案中筛选突变体的工作量,具体进行实验时不再需要高通量筛选方法。Khersonsky等15基于多重序列比对和能量函数提出了针对酶的活性口袋进行设计的通用方案。该方法需要研究者基于先验知识将参与突变的氨基酸限制在活性口袋内部,因为这些点位对酶的功能有更直接的影响。该团队先利用多重序列比和Rosetta能量打分过滤掉不合理的单点突变,然后对剩下的单点突变进行组合。这个方法和定向进化最大的区别在于略过了从单点突变到多点突变的叠加过程,这意味着最终表现优秀但叠加过程中表现
22、下降的多点突变体不再会被剔除16。在单轮实验中测试了磷酸三酯酶(phosphotriesterase)的数十个突变体针对不同底物的水解活性,结果表明多个突变体在新的底物上表现出数千倍于野生型的活性。中国科学院微生物研究所的吴边团队17-18同样利用Rosetta改造天冬氨酸酶。在深入了解酶的催化机理的前提下,保持进行催化反应口袋中氨基酸不变的同时对靠近底物特异性基团的氨基酸进行突变,经过对数十个突变体进行实验测试,最终使酶在保持催化功能不变的情况下适用于多种不同底物。在定向进化中加入理性设计更有利于设计针对新底物、新功能的突变文库,且这类文库体量更小,阳性率也更高。2 人工智能助力酶工程蛋白质
23、一级序列由20种天然氨基酸构成,氨基酸的离散性使蛋白质在酶工程中具备高度的可编辑性,同时在计算机中具有可编码性。除此以外,大量突变体的实验结果都能够以一种标准化的方式整合起来构成突变体数据库。这些数据推动了人工智能技术在酶工程领域的应用。2.1 传统机器学习助力酶工程机器学习的方法是将大量蛋白质信息按照一定方式编码,使计算机产生可以执行复杂决策的算法。Capriotti等19在2004年利用1615个单点突变数据训练单层感知机并预测蛋白质突变对热稳定性造成的影响,他们将测量蛋白质突变稳定性变化时的温度、pH值、单点突变内容、溶液可及性以及单点突变周围氨基酸频率分布编码并输入到模型中,使模型在预
24、测精度上超过了之前利用能量函数计算热稳定性变化的方法。这种编码方案只利用突变周围的氨基酸频率分布将蛋白质结构信息纳入考虑,该团队在2005年推出了基于支持向量机(SVM)的 I-Mutant2.0,在结构信息之外又成功编码了蛋白质序列信息20。曲玉辰等21利用 I-Mutant2.0辅助设计与优化病毒融合抑制多肽,证明这种方法具备一定的可行性。早期机器图图2GFP蛋白的部分序列比对结果,共识残基已被高亮处理Fig.2Sequence alignment of GFP with most conserved residues highlighted527合成生物学 第 4 卷学习方法使用的网络比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 时代 工程
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。