基于多因素耦合参数拟合蛋白质折叠速率_李兰.pdf
《基于多因素耦合参数拟合蛋白质折叠速率_李兰.pdf》由会员分享,可在线阅读,更多相关《基于多因素耦合参数拟合蛋白质折叠速率_李兰.pdf(6页珍藏版)》请在咨信网上搜索。
1、103李兰等基于多因素耦合参数拟合蛋白质折叠速率第 2 期第 42 卷 第 2 期2023 年 4 月内蒙古工业大学学报(自然科学版)Journal of Inner Mongolia University of Technology(Natural Science Edition)Vol.42 No.2Apr.2023文章编号:1001-5167(2023)02-0103-06基于多因素耦合参数拟合蛋白质折叠速率李兰,张颖(内蒙古工业大学 理学院,呼和浩特 010051)Protein folding rate fitting based on multi-factor coupled pa
2、rametersLI Lan,ZHANG Ying收稿日期:2022-10-17基金项目:内蒙古自治区自然科学基金项目(2022LHMS03014);内蒙古自治区直属高校基本科研业务费项目(JY20220069)第一作者:李兰(1996),女,2020 级硕士研究生,主要从事生物信息统计计算研究。E-mail: 通信作者:张颖(1973),女,博士,副教授,主要从事计算生物学研究。E-mail:(School of Science,Inner Mongolia University of Technology,Hohhot 010051,China)Abstract:The four para
3、meters including the number of regular secondary structures,the weighted long-range order of amino acid types,the radius of gyration per unit chain length and the nematic order were extracted from the sequence and structure of the native state of the protein.These parameters characterize the size,to
4、pology,amino acid composition,geometry and the ordered degree of secondary structure arrangement of the protein,respectively.The four parameters were coupled together to construct a power-law dependence equation between the coupling parameters and the folding rate.On an experimental data set contain
5、ing 155 protein folding rates,the parameters to be determined for the equations were determined using maximum likelihood estimation.The results show that the coupling parameter achieves an 80%goodness of fit to the folding rate and that 95%of the protein folding rates are within 50-fold of the predi
6、cted value,and for the folding rate data spanning nine orders of magnitude,the coupling parameter captures the major factors affecting the folding rate.Key words:protein folding rate;coupling parameter;power-law;maximum likelihood estimation摘 要:从蛋白质天然态的序列和结构中,提取了规则二级结构数、氨基酸类型加权长程序、单位链长回转半径和向列序等 4 个参
7、数,这些参数分别表征了蛋白质的大小、拓扑、氨基酸组成、几何形状和规则二级结构排列有序性。将 4 个参数耦合在一起,构建了耦合参数与折叠速率之间的幂律依赖方程。在包含 155 个蛋白质折叠速率的实验数据集上,采用极大似然估计确定了方程的待定参数。结果表明:耦合参数实现了对折叠速率 80%的拟合优度,而且95%的蛋白质折叠速率在预测值的 50 倍以内,对于跨越 9 个数量级的折叠速率数据,耦合参数捕获了影响折叠速率的主要因素。关键词:蛋白质折叠速率;耦合参数;幂律;极大似然估计中图分类号:Q 03 文献标志码:A 蛋白质折叠问题被广泛讨论超过 50 年1,但基于现有知识仍不能精确地预测出蛋白质的折
8、叠时间。目前已测量的 150 多个单结构域水溶性球蛋白质(包括人工合成肽)体外折叠实验数据表明,其折叠时间从 10-6 s 到 103 s 跨越 9 个数量级2。尽管蛋白质折叠非常迅速(常常是 ms 量级),但却可准确到达其原子细节天然结构,其中机制令人着迷。最近以 AlphaFold23和 RoseTTAFold4为代表的深度学习模型,在预测蛋白质三维结构方面取得了前所未有的成功,但这些模型还仅是基于知识的最终状态的准确预测。OUTEIRAL C 等5分析了包括 AlphaFold2 和 RoseTTAFold 在内的 8 个结构预测模型,发现当前的机器学习模型尽管捕获了一些关于折叠路径的信
9、息,但所产生的折叠轨迹与实验可观测值如折叠速率无关,表明这些模型没有学习到蛋白质折叠的物理学,也就是说,蛋白质折DOI:10.13785/ki.nmggydxxbzrkxb.2023.02.001104内蒙古工业大学学报(自然科学版)2023 年叠问题尚未解决6-7。到目前为止,对蛋白质折叠速率的研究还没有通用的物理规律可供遵循,因此凭借直觉和经验探索一些唯象规则成为现阶段的主要研究方法。尽管影响蛋白质折叠动力学的因素可能纷繁复杂,但折叠动力学并不对序列的细节过分敏感,而是主要由决定蛋白质总体特性的参数特征来决定1。折叠动力学可以用简单的、经验的、基于序列和结构的规则来预测,表明折叠的基本物理
10、学可能是简单的。这与最近 HU J L 等8在群落动力学研究中所证明的结论“只需掌握少量群落尺度控制变量,就可以预测复杂生态系统的行为”有异曲同工之处。早在 1995 年 THIRUMALAI D9基于玻璃动力学模型指出,折叠速率可以用蛋白质链长来估计,其后许多学者对蛋白质链长与折叠速率的关系进行了详尽研究10-16,这些研究表明,蛋白质大小(链长9-12、二级结构数13-15、累积扭角16)是决定折叠速率的主要因素。考虑到在折叠早期局域二级结构快速形成而不构成折叠限速因素13,因此,相比于链长,以二级结构为折叠单元,以二级结构数度量蛋白质大小,对折叠速率预测更有效14-15。1998 年 P
11、LAXCO K W 等17发现小的二态蛋白质折叠速率与一个简单结构拓扑参数显著负相关,从而引发了结构拓扑与折叠速率关联性的一系列研究18-20,其中,由 GROMIHA M M 等19基于天然态残基间非局域相互作用定义的长程序参数(long-range order,LRO),与二态和多态蛋白质折叠速率均有较好相关性21,这些结果突出了天然接触在确定蛋白质折叠机制中的重要性,表明最终结构的拓扑结构是独立于其大小的另一个蛋白质折叠机制的重要决定因素。除了大小和拓扑外,还有一些因素也值得关注。首先是蛋白质单点突变有时会导致折叠速率明显变化,这既不能用基于大小的因素也不能用基于拓扑的因素来解释22,表
12、明蛋白质序列信息在折叠速率预测中不应被忽视23-24,因此,在折叠速率预测模型中纳入序列信息可能是一个有前途的方向。其次,IVANKOV D N 等25分析表明,大小相似的蛋白质,椭球形比球形折叠更快。再者,LAN P D 等26发现二级结构片段的排列整齐度与折叠自由能显著相关。可见,蛋白质的整体几何形状,以及构成这个形状基本单元的排列都会对折叠动力学产生影响,因此,在折叠速率预测模型中吸收几何形状和折叠单元排序信息,对改善折叠速率可预测性是可期的。事实上,蛋白质本身具有了折叠所需的全部信息。如能将已知影响折叠速率的多种因素有效综合在一起,构造一个简单参数来最大程度地模拟蛋白质将所有折叠信息集
13、合于一身的特性,可能会显著改善现有单一因素模型的不足,进而大幅提高对折叠速率的拟合精度。基于这个想法,对给定蛋白质采用二级结构数表征大小,氨基酸加权长程序表征拓扑和氨基酸组成,回转半径表征形状,向列序表征规则二级结构排序。将这些因素耦合在一起,定义了耦合参数。相比已有的一些典型单因素模型,耦合参数模型大幅提高对折叠速率的拟合精度超过 10%,结果对于理解复杂的折叠机制提供了帮助。1 材料与方法1.1 蛋白质折叠速率数据集收集整理了包含 155 个蛋白质和多肽的非冗余折叠速率数据集。145 个蛋白质数据源于 PFDB 数据库(http:/lee.kias.re.kr/bala/PFDB)2,其余
14、数据源于文献 11 和文献 14。数据集中二态蛋白质96 个,多态蛋白质 59 个。折叠速率记为 kf,单位为 s1。蛋白质结构数据下载自 PDB(https:/www.rcsb.org/)数据库 27,二级结构用 DSSP 程序28分配。1.2 耦合参数模型1.2.1 二级结构数用天然态规则二级结构 螺旋和 股的片段数来表征蛋白质的大小特性,记为 N。考虑到 DSSP程序的误差,计数时遵循以下原则:1)两个连续的 螺旋片段必须间隔二个及以上残基,否则记为一个片段;2)股片段长度大于二个残基,否则不计。1.2.2 氨基酸类型加权长程序用氨基酸类型加权的长程序表征蛋白质拓扑结构和组分特异信息,记
15、为 W。长程序19的原始定义中每对氨基酸接触均计数为 1,然而不同氨基酸的折叠动力学贡献是不同的23。跟随文献 23 的方案,以耦合参数与折叠速率相关系数的最大化为目标,采用穷举法将 20 种氨基酸分为 3 个集合,折叠减慢型 S=GKLPSY,折叠加快型 F=CFIV和常规型 N=ADEHMNQRTW。为了体现组分特异性信息,当 3 个集合内或集合间氨基酸发生长程接触时赋以不同接触权值。W 定义为105李兰等基于多因素耦合参数拟合蛋白质折叠速率第 2 期 (1)式中:L 为蛋白质链长即氨基酸总数;当第 i 个残基与第 j 个残基的 C原子距离小于 8 且|ij|12 时,ij=1,否 则 i
16、j=0;w(ai,aj)为 第 i 个残基 ai与第 j 个残基 aj的接触权;记号 ai S/F aj F/S 表示残基 ai属于集合 S 且残基 aj属于集合 F,或残基 ai属于集合 F 且残基 aj属于集合 S,其他类似。1.2.3 单位链长回转半径用单位链长回转半径表征蛋白质几何形状,记为 R。不考虑每个氨基酸内部原子布置细节,粗粒度地用 C原子位置代表氨基酸位置,R 定义为式中:L 为蛋白质链长;mi为第 i 个氨基酸质量;ri为第 i 个氨基酸 C原子的坐标向量;rc为质心坐标向量。从球状到棒状 R 取值范围为 0.050.5。1.2.4 向列序参数用向列序参数表征规则二级结构排
17、列的有序程度,记为 S。以每个规则二级结构单元 螺旋或 股的两个端点残基的 C原子位置构成一个矢量,则 S 定义为 式中:为每个二级结构单元矢量 u 与指向矢量(director)d 的夹角;表示对所有二级结构单元取平均;指向矢量是排序矩阵 Q 最大特征值的特征向量,Q 的第 a 行和第 b 列矩阵元为 这里:N 为蛋白质规则二级结构单元数;ui为第 i个二级结构单元的单位矢量;a,b=1,2,3 为单位矢量三个空间维度序号;ab为克罗内克 函数。图 1 直观地解释了向列序的含义。图 1 中 4 个二级结构单元用向量 u1到 u4表示,指向矢量用 d 表示,图中给出了 u3与 d 的夹角 3。
18、当所有二级结构单元平行或反平行排列时,有=0。或 180。,此时向列序参数 S 取得最大值为 1,当所有二级结构单元随机杂乱排列时(二级结构单元足够多),向列序参数 S 取得最小值为 0。1.2.5 耦合参数将以上参数组合为一个耦合参数,记为 Cp。参数 Cp综合了蛋白质的大小、拓扑、氨基酸组成、几何形状以及二级结构排序等属性,它尽可能地模拟了一个蛋白质将所需折叠信息集于一身的特性。耦合参数 Cp定义为 (5)1.2.6 折叠速率预测模型假设折叠速率满足以下幂律模型 (6)式中:k0和 为拟合常数,其中 k0可视为基元折叠速率,为幂的指数。1.3 模型参数的极大似然估计如果将未包括在耦合参数
19、Cp中且对折叠速率有贡献的其他所有因素(如实验条件等),视为零均值高斯分布 XN(0,2),方程(6)可重新建模 方程(7)意味着 kf为对数正态分布,位置和尺度参数分别为 ln(Cp)和。在数据集上对 lnkf值进行 Shapiro-Wilk 正态性检验,所得 p 值为 0.63,大于 0.05,表明折叠速率 kf满足对数正态分布。由对数正态分布的概率密度函数可得似然函数 L式中:n 为数据集中样本总数;kfi和 Cpi为数据集中|12 1(,)-2.5 ,3 ,0.5 ,(,)2 0.5 LijijijijijijijijiWw a aLa aa aa aw a aaaa-=FSNS/F
20、F/S-0.5 jijaaa|S/N N/SF/N N/F23cos12S-=132NabiaibabiQu uN=-图 1 向列序参数示意图Fig.1 Diagram of the nematic order parameterpC(1/1/)/2=+NWRS0p(C)v=fkk0pln(/)ln(C)v=+fkkX211111()/LLiiCiiiLLCi iiiiRmmLmm=-|=|rrrr(2)Cp(8)(3)(4)(7)106内蒙古工业大学学报(自然科学版)2023 年第 i 个蛋白质的折叠速率和耦合参数。基于似然函数 L 的最大化,不但可以估计方程(6)的待定常数k0和,而且可以
21、估计拟合宽度。极大似然法也提供了一个通过似然比进行严格模型比较机制12。2 结果与讨论2.1 耦合参数捕获了影响折叠速率的关键因素基于耦合参数模型方程(6)或(7),在包含 155个蛋白质折叠速率实验值的数据集上,采用极大似然估计方法确定了模型待定参数,结果如图2 所示。图 2 横纵坐标均为常用对数尺度。图 2 结果表明,耦合参数的对数与折叠速率的对数呈线性负相关,拟合优度达 R2=0.80,证明由方程(6)所给出 kf与 Cp的幂律依赖假设正确。模型待定参数之一基元折叠速率 k0=5.60107 s-1,与实验测定的肽末端之间的接触形成时间约 1050 ns29-30非常接近,从一个侧面折射
22、出耦合参数可能捕获了影响折叠速率的核心因素。标准差=1.96,意味着有 68.3%的蛋白质其折叠速率实验值与方程(6)给出的预测值相差在 e7 倍以内,而 95.4%的蛋白质相差在 e250 倍以内。也就是说耦合参数模型可以在 50 倍以内实现对 95%的蛋白质的折叠速率的准确预测。注意到当前数据集给出的折叠速率范围是从 5.4106 s-1到 1.010-3 s-1,跨越了 9 个数量级。因此拟合宽度结果再次表明,耦合参数捕获了影响折叠速率的主要因素。此外,为了说明耦合参数的优势,以组成耦合参数的 4 个要素为独立参数,分别采用多元线性回归(multiple linear regressio
23、n,MLR)和两种机器学习算法,支持向量回归(support vector regression,SVR)31和随机森林回归(random forest regression,RFR)32模 型 对 折 叠 速 率 进 行 拟 合,结 果 表 明MLR,SVR 和 RFR 三种方案的预测值与实验值的拟合优度分别为 0.78、0.77 和 0.77,均略低于耦合参数模型的结果。2.2 与单一因素模型的比较耦合参数模型具有出色的折叠速率拟合性能,这与模型综合了多个影响折叠速率关键因素直接相关。为了直观地展现耦合参数模型的优越性能,选择 6 个典型的单因素模型与耦合参数模型进行性能比较。6 个模型分
24、别是链长平方根 L1/2模型9、折叠链有效长度 Leff模型13、接触序(contact order,CO)模型17、绝对接触序(absolute contact order,ACO)模型18、长程序 LRO 模型19和有效长度ne模型23,这些模型不仅在折叠速率预测研究过程的不同时间节点上具有突出的理念性价值,而且其预测性能也具有代表性。以各模型给出的参数建立类似方程(7)的线性回归方程,即 (9)式中:x=L1/2,(Leff)0.1,CO,ACO,LRO,ln(ne)为各模型参数;和 为拟合常数。采用极大似然方法估计各模型的标准差以及似然值。表 1 分别给出了Cp模型与 6 个模型似然比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 因素 耦合 参数 拟合 蛋白质 折叠 速率
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。