基于预训练蛋白质语言模型的氨基酸致病突变预测.pdf
《基于预训练蛋白质语言模型的氨基酸致病突变预测.pdf》由会员分享,可在线阅读,更多相关《基于预训练蛋白质语言模型的氨基酸致病突变预测.pdf(9页珍藏版)》请在咨信网上搜索。
1、依赖于临床标签的氨基酸致病突变预测方法通常由于标签存在跨基因的偏差、稀疏噪声等因素,出现性能膨胀的情况.为解决此问题,创新地在不需要标签的情况下,利用预训练蛋白质语言模型计算ClinVar数据库中突变位点的氨基酸概率分布,并基于此分布构造突变型与野生型氨基酸出现概率的对数优势比(LOR),使用一种全局-局部结合的高斯混合模型拟合LOR,从而无监督地计算突变致病效应概率分数(PPE)并推断致病性,最后给出预测的不确定性度量.使用与深度突变扫描(DMS)实验的相关性作为评估指标以避免标签泄漏等问题.模型评估结果验证PPE具有稳健的致病性预测性能,在2458个蛋白质上的接收者操作特征曲线下面积(AU
2、C)平均值约为0.89,与4种DMS实验的平均斯皮尔曼相关系数约为0.44,优于大部分依赖标签的计算方法,且与高通量实验的性能相当.该研究为遗传变异的解释、疾病的研究、诊断和临床治疗提供了可靠的辅助工具.关键词:氨基酸致病突变;蛋白质语言模型;无监督学习;深度突变扫描中图分类号:Q 31;TP 391文献标识码:APrediction of Amino Acid Pathogenic Mutations Based on Pre-trainedProtein Language ModelLUO Jiangyi,YAO Yin(School of Life Sciences,Fudan Univ
3、ersity,Shanghai 200438,China)Abstract:Amino acid pathogenic mutation predictors that rely on clinical labels usually suffer from inflated performancedue to label bias across genes and sparse noise.Innovatively,the probability distribution of amino acids at eachmutation loci is calculated by using a
4、pre-trained protein language model,and the Log Odds Ratio(LOR)of theprobability of mutant versus wildtype amino acids is constructed based on this distribution.LOR is fitted by using acombined global-local Gaussian Mixture Model to calculate the probability of pathogenic effect(PPE)of mutationsand t
5、he measure of the predictive uncertainty.Correlation with Deep Mutation Scanning(DMS)experiments is used asan evaluation metric to avoid label leakage.Evaluation results validate that PPE has robust prediction performancewith a mean Area Under the Receiver Operating Characteristic Curve(AUC)of about
6、 0.89 on 2458 proteins and amean Spearman correlation coefficient of about 0.44 with four DMS experiments,outperforming most label-dependentmethods and comparable to the performance of high-throughput experiments.This study provides a reliable aid for theinterpretation of genetic variants,disease re
7、search,diagnosis,and clinical treatment.Key words:pathogenic mutation;protein language model;unsupervised learning;deep mutational scanning非同义突变与许多孟德尔疾病和复杂的遗传疾病紧密相关1-2,而将基因组中的特定变化与疾病表型联系起来是一个巨大的挑战.据估计,每个人类基因组携带约10 00011 000个非同义突变3,但绝大多数突变的影响在与疾病相关的基因中仍是未知的4-5.深度突变扫描(Deep Mutational Scanning,DMS)作为一种
8、经典实验方法,常被用来预测氨基酸突变对蛋白功能的影响,然而由于实验时间与人力成本的关系,这种实第41卷 第期河 南 科 学2023年8月验技术很难扩展到大规模的蛋白质研究,特别是基于变异的疾病关联分析.理论上,使用计算的方法可以加速实现突变的临床解释.监督模型通常将蛋白质的结构、进化以及序列对比等信息作为输入,依赖于致病性标签来进行模型训练6-14.蛋白质语言模型(Protein Language Models,pLMs)则应用自注意力机制15等方法捕捉序列蕴含的进化信息,并在海量原始序列上进行预训练,在下游任务上依赖标注数据进行监督微调.监督模型一般利用训练集-验证集分割来评估模型性能,但大
9、部分的临床标签集中分布在少数蛋白质中,用于评估性能的临床标签会偏向于少数在训练时占主导地位的蛋白质,从而高估模型在仅具有少量标签的大部分蛋白质上的表现,这被称为跨基因的标签偏差16.此外,突变标签的确定是一个容易出现错误的过程,在这种稀疏的具有噪声的标签上进行训练,容易引起模型过拟合,导致泛化能力低下17-18.最后,考虑到突变位点之间会存在很强的相关性,使得训练集与验证集的样本之间相互依赖,这也会导致监督模型在模型评估时出现性能膨胀的情况,所以这些模型的性能被认为是不充分可靠的19.无监督模型则一般利用原始序列的进化信息推断突变对功能的影响,不需要临床标签就能在致病性突变预测任务上取得成功,
10、且拥有更好的泛化能力20-25.然而,以往很少有研究以无监督的方式将蛋白质语言模型应用到氨基酸突变的建模任务上.本研究创新地将语言模型与无监督学习的优势结合起来,在不需要标签进行监督训练的情况下,仅通过模型推理就能推断出氨基酸突变的致病性,并给出预测的不确定性度量.同时,使用与深度突变扫描实验的相关性作为模型评估指标从而避免以往研究可能出现的标签泄漏等问题.本研究的方法能够为遗传变异数据库的临床标签定义提供新的证据来源,加快实验人员对突变的临床解释.1数据和方法1.1数据的收集和整理在 ClinVar 数据库(https:/ftp.ncbi.nlm.nih.gov/pub/clinvar/vc
11、f_GRCh37/archive_2.0/2021/)中筛选出至少有一个致病性或可能致病性标签的基因,并仅考虑这些基因上标签星标数大于等于1星的样本.遗传变异注释工具ANNOVAR26被用来获取氨基酸突变的信息.除此之外,MANE(Matched Annotation from NCBIand EMBL-EBI)数据库27为上述每个基因确定对应的一条蛋白质序列.当同一氨基酸突变对应多个临床标签时,优先选择星标数最多的标签,否则选择提交日期最近的.ClinVar原始临床标签中所有良性和可能良性标签被合并为同一个良性标签(Benign);所有致病和可能致病标签合并为同一个致病性(Pathogeni
12、c)标签;其余的标签被合并为同一个致病不确定标签(Uncertain).经过筛选与整理后,得到了包含临床标签与标签星标数的氨基酸突变数据集,记此数据集为MutationData,该数据集包含了2458个疾病相关基因以及261 234条氨基酸突变记录,其中有24 994个致病性突变,23 318个良性突变.1.2致病性突变的预测与不确定性度量在蛋白质长期的进化过程中,保守氨基酸位点往往对结构和功能非常重要,发生在保守位点上的突变导致的相关表型为致病性的可能性会很大.另一方面,发生在活跃位点的突变导致临床致病性的概率相对较小.基于此,本研究从突变位点的氨基酸出现概率入手,构造突变型氨基酸出现概率与
13、野生型氨基酸出现概率的对数优势比(Log Odds Ratio,LOR),从而作为两种氨基酸出现概率的差异分数,LOR的计算公式如下:LORt=-logp(xt=xmtt|x-t;)p(xt=xwtt|x-t;),(1)其中:xwtt、xmtt分别表示序列x在位置t上的野生型与突变型氨基酸;表示相关参数.LOR能够扩大两种概率之间的差距,自然地将致病性的突变与良性的突变区分开.为了准确估计LOR,需要计算出突变位点上氨基酸的出现概率分布.本研究利用预训练蛋白质语言模型ProtBert28计算各突变位点上的氨基酸出现概率的分布.ProtBert是使用BERT29框架在海量蛋白质序列数据上利用掩码
14、语言建模任务(Masked Language Modeling,MLM)进行预训练的蛋白质语言模型.由于MLM任务基于序列上下文信息预测感兴趣位置的信息,于是将突变位置的氨基酸字符替换成“MASK”后的序列输入到带有MLM分类头的ProtBert模型中,经过简单的模型推理,就能得到当前蛋白质序列在当前突变位-1094点的氨基酸概率分布,记为:p(xt|x-t;enc,cls)R211,(2)其中:xt表示氨基酸序列x在位置t的氨基酸分子;x-t表示位置t上的氨基酸被掩盖的序列x;enc、cls分别表示编码器权重与分类器权重.模型推理环境如表1所示.使用无监督的方法推断突变的临床致病性.本研究首
15、先在所有已知标签突变样本的LOR分布上拟合一个整体高斯混合模型(Gaussian Mixture Model,GMM).由于不同蛋白质隐含的功能和结构信息具有各自的规律,在各蛋白质的已知标签的LOR分布上分别拟合特定于蛋白质的高斯混合模型,并用整体GMM得到的估计参数进行初始化.规定每个模型收敛后,具有较高均值的集群被定义为致病性集群,另一个具有较低均值的集群将被定义为良性集群.利用上文所述的两种高斯混合模型联合计算每个突变样本的致病性概率:p()zt=1|LORt=p()zt=1|LORt,p+()1-p()zt=1|LORt,m.(3)其中:zt=1表示蛋白质序列z在位置t上的突变是致病的
16、,否则zt=0;LORt为位置t的对数优势比;为0到1的常数,代表特定于蛋白质GMM的权重系数;p与m分别表示特定于蛋白质的GMM与整体GMM的参数.将概率p()zt=1|LORt称为蛋白质序列x在位置t上的致病效应概率PPE(Probability of Pathogenic Effect,PPE),它表示突变样本的临床表型为致病性的概率,能够量化一个给定氨基酸突变的致病性倾向.通过网格搜索,以PPE在所有突变样本的性能为标准,选定=0.1作为相对权重系数.PPE的计算流程如图1所示.使用给定LORt时二元变量zt的熵作为致病突变预测的不确定性度量:Uncertainty=-p()zt=1|
17、LORtlog p()zt=1|LORt-p()zt=0|LORtlog p()zt=0|LORt.(4)1.3评估数据集和评估方法本研究将MutationData数据集中已知临床标签的突变作为整体验证集.在整体验证集的2458个蛋白质中筛选出同时具有3个、4个、5个及以上良性和致病性标签的蛋白质子集,并保留对应的突变样本,作为三种不同标签个数的验证集.此外,在整体验证集中筛选出标签的星标数大于等于2星以及大于等于3星的突表1模型推理的运行环境Tab.1Operating enviroment of model inference软件与工具PythonPyTorchTransformersCU
18、DACUDA ToolkitGPU版本与型号3.7.121.2.04.11.310.010.0.130Tesla P100 16GB图1突变致病效应概率分数的计算流程Fig.1Pipeline for the calculating of the Probability of Pathogenic EffectLORt=-logp(xt=xmtt|x-t)p(xt=xwtt|x-t)Probability Distribution of Amino AcidsMutation Site引用格式:罗江毅,姚音.基于预训练蛋白质语言模型的氨基酸致病突变预测 J.河南科学,2023,41(8):10
19、93-1101.-1095第41卷 第期河 南 科 学2023年8月变样本,作为不同质量标准的验证子集.本文从多个角度评估PPE的突变致病性预测性能,使用AUC与准确率来评估PPE的分类效果以及预测不确定度量与性能的关系.接着,将PPE与基于高通量测序的深度突变扫描实验进行了比较,并讨论了PPE分数、DMS分数与氨基酸突变位置的联系.我们将PPE分数与18种流行的致病性突变预测模型进行比较,包括6种监督模型、7种无监督模型、5种元预测器(Meta-predictor)8-11,20,30-41.这些模型的预测分数来自dbNSFP数据库42-43.我们使用模型在各蛋白质上的AUC平均值作为一种评
20、估指标.由于监督学习模型中的一些方法没有公开其在训练时使用的训练集与验证集数据,本研究验证集的突变样本可能出现在其训练集中,所以本文报告的监督模型与元预测器的预测性能一定程度上会高于其实际性能.此外,元预测器常被用来定义ClinVar中的临床标签,它们的性能尤其会受到这种标签泄漏的影响,出现性能膨胀的情况.接着,我们将各模型分数与来自4种DMS实验的约29 000个突变体的功能分数进行对比,从而判断哪种模型与实验测出的氨基酸突变功能信息更接近,这些实验涉及的基因包括PTEN44、BRCA145、MSH246、TP5347.计算模型分数与DMS分数在共有突变子集(包括良性、致病性、不确定性的标签
21、)上的斯皮尔曼等级相关系数来衡量模型与DMS之间的关联.DMS分数由实验直接测量,不需要训练和验证两阶段的数据集划分,对标签泄漏以及标签偏差不敏感,使用与DMS功能分数的相关性来衡量模型的泛化能力将会拥有更小的估计偏差,能够更真实地体现模型的泛化能力与稳健性.2结果和分析2.1PPE展现稳健的致病性预测能力良性标签突变样本的LOR聚集在0附近,而致病性标签突变样本的LOR则主要分布在良性样本之上(图2(a),说明LOR能够将良性与致病性突变几乎一致地区分开.在标签的星标数大于等于1星、2星、3星的突变样本子集上,LOR的AUC分别约为0.86、0.89、0.91(图2(b),说明LOR已经具备
22、了较好的致病性与良性突变区分能力.随着临床标签质量的提升,LOR的预测性能也在提升,揭示LOR的致病性区分能力与标图2LOR区分致病性与良性突变样本Fig.2LOR separates pathogenic and benign variants(a)蛋白质上致病性与良性突变的LOR均值的分布151050-5LOR致病性良性05001000150020002500蛋白质序号1.00.80.60.40.2真阳性率TPR星标数1(0.862 1)星标数2(0.886 9)星标数3(0.914 8)00.20.40.60.81.0假阳性率FPR良性致病性ClinVar标签151050-5-10LOR
23、(b)LOR在不同质量标准的子集上的ROC曲线(c)良性与致病性突变LOR的小提琴图-1096签质量相关.除此之外,LOR在良性与致病性标签上存在不同的聚集性(图2(c).由图3可知,高斯混合模型能很好地拟合LOR的分布,将突变样本聚类成致病性与良性两个集群.PPE对2458个蛋白质的氨基酸突变有很好的预测能力.大部分蛋白质的AUC集中在0.81的范围内,AUC为0.951的蛋白质占比最多,所有蛋白质的平均AUC约为0.89,标准差约为0.17(图4(a).PPE在三个图3高斯混合模型对整体以及三种蛋白质上突变样本的LOR的拟合结果Fig.3Gaussian Mixture Models ov
24、er the distributions of the LOR for all the variants and for three proteins0.200.150.100.050突变样本的频率概率密度曲线致病性良性-10-505101520LOR0.200.150.100.050突变样本的频率概率密度曲线致病性良性-10-505101520LOR0.300.250.200.150.100.050突变样本的频率概率密度曲线致病性良性-10-505101520LOR0.140.120.100.080.060.040.020突变样本的频率概率密度曲线致病性良性-10-505101520LOR(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 训练 蛋白质 语言 模型 氨基酸 致病 突变 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。