欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    基于预训练蛋白质语言模型的氨基酸致病突变预测.pdf

    • 资源ID:583478       资源大小:2.95MB        全文页数:9页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    基于预训练蛋白质语言模型的氨基酸致病突变预测.pdf

    1、依赖于临床标签的氨基酸致病突变预测方法通常由于标签存在跨基因的偏差、稀疏噪声等因素,出现性能膨胀的情况.为解决此问题,创新地在不需要标签的情况下,利用预训练蛋白质语言模型计算ClinVar数据库中突变位点的氨基酸概率分布,并基于此分布构造突变型与野生型氨基酸出现概率的对数优势比(LOR),使用一种全局-局部结合的高斯混合模型拟合LOR,从而无监督地计算突变致病效应概率分数(PPE)并推断致病性,最后给出预测的不确定性度量.使用与深度突变扫描(DMS)实验的相关性作为评估指标以避免标签泄漏等问题.模型评估结果验证PPE具有稳健的致病性预测性能,在2458个蛋白质上的接收者操作特征曲线下面积(AU

    2、C)平均值约为0.89,与4种DMS实验的平均斯皮尔曼相关系数约为0.44,优于大部分依赖标签的计算方法,且与高通量实验的性能相当.该研究为遗传变异的解释、疾病的研究、诊断和临床治疗提供了可靠的辅助工具.关键词:氨基酸致病突变;蛋白质语言模型;无监督学习;深度突变扫描中图分类号:Q 31;TP 391文献标识码:APrediction of Amino Acid Pathogenic Mutations Based on Pre-trainedProtein Language ModelLUO Jiangyi,YAO Yin(School of Life Sciences,Fudan Univ

    3、ersity,Shanghai 200438,China)Abstract:Amino acid pathogenic mutation predictors that rely on clinical labels usually suffer from inflated performancedue to label bias across genes and sparse noise.Innovatively,the probability distribution of amino acids at eachmutation loci is calculated by using a

    4、pre-trained protein language model,and the Log Odds Ratio(LOR)of theprobability of mutant versus wildtype amino acids is constructed based on this distribution.LOR is fitted by using acombined global-local Gaussian Mixture Model to calculate the probability of pathogenic effect(PPE)of mutationsand t

    5、he measure of the predictive uncertainty.Correlation with Deep Mutation Scanning(DMS)experiments is used asan evaluation metric to avoid label leakage.Evaluation results validate that PPE has robust prediction performancewith a mean Area Under the Receiver Operating Characteristic Curve(AUC)of about

    6、 0.89 on 2458 proteins and amean Spearman correlation coefficient of about 0.44 with four DMS experiments,outperforming most label-dependentmethods and comparable to the performance of high-throughput experiments.This study provides a reliable aid for theinterpretation of genetic variants,disease re

    7、search,diagnosis,and clinical treatment.Key words:pathogenic mutation;protein language model;unsupervised learning;deep mutational scanning非同义突变与许多孟德尔疾病和复杂的遗传疾病紧密相关1-2,而将基因组中的特定变化与疾病表型联系起来是一个巨大的挑战.据估计,每个人类基因组携带约10 00011 000个非同义突变3,但绝大多数突变的影响在与疾病相关的基因中仍是未知的4-5.深度突变扫描(Deep Mutational Scanning,DMS)作为一种

    8、经典实验方法,常被用来预测氨基酸突变对蛋白功能的影响,然而由于实验时间与人力成本的关系,这种实第41卷 第期河 南 科 学2023年8月验技术很难扩展到大规模的蛋白质研究,特别是基于变异的疾病关联分析.理论上,使用计算的方法可以加速实现突变的临床解释.监督模型通常将蛋白质的结构、进化以及序列对比等信息作为输入,依赖于致病性标签来进行模型训练6-14.蛋白质语言模型(Protein Language Models,pLMs)则应用自注意力机制15等方法捕捉序列蕴含的进化信息,并在海量原始序列上进行预训练,在下游任务上依赖标注数据进行监督微调.监督模型一般利用训练集-验证集分割来评估模型性能,但大

    9、部分的临床标签集中分布在少数蛋白质中,用于评估性能的临床标签会偏向于少数在训练时占主导地位的蛋白质,从而高估模型在仅具有少量标签的大部分蛋白质上的表现,这被称为跨基因的标签偏差16.此外,突变标签的确定是一个容易出现错误的过程,在这种稀疏的具有噪声的标签上进行训练,容易引起模型过拟合,导致泛化能力低下17-18.最后,考虑到突变位点之间会存在很强的相关性,使得训练集与验证集的样本之间相互依赖,这也会导致监督模型在模型评估时出现性能膨胀的情况,所以这些模型的性能被认为是不充分可靠的19.无监督模型则一般利用原始序列的进化信息推断突变对功能的影响,不需要临床标签就能在致病性突变预测任务上取得成功,

    10、且拥有更好的泛化能力20-25.然而,以往很少有研究以无监督的方式将蛋白质语言模型应用到氨基酸突变的建模任务上.本研究创新地将语言模型与无监督学习的优势结合起来,在不需要标签进行监督训练的情况下,仅通过模型推理就能推断出氨基酸突变的致病性,并给出预测的不确定性度量.同时,使用与深度突变扫描实验的相关性作为模型评估指标从而避免以往研究可能出现的标签泄漏等问题.本研究的方法能够为遗传变异数据库的临床标签定义提供新的证据来源,加快实验人员对突变的临床解释.1数据和方法1.1数据的收集和整理在 ClinVar 数据库(https:/ftp.ncbi.nlm.nih.gov/pub/clinvar/vc

    11、f_GRCh37/archive_2.0/2021/)中筛选出至少有一个致病性或可能致病性标签的基因,并仅考虑这些基因上标签星标数大于等于1星的样本.遗传变异注释工具ANNOVAR26被用来获取氨基酸突变的信息.除此之外,MANE(Matched Annotation from NCBIand EMBL-EBI)数据库27为上述每个基因确定对应的一条蛋白质序列.当同一氨基酸突变对应多个临床标签时,优先选择星标数最多的标签,否则选择提交日期最近的.ClinVar原始临床标签中所有良性和可能良性标签被合并为同一个良性标签(Benign);所有致病和可能致病标签合并为同一个致病性(Pathogeni

    12、c)标签;其余的标签被合并为同一个致病不确定标签(Uncertain).经过筛选与整理后,得到了包含临床标签与标签星标数的氨基酸突变数据集,记此数据集为MutationData,该数据集包含了2458个疾病相关基因以及261 234条氨基酸突变记录,其中有24 994个致病性突变,23 318个良性突变.1.2致病性突变的预测与不确定性度量在蛋白质长期的进化过程中,保守氨基酸位点往往对结构和功能非常重要,发生在保守位点上的突变导致的相关表型为致病性的可能性会很大.另一方面,发生在活跃位点的突变导致临床致病性的概率相对较小.基于此,本研究从突变位点的氨基酸出现概率入手,构造突变型氨基酸出现概率与

    13、野生型氨基酸出现概率的对数优势比(Log Odds Ratio,LOR),从而作为两种氨基酸出现概率的差异分数,LOR的计算公式如下:LORt=-logp(xt=xmtt|x-t;)p(xt=xwtt|x-t;),(1)其中:xwtt、xmtt分别表示序列x在位置t上的野生型与突变型氨基酸;表示相关参数.LOR能够扩大两种概率之间的差距,自然地将致病性的突变与良性的突变区分开.为了准确估计LOR,需要计算出突变位点上氨基酸的出现概率分布.本研究利用预训练蛋白质语言模型ProtBert28计算各突变位点上的氨基酸出现概率的分布.ProtBert是使用BERT29框架在海量蛋白质序列数据上利用掩码

    14、语言建模任务(Masked Language Modeling,MLM)进行预训练的蛋白质语言模型.由于MLM任务基于序列上下文信息预测感兴趣位置的信息,于是将突变位置的氨基酸字符替换成“MASK”后的序列输入到带有MLM分类头的ProtBert模型中,经过简单的模型推理,就能得到当前蛋白质序列在当前突变位-1094点的氨基酸概率分布,记为:p(xt|x-t;enc,cls)R211,(2)其中:xt表示氨基酸序列x在位置t的氨基酸分子;x-t表示位置t上的氨基酸被掩盖的序列x;enc、cls分别表示编码器权重与分类器权重.模型推理环境如表1所示.使用无监督的方法推断突变的临床致病性.本研究首

    15、先在所有已知标签突变样本的LOR分布上拟合一个整体高斯混合模型(Gaussian Mixture Model,GMM).由于不同蛋白质隐含的功能和结构信息具有各自的规律,在各蛋白质的已知标签的LOR分布上分别拟合特定于蛋白质的高斯混合模型,并用整体GMM得到的估计参数进行初始化.规定每个模型收敛后,具有较高均值的集群被定义为致病性集群,另一个具有较低均值的集群将被定义为良性集群.利用上文所述的两种高斯混合模型联合计算每个突变样本的致病性概率:p()zt=1|LORt=p()zt=1|LORt,p+()1-p()zt=1|LORt,m.(3)其中:zt=1表示蛋白质序列z在位置t上的突变是致病的

    16、,否则zt=0;LORt为位置t的对数优势比;为0到1的常数,代表特定于蛋白质GMM的权重系数;p与m分别表示特定于蛋白质的GMM与整体GMM的参数.将概率p()zt=1|LORt称为蛋白质序列x在位置t上的致病效应概率PPE(Probability of Pathogenic Effect,PPE),它表示突变样本的临床表型为致病性的概率,能够量化一个给定氨基酸突变的致病性倾向.通过网格搜索,以PPE在所有突变样本的性能为标准,选定=0.1作为相对权重系数.PPE的计算流程如图1所示.使用给定LORt时二元变量zt的熵作为致病突变预测的不确定性度量:Uncertainty=-p()zt=1|

    17、LORtlog p()zt=1|LORt-p()zt=0|LORtlog p()zt=0|LORt.(4)1.3评估数据集和评估方法本研究将MutationData数据集中已知临床标签的突变作为整体验证集.在整体验证集的2458个蛋白质中筛选出同时具有3个、4个、5个及以上良性和致病性标签的蛋白质子集,并保留对应的突变样本,作为三种不同标签个数的验证集.此外,在整体验证集中筛选出标签的星标数大于等于2星以及大于等于3星的突表1模型推理的运行环境Tab.1Operating enviroment of model inference软件与工具PythonPyTorchTransformersCU

    18、DACUDA ToolkitGPU版本与型号3.7.121.2.04.11.310.010.0.130Tesla P100 16GB图1突变致病效应概率分数的计算流程Fig.1Pipeline for the calculating of the Probability of Pathogenic EffectLORt=-logp(xt=xmtt|x-t)p(xt=xwtt|x-t)Probability Distribution of Amino AcidsMutation Site引用格式:罗江毅,姚音.基于预训练蛋白质语言模型的氨基酸致病突变预测 J.河南科学,2023,41(8):10

    19、93-1101.-1095第41卷 第期河 南 科 学2023年8月变样本,作为不同质量标准的验证子集.本文从多个角度评估PPE的突变致病性预测性能,使用AUC与准确率来评估PPE的分类效果以及预测不确定度量与性能的关系.接着,将PPE与基于高通量测序的深度突变扫描实验进行了比较,并讨论了PPE分数、DMS分数与氨基酸突变位置的联系.我们将PPE分数与18种流行的致病性突变预测模型进行比较,包括6种监督模型、7种无监督模型、5种元预测器(Meta-predictor)8-11,20,30-41.这些模型的预测分数来自dbNSFP数据库42-43.我们使用模型在各蛋白质上的AUC平均值作为一种评

    20、估指标.由于监督学习模型中的一些方法没有公开其在训练时使用的训练集与验证集数据,本研究验证集的突变样本可能出现在其训练集中,所以本文报告的监督模型与元预测器的预测性能一定程度上会高于其实际性能.此外,元预测器常被用来定义ClinVar中的临床标签,它们的性能尤其会受到这种标签泄漏的影响,出现性能膨胀的情况.接着,我们将各模型分数与来自4种DMS实验的约29 000个突变体的功能分数进行对比,从而判断哪种模型与实验测出的氨基酸突变功能信息更接近,这些实验涉及的基因包括PTEN44、BRCA145、MSH246、TP5347.计算模型分数与DMS分数在共有突变子集(包括良性、致病性、不确定性的标签

    21、)上的斯皮尔曼等级相关系数来衡量模型与DMS之间的关联.DMS分数由实验直接测量,不需要训练和验证两阶段的数据集划分,对标签泄漏以及标签偏差不敏感,使用与DMS功能分数的相关性来衡量模型的泛化能力将会拥有更小的估计偏差,能够更真实地体现模型的泛化能力与稳健性.2结果和分析2.1PPE展现稳健的致病性预测能力良性标签突变样本的LOR聚集在0附近,而致病性标签突变样本的LOR则主要分布在良性样本之上(图2(a),说明LOR能够将良性与致病性突变几乎一致地区分开.在标签的星标数大于等于1星、2星、3星的突变样本子集上,LOR的AUC分别约为0.86、0.89、0.91(图2(b),说明LOR已经具备

    22、了较好的致病性与良性突变区分能力.随着临床标签质量的提升,LOR的预测性能也在提升,揭示LOR的致病性区分能力与标图2LOR区分致病性与良性突变样本Fig.2LOR separates pathogenic and benign variants(a)蛋白质上致病性与良性突变的LOR均值的分布151050-5LOR致病性良性05001000150020002500蛋白质序号1.00.80.60.40.2真阳性率TPR星标数1(0.862 1)星标数2(0.886 9)星标数3(0.914 8)00.20.40.60.81.0假阳性率FPR良性致病性ClinVar标签151050-5-10LOR

    23、(b)LOR在不同质量标准的子集上的ROC曲线(c)良性与致病性突变LOR的小提琴图-1096签质量相关.除此之外,LOR在良性与致病性标签上存在不同的聚集性(图2(c).由图3可知,高斯混合模型能很好地拟合LOR的分布,将突变样本聚类成致病性与良性两个集群.PPE对2458个蛋白质的氨基酸突变有很好的预测能力.大部分蛋白质的AUC集中在0.81的范围内,AUC为0.951的蛋白质占比最多,所有蛋白质的平均AUC约为0.89,标准差约为0.17(图4(a).PPE在三个图3高斯混合模型对整体以及三种蛋白质上突变样本的LOR的拟合结果Fig.3Gaussian Mixture Models ov

    24、er the distributions of the LOR for all the variants and for three proteins0.200.150.100.050突变样本的频率概率密度曲线致病性良性-10-505101520LOR0.200.150.100.050突变样本的频率概率密度曲线致病性良性-10-505101520LOR0.300.250.200.150.100.050突变样本的频率概率密度曲线致病性良性-10-505101520LOR0.140.120.100.080.060.040.020突变样本的频率概率密度曲线致病性良性-10-505101520LOR(

    25、a)整体高斯混合模型的拟合结果(b)PTEN局部高斯混合模型(c)BRCA1 局部高斯混合模型(d)MSH2局部高斯混合模型图4PPE的致病突变预测性能评估Fig.4Pathogenic mutation prediction performance evaluation of PPE120010008006004002000蛋白质数量1.00.80.60.40.20AUC所有蛋白质(0.89)标签数6(0.88)标签数8(0.89)标签数10(0.90)0.920.910.900.890.880.870.860.85平均ACU010 20 30 40 50 60 70预测不确定性阈值/%所有

    26、蛋白质标签数6标签数8标签数101.000.950.900.850.800.750.700.65AUC全部蛋白质星标数1星标数2BRCA2(269)FBN1(725)MLH1(152)MSH6(65)APC(37)MYH7(241)SCN5A(123)TP53(195)ATP7B(152)BRCA1(281)MSH2(102)KCNH2(157)GAA(105)LDLR(615)ENG(52)DSP(43)(a)PPE在各蛋白质突变子集上的AUC分布(b)PPE的预测性能不确定性度量的关系(c)PPE的预测性能与标签质量等级的关系引用格式:罗江毅,姚音.基于预训练蛋白质语言模型的氨基酸致病突变

    27、预测 J.河南科学,2023,41(8):1093-1101.-1097第41卷 第期河 南 科 学2023年8月不同标签数量标准的子集上的平均AUC分别约为0.88、0.89、0.90,标准差分别约为0.14、0.12、0.10,这说明PPE的性能对于具有不同标签数量的蛋白质是稳健的,适用于注释或标签较少的基因或蛋白质,具有较好的普遍性(图4(a).考虑将不确定性分数靠前的一定比例的突变样本删除,然后再计算PPE在剩余的子集上的平均AUC.可以看出,随着被删除的样本比例增加,PPE的预测能力整体上会随之提升(图4(b),这揭示预测熵能够很好地识别出分类置信度低的样本,能够在模型的预测性能以及

    28、突变样本的覆盖率之间进行权衡.当固定删除比例时,PPE在标签更多的蛋白质子集上的平均AUC更大,说明预测熵对标签更多的蛋白质更敏感,更容易检测出这些蛋白质上的难分类突变样本(图4(b).与LOR类似,PPE的预测性能随着标签质量的增加而提升,这一结论在美国医学遗传学与基因组学学会(The AmericanCollege of Medical Genetics and Genomics,ACMG)发布的活跃基因上也是一致的,见图4(c)(括号内数字为基因在MutationData数据集中具有的标签个数).2.2PPE与高通量实验的性能相当将PPE与3种深度突变扫描实验进行比较,在PPE 与 DM

    29、S 的已知临床标签的共有突变子集上计算 AUC.可以看出,PPE与DMS在PTEN蛋白上的AUC 都接近于 1,而 PPE的表现在MSH2蛋白上远超 DMS.平均来看,PPE的 AUC 略微高于 DMS 的AUC(表 2).此外,可以发现PPE关于突变位置的分布与 DMS 分数关于突变位置的分布几乎保持一致,并且良性与致病性突变在PPE的度量下能够分得更开,它们各自的样本又更加紧密地聚集在一起(图5).例如,在PTEN蛋白上,致病性突变样本的PPE 分数密集地聚集在0.81 附近,而其 DMS 分数的分布范围与离散程度却更大(图5).上述结果揭示,PPE 的突变致病性预测能力与专门为氨基酸突变

    30、而设计的深度突变扫描实验相当,说明本研究提出的方法具有良好的可靠性与优异的泛化能力.图5PPE和DMS分数与氨基酸突变位置的关系Fig.5Comparison of PPE and DMS scores to the mutation positions表2PPE与DMS实验的预测性能对比Tab.2Comparison of the predictive performance of PPE and DMS experiments蛋白质(突变位点个数)PTEN(120)BRCA1(140)MSH2(102)平均DMS的AUC0.991 50.984 80.837 40.937 9PPE的AUC

    31、0.987 30.940 00.920 50.949 31.00.80.60.40.20PPE0100200300400突变位点-4-202DMS0100200300400突变位点(a)PTEN(AUC=0.987 3)(b)PTEN(AUC=0.991 5)1.00.80.60.40.20PPE0250 500750 1000 1250 1500 1750突变位点-3-2-10DMS0250 500 750 1000 1250 1500 1750突变位点(c)BRCA1(AUC=0.940 0)(d)BRCA1(AUC=0.984 8)1.00.80.60.40.20PPE020040060

    32、0800突变位点420-2-4-6DMS0200400600800突变位点(e)MSH2(AUC=0.920 5)(f)MSH2(AUC=0.837 4)注:为不确定标签,蓝色与红色分别表示ClinVar标签为不确定,但PPE预测为良性、致病性的样本;蓝色与红色圆点分别表示ClinVar标签为良性、致病性的样本.-10982.3模型对比PPE 与 LOR 的预测能力比较接近,分别约为0.888与0.887,标准差都约为0.17.PPE的AUC超过了所有无监督模型以及大部分的监督模型,并与表现最好的监督模型(CADD40、DEOGEN238)和元预测器(Eigen-raw37、MetaLR9)的

    33、性能接近(图 6 横轴).但需要注意的是,由于跨基因的基因偏差以及标签泄漏等因素,本研究中报告的监督学习模型与元预测器的性能应该被视为其真实性能的上限.为了避免用AUC进行模型对比可能存在的性能膨胀的问题,我们使用各模型的致病性预测分数与来自4个蛋白质的约29 000个深度突变扫描分数44-47之间的相关性作为第二种对比指标.斯皮尔曼相关系数由各模型分数与DMS分数在所有共有的突变子集(标签为良性、致病性、不确定性)上计算出.可以看出,PPE与DMS的斯皮尔曼相关系数平均值约为0.437,优于所有其他模型,包括元预测器等监督学习模型(图6纵轴).尽管与DMS相关性的评估方法只能用到少数几个蛋白

    34、质的突变子集,但由于DMS与监督学习模型的训练过程无关,所以更能体现各模型关于致病性预测的真实性能,模型评估也更准确与可靠.3结论与展望本研究构造的LOR与临床标签之间在各蛋白质上一致地存在着关联.基于LOR分布拟合的高斯混合模型输出的PPE分数表现出了优异的致病性预测能力.在不同标签数量以及不同标签质量标准的验证子集的评估结果表明PPE的性能不依赖临床标签的数量,拥有良好的稳健性与普适性,也验证了关于低频突变高致病性的结论.基于预测熵的预测不确定性度量,有助于更好把握预测性能与突变覆盖率之间的权衡.除此之外,PPE的表现与专门为氨基酸突变而设计的DMS实验的表现相当,且与DMS分数之间存在较

    35、高的相关性,超过了本研究涉及的其他所有计算方法.在与当下流行的18种计算方法的对比中,PPE超过了所有无监督模型与大部分监督模型,且与表现最好的监督模型相当.上述结果揭示,本研究提出的氨基酸致病突变预测方法在不借助有关蛋白质结构的生化性质、进化信息以及无需标签进行监督训练的情况下,仅利用蛋白质一级序列,通过简单的模型推理就能够取得非常显著的效果.本研究证实,将在自然语言处理领域大放异彩的BERT模型29以零样本学习(Zero-shot Learning)的方式迁移到氨基酸致病突变预测任务上是完全可行且可靠的.我们期望基于语言模型框架的无监督学习能够助力与人类疾病相关的遗传变异研究,并进一步改善

    36、现有的疾病治疗方案,同时也期待越来越多的生命科学与医学领域的研究人员能够利用这种技术来辅助实验设计,从而为临床诊断和治疗提供更多帮助.尽管本文在突变致病性预测任务上取得了显著的效果,但也存在着一些局限性.首先由于疾病的异质性,同一基因上的不同突变或同一突变有可能导致不同程度的疾病影响,而本研究用良性和致病性这种简单离散的分类方式不能完全反映突变的影响.其次,本研究没有解决多个突变联合起来对疾病产生的影响,尽管这些突变可能是分布在不同的蛋白质序列上的,但这仍是一个不容忽视的问题.最后,本研究没有考虑同义突变的影响.同义突变不会引起氨基酸的改变,常常在人类遗传变异的研究中被忽视,但越来越多的研究揭

    37、示同义突变会对RNA剪接、RNA稳定性、RNA折叠以及蛋白质折叠产生显著的影响,并且同样与人类疾病密切相关48-51.参考文献:1 FRAZER K A,MURRAY S S,SCHORK N J,et al.Human genetic variation and its contribution to complex traits J.NatureReviews Genetics,2009,10(4):241-251.图6PPE与其他计算方法的性能对比Fig.6Performance comparison of PPE to other computational methods0.725

    38、0.750 0.775 0.800 0.825 0.850 0.875 0.900平均AUC0.450.400.350.300.250.20平均斯皮尔曼相关系数LORMutationAssessorDANNMetaSVMPPEPrimateAIPolyphen2MetaLRMutPredLRTMutationTasterMVPSIFTLIST-S2CADDEigen-rawPROVEANFATHMMDEOGEN2M-CAP无监督模型监督模型元预测器引用格式:罗江毅,姚音.基于预训练蛋白质语言模型的氨基酸致病突变预测 J.河南科学,2023,41(8):1093-1101.-1099第41卷 第

    39、期河 南 科 学2023年8月2 KRUGLYAK L,NICKERSON D A.Variation is the spice of life J.Nature Genetics,2001,27(3):234-236.3 THE 1000 GENOMES PROJECT CONSORTIUM.A map of human genome variation from population-scale sequencing J.Nature,2010,467(7319):1061-1073.4 LANDRUM M J,KATTMAN B L.ClinVar at five years:Deliv

    40、ering on the promise J.Human Mutation,2018,39(11):1623-1630.5 LANDRUM M J,CHITIPIRALLA S,BROWN G R,et al.ClinVar:Improvements to accessing data J.Nucleic Acids Research,2020,48(D1):D835-D844.6 YANG K K,WU Z,ARNOLD F H.Machine-learning-guided directed evolution for protein engineering J.Nature Method

    41、s,2019,16(8):687-694.7 GRAY V E,HAUSE R J,LUEBECK J,et al.Quantitative missense variant effect prediction using large-scale mutagenesis data J.Cell Systems,2018,6(1):116-124.8 ADZHUBEI I A,SCHMIDT S,PESHKIN L,et al.A method and server for predicting damaging missense mutations J.NatureMethods,2010,7

    42、(4):248-249.9 DONG C,WEI P,JIAN X,et al.Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs inwhole exome sequencing studies J.Human Molecular Genetics,2015,24(8):2125-2137.10 QI H,ZHANG H,ZHAO Y,et al.MVP predicts the pathogenicity of missense variants by deep le

    43、arning J.Nature Communications,2021,12(1):510.11 JAGADEESH K A,WENGER A M,BERGER M J,et al.M-CAP eliminates a majority of variants of uncertain significance inclinical exomes at high sensitivity J.Nature Genetics,2016,48(12):1581-1586.12 BEPLER T,BERGER B.Learning protein sequence embeddings using i

    44、nformation from structure J/OL.ArXiv Preprint ArXiv,(2019-10-16)2023-01-13.https:/doi.org/10.48550/arXiv.1902.08661.13 ALLEY E C,KHIMULYA G,BISWAS S,et al.Unified rational protein engineering with sequence-based deep representationlearning J.Nature Methods,2019,16(12):1315-1322.14 ROSHAN R,NICHOLSA

    45、B,NEIL T,et al.Evaluating protein transfer learning with TAPE C/Proceedings of the Advances inNeural Information Processing Systems,2019.15 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need C/Proceedings of the Advances in Neural InformationProcessing Systems,2017.16 MEHRABI N,MORSTATTER

    46、F,SAXENA N,et al.A survey on bias and fairness in machine learning J.ACM ComputingSurveys(CSUR),2021,54(6):1-35.17 GOODFELLOW I,BENGIO Y,COURVILLE A.Deep learning M.Cambridge:MIT Press,2016.18 ARPIT D,JASTRZBSKI S,BALLAS N,et al.A closer look at memorization in deep networks C/Proceedings of the Int

    47、ernationalConference on Machine Learning,2017.19 GRIMM D G,AZENCOTT C A,AICHELER F,et al.The evaluation of tools used to predict the impact of missense variants ishindered by two types of circularity J.Human Mutation,2015,36(5):513-523.20 SIM N-L,KUMAR P,HU J,et al.SIFT web server:predicting effects

    48、 of amino acid substitutions on proteins J.Nucleic AcidsResearch,2012,40(W1):W452-W457.21 RIESSELMAN A J,INGRAHAM J B,MARKS D S.Deep generative models of genetic variation capture the effects of mutations J.Nature Methods,2018,15(10):816-822.22 FRAZER J,NOTIN P,DIAS M,et al.Disease variant predictio

    49、n with deep generative models of evolutionary data J.Nature,2021,599(7883):91-95.23 MARKS D S,COLWELL L J,SHERIDAN R,et al.Protein 3D structure computed from evolutionary sequence variation J.PLoS One,2011,6(12):e28766.24 LAPEDES A,GIRAUD B,JARZYNSKI C.Using sequence alignments to predict protein structure and stability with highaccuracy J/OL.ArXiv Preprint ArXi


    注意事项

    本文(基于预训练蛋白质语言模型的氨基酸致病突变预测.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png