基于生物信息学的蛋白质功能预测研究综述.pdf
《基于生物信息学的蛋白质功能预测研究综述.pdf》由会员分享,可在线阅读,更多相关《基于生物信息学的蛋白质功能预测研究综述.pdf(13页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(16)基于生物信息学的蛋白质功能预测研究综述李昕晖1,2,3,钱育蓉1,2,3,岳海涛4,5,胡月1,2,3,陈嘉颖1,2,3,冷洪勇1,6,马梦楠1,2,31.新疆大学 软件学院,乌鲁木齐 8300912.新疆大学 新疆维吾尔自治区信号检测与处理重点实验室,乌鲁木齐 8300463.新疆大学 软件工程重点实验室,乌鲁木齐 8300004.新疆大学 未来技术学院 合成生物学实验室,乌鲁木齐 8300175.新疆大学 生命科学与技术学院 生物工程系,乌鲁木齐 8300176.北京理工大学 计
2、算机学院,北京 100081摘要:蛋白质功能预测任务旨在为缺失功能标签的蛋白质数据提供功能注释,随着蛋白质测序技术的发展,数据库中蛋白质数量迅速增长,由于蛋白质数据的复杂性和多元性,蛋白质功能预测任务极具挑战,受到研究人员的密切关注。梳理了机器学习在蛋白质功能预测中的发展历程;对近年来的蛋白质功能预测方法进行归类与总结,分析各类算法之间的异同;最后对蛋白质功能预测存在的问题进行讨论,并对该领域的未来研究进行展望。关键词:蛋白质功能预测;蛋白质序列;机器学习;生物计算;生物信息学文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2212-0167Sur
3、vey of Bioinformatics-Based Protein Function PredictionLI Xinhui1,2,3,QIAN Yurong1,2,3,YUE Haitao4,5,HU Yue1,2,3,CHEN Jiaying1,2,3,LENG Hongyong1,6,MAMengnan1,2,31.School of Software,Xinjiang University,Urumqi 830091,China2.Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomo
4、us Region,Xinjiang University,Urumqi 830046,China3.Key Laboratory of Software Engineering,Xinjiang University,Urumqi 830000,China4.Laboratory of Synthetic Biology,School of Future Technology,Xinjiang University,Urumqi 830017,China5.Department of Bioengineering,School of Life Science and Technology,X
5、injiang University,Urumqi 830017,China6.School of Computer Science,Beijing Institute of Technology,Beijing 100081,ChinaAbstract:The protein function prediction task aims to provide functional annotations for protein data with missing func-tional tags.With the development of protein sequencing techno
6、logy,the number of proteins in the database is growing rap-idly,and due to the complexity and multiplicity of protein data,the protein function prediction task is very challengingand has received close attention from researchers.In this paper,the development history of machine learning in proteinfun
7、ction prediction is firstly reviewed.Secondly,protein function prediction methods in recent years are categorized andsummarized,and the similarities and differences between various algorithms are analyzed.Finally,the problems of proteinfunction prediction are discussed,and future research in this fi
8、eld is anticipated.Key words:protein function prediction;protein sequences;machine learning;biocomputing;bioinformatics基金项目:新疆维吾尔自治区自然科学基金(2021D01C083);新疆维吾尔自治区科技厅国际合作项目(2020E01023);新疆维吾尔自治区科技计划青年科学基金(2022D01C83);国家部委重大专项;国家自然科学基金(62266043,61966035)。作者简介:李昕晖(1999),男,硕士研究生,CCF学生会员,研究方向为生物信息学;钱育蓉(1980
9、),通信作者,女,博士,教授,CCF高级会员,研究方向为网络计算和遥感图像处理,E-mail:;岳海涛(1980),男,博士,教授,研究方向为合成生物学与生物信息学;胡月(1998),女,硕士研究生,研究方向为生物信息学;陈嘉颖(1988),女,博士,CCF会员,研究方向为数据挖掘与应用、知识图谱和推荐系统;冷洪勇(1982),男,博士,讲师,CCF专业会员,主要研究方向为图神经网络;马梦楠(1993),女,硕士,讲师,研究方向为数据特征提取与聚类分析。收稿日期:2022-12-12修回日期:2023-03-08文章编号:1002-8331(2023)16-0050-13502023,59(1
10、6)蛋白质作为生命体的重要组成部分,在不同生命活动中都发挥着至关重要的作用。简单的生物功能并非由单个蛋白质独立完成,而是由一组在序列或结构等方面具有相似性的蛋白质配合完成。在研究生物功能的相关原理时,蛋白质功能的研究是不可或缺的。1864年,人们利用分光光度计观察到血红蛋白具有可逆结合氧气的能力,在一定意义上这是人类第一次确定蛋白质的功能。蛋白质功能的研究即在分子层面对于生物功能原理的探索,对促进药物开发1-2、疾病分析3-4、基因家族分析5-6以及其他领域7-10有重要作用。随着蛋白质测序技术的发展,数据库中蛋白质数据呈指数增长,为进一步完善数据库,研究新测序蛋白在生命活动中的作用,准确且快
11、速地确定其功能是当前迫切需要解决的问题。在生物信息学兴起之前,蛋白质功能的确定只能靠人为观察,手动注释,这在海量的蛋白质数据面前是不可行的。生物信息学的快速发展,为蛋白质功能的确定提供了大量有效的参考依据,这也使得预测蛋白功能的方法不断发展,以更加快速、准确地得到蛋白质的功能注释。本文总结近年来蛋白质功能预测的方法,分析各个方法的特点、优势及其存在的问题。本文的贡献如下:(1)概述了应用于蛋白质功能预测的传统机器学习算法的特点及区别。(2)归纳总结了近年来机器学习方法在蛋白质功能预测领域的发展,并将其归类为基于序列、基于结构、基于其他特征的蛋白质功能预测方法。(3)讨论了当前蛋白质功能预测算法
12、的局限性及未来可能的研究方向,为后期研究提供参考。1研究概述1.1蛋白质功能简介蛋白质在生命活动中起到至关重要的作用,不同蛋白质之间既是独立又是协同合作的,不同蛋白质以特定的功能与细胞环境内其他分子进行化学反应,以维持生命活动的正常进行。细胞内环境由大量不同种类的蛋白质与其他分子混合构成,在生命过程中,该环境不断发生着化学反应。为了能在细胞环境的化学变化中保持可靠性,蛋白质进化为保持功能不变的结构整体。图1为蛋白质结构样例,图中白色螺旋状为螺旋结构,动物毛发角蛋白中正因为有大量螺旋结构,才使得毛发有韧性。蛋白质结构分为一级结构和空间结构,一级结构为蛋白质中氨基酸的排列,空间结构为蛋白质的二级、
13、三级和四级结构的集合,部分研究使用蛋白质空间结构数据来预测蛋白质功能。但数据库中大量蛋白质的空间结构测序工作尚未完成,且蛋白质空间结构信息蕴含在蛋白质序列信息中,因此在蛋白质功能预测的工作中,蛋白质序列数据被较多人选择。随着蛋白质测序方法的日益成熟及蛋白质功能预测方法的发展,大量蛋白质功能被计算得出,为了系统地描述跨物种的基因功能,基因本体论(gene ontologydatabase,GO)被提出11-12。GO功能标签与常见的UniProt13、InterPro14和Ensembl15等数据库相连接,为以上数据库中的蛋白序列提供功能注释。GO的出现,统一了蛋白功能注释的格式及标准,建立各数
14、据库之间的联系并形成生物网络,为蛋白功能的查询提供便利。1.2生物计算在蛋白质功能预测中的发展在生物计算兴起之初,数字计算机的出现大大提高了生物计算的效率,此时计算机主要被用来做生物分类工作。同时,在蛋白质计算领域,计算机被用于分子水平的蛋白质对比实验,这为建立分子进化的思想奠定了基础。在引入Needleman和Wunsch16提出的动态比对后,蛋白质计算的重点逐渐转移到DNA序列中的遗传与进化。20世纪70年代,X射线晶体学被用于测定蛋白质结构,1971年蛋白质结构数据库(protein data bank,PDB)17-18发布,发布之初,数据库由七种蛋白质结构组成。蛋白质结构是蛋白质计算
15、不可或缺的资源,PDB数据库的建立为通过蛋白质结构研究蛋白质功能及其他特性奠定了基础。20世纪90年代,人们意识到蛋白质功能的确定大部分取决于其结构的准确性,但当时蛋白质结构折叠的方法尚未确定,人们无法通过蛋白质的其他信息计算出蛋白质的结构。20 世纪 90 年代末,从PDB中已知的蛋白质结构去计算蛋白质功能的研究在蛋白质分子动力学的应用下开始逐渐发展,蛋白质功能的预测正式拉开帷幕。在21世纪初期,刚性理论正确解释了分子约束,使用距离约束模型准确描述了蛋白质的热容、冷变等特性,此类特征的确定有助于理解蛋白质的进化。蛋白质的进化过程可以计算出相同功能蛋白质的结构变化,从而更好地设计蛋白质功能的预
16、测方法。如今,生物计算的领域越来越广泛,蛋白质功能的预测方法逐渐成熟,更多元的数据,更快、更准确的方法是蛋白质功能预测目前的研究重点,机器学习可以为蛋白质功能的预测提供更高效的工具,蛋白质功能预测方法也在不同计算工具及方法的帮助下不断发展。图2为蛋白质功能计算方法发展历程。螺旋图1蛋白质结构样例Fig.1Sample of protein structure李昕晖,等:基于生物信息学的蛋白质功能预测研究综述51Computer Engineering and Applications计算机工程与应用2023,59(16)2蛋白质功能预测方法蛋白质功能预测任务自提出以来,由于对药物研发、病理机制
17、分析等领域的重要作用而受到研究人员的广泛关注。近年来,研究人员为解决蛋白质功能预测涉及到的各种问题提出了相对应的解决方法,有效提高了蛋白质功能预测方法的性能。本章主要根据近年来蛋白质功能预测所使用的数据类型将其分为基于序列、基于结构、基于其他方法三类,归纳总结了相同数据类型下各方法之间的差异。表1对各数据类型的蛋白质功能预测方法及其局限性进行分析与总结。2.1基于序列的蛋白质功能预测2.1.1序列特征提取蛋白质的物理特性可以决定蛋白质的功能,通过对蛋白质氨基酸序列进行分析,可以了解到例如蛋白质水溶性、亲疏水特性、氨基酸构成、等电点和分子量等与蛋白质功能相关的蛋白质属性及物理化学性质。在计算特征
18、与目标间线性关系的工作中,机器学习可以挖掘到数据间存在的一些隐含关系,从而在序列中提取更多更深层次的特征,映射到相应的功能,为蛋白质功能预测奠定基础。图3为序列特征提取的通用框架。神经网络模型常用于分析数据之间存在的线性关系,Dhanuka等人19提出以半监督方式训练自编码器预测蛋白质功能,每个自编码器只对应于单一的蛋白质功能。该模型减少了随着目标标签的每一次改变而重新训练模型的工作量,所提取特征中包含了基于氨基酸的物理化学性质,补充了蛋白质功能相关的重要特征信息。在蛋白质序列特征提取方面,传统方法因蛋白质序列数据复杂、蛋白种类较多、功能标签多或者功能标签缺失等问题的影响,在功能预测的准确性、
19、计算效率等方面表现欠佳。近年来,研究人员针对以上问题均提出相应的解决方案。相较于其他类型数据,蛋白质序列数据较为复杂,普通的神经网络模型无法很好地提取蛋白质序列中的信息。针对该问题,Sara等人20提出了一种基于卷积神经网络(convolutional neural network,CNN)的 ProtConv方法,通过将氨基酸序列转换为二维图像来提取序列中的特征,从而预测蛋白质的功能。CNN相较于普通神经网络在特征提取方面有一定优势,但不能很好地处理序列型数据。为解决该问题,Elhaj-Abdou等人21将蛋白质序列进行独热编码,使用长短期记忆网络(long short-term memor
20、y,LSTM)与 CNN 相结合的混合深度神经网络模型,从序列中预测未知蛋白质的功能。Du 等人22使用word2vec提取序列中的单词嵌入,将其处理后输入CNN进行特征学习。Mostafa等人23使用经验模态分解(empirical mode decomposition,EMD)提取蛋白质PDB数据库发布20世纪70年代DNA序列中的遗传与进化数字计算机被用于生物分类与蛋白质对比工作X射线晶体学测定蛋白质结构蛋白质结构可用于测定蛋白质功能从蛋白质进化到蛋白质功能正式开始预测蛋白质功能基于机器学习的蛋白质功能预测20世纪90年代21世纪初现在图2蛋白质功能计算发展历程Fig.2History
21、of protein function computing development数据类型序列结构其他方法序列特征提取序列同源性比对结构特征提取结构同源性比对构建氨基酸接触图互作网络计算化学性质计算多特征融合基因相对位置计算动态结构计算局限性依赖于模型特征提取能力计算速度较慢依赖于模型特征提取能力,且数据更为复杂计算速度较慢,且数据更为复杂依赖于接触判定函数计算方式易受互作网络不平衡的影响算法普适性较低依赖于模型多特征融合能力算法普适性较低计算复杂且速度较慢表1蛋白质功能预测方法对比Table 1Comparison of protein function prediction methods
22、 MELWVSPKELANLPGLPKTAKAALLLRQGEIETSLGYFEGO:0004298GO:0072341GO:0015925GO:0016813蛋白质序列GO功能标签编码器分类器特征提取器图3序列特征提取的通用框架Fig.3General framework for sequence feature extraction522023,59(16)序列特征,处理后的内涵模态分量(intrinsic mode func-tions,IMF)输入CNN网络进行训练。此外,CNN还可以用于捕获多个功能共同出现的现象。基于该特点,Li等人24提出了Deep PFP-CO,模型使用CNN来
23、捕获GO术语共现,使用多源蛋白特征对GO术语进行评分,在预测组件中模型基于GO术语的共现,构造有效的相关矩阵,从GO术语中提取特征,以提高预测性能。神经网络相较于机器学习方法有更好的性能,但会出现过拟合的现象。Hakala等人25使用CNN直接分析氨基酸序列作为唯一输入的神经网络模型,将随机森林和神经网络结合,增强彼此的性能,有效解决了CNN存在的过拟合问题。蛋白质序列数据的复杂性还体现在序列长度方面,大多蛋白质序列较长,处理长序列常用的方法是使用滑动窗口提取部分序列的特征。Hu等人26提出了flDPnn,该方法使用滑动窗口方法提取残基级别和窗口级别信息,引入新的蛋白质水平编码,提取序列平均值
24、、序列长度及序列首尾距离等作为特征,实现了对四种常见的紊乱功能进行准确预测。为了使模型能学习到蛋白质的局部信息与全局信息,Lai等人27提出了GAT-GO,该方法基于图注意力网络,通过利用预测残基间接触图和蛋白质序列嵌入来显著改善蛋白质功能预测,顺序特征、蛋白质嵌入和残基间接触图的组合能够使其从局部和全局信息联合预测蛋白质功能。蛋白质功能预测就是使用机器学习算法进行多标签分类任务,传统方法在解决该类任务时需占用大量计算资源,且准确性较低。针对该问题,Tang等人28基于多示例多标签学习(multi-instance multi-label learning,MIML)框架,通过标签转移机制来识
25、别学习过程中的相关功能标签,并将较少可辨别标签转移到较低级别的节点来处理多标签问题。Wu 等人29提出了一种集成MIML 的新学习框架 EnMIMLNN,结合三种 Hausdorff距离度量的优势设计相应算法用于蛋白质功能预测,用径向基函数神经网络替换MIMLNN中的反向传播神经网络,以达到优化模型的目的。但MIML框架只能解决中等规模的问题,解决大规模问题需要大量时间资源。Liu等人30提出了GODoc,基于K近邻算法设计了三种新的投票策略(TFPSSM 1NN、TFPSSM vote TFPSSMCATH),将其合并为一个训练过程来完成多标签预测任务,相较于MIML框架传统方法,该方法可使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 生物 信息学 蛋白质 功能 预测 研究 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。