融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf
《融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf》由会员分享,可在线阅读,更多相关《融合互作网络和多模态信息的化合物-蛋白质相互作用预测模型(INMI).pdf(8页珍藏版)》请在咨信网上搜索。
1、化合物 蛋白质相互作用测是药物研发领域的一个重大课题.随着生物科学的飞速发展各种科学实验产生了大量的生物数据通过计算方法能够快速有效地提取和利用这些信息.已有方法未能将相互作用网络中的信息显式地进行提取并加以利用且多模态信息的融合方式未能抓住蛋白质和化合物之间的联系.为了解决上述问题本文提出了一个二分类深度学习模型.该模型使用交叉注意力模块整合分子图和蛋白质序列信息并从相互作用网络中显式提取节点的中心性和相关性信息作为模型编码.实验表明本文所提出的模型可以准确预测蛋白质和化合物之间的相互作用而且节点中心性编码能够大大提高模型性能.关键词:化合物蛋白质注意力化合物与蛋白质相互作用中图分类号:.文
2、献标志码:文章编号:()()(.):.:()引 言 年新冠疫情肆虐全球这不仅使得世界格局发生了巨大的变化也加速了生命科学的研究与成果转化.新冠疫情背景下计算生物学领域被推到风口浪尖为病原体的检测、疫苗的制造和药物的研发提供了重要的依据发展进程大大加速整个产业又上升到了一个新的阶段领域极度辽阔意义重大.除了新冠疫苗研发寻找有效的治疗新冠病毒感染的药物也是战胜新冠疫情的重要手段之一.在药物研发的过程中对化合物与蛋白质的相互作用()的识别是重要步骤之一对药物的开发具有重要意义.蛋白质是生物体实现生命活动的基础由多个氨基酸残基组成在生物体内发挥的作用广泛而重要.药物通常是通过某种特殊的化合物分子与生物
3、体内的特定蛋白质结合来影响蛋白质的功能进而产生药效.通常基于动物和细胞实验进行药物筛选和性质表征是目前最为广泛认可和普遍采用的方法但从大规模的化合物库中筛选出能与特定蛋白质亲和的样本极其耗费时间和资源.因此寻找一种高效、廉价的药物靶标选择方法可以大大提高先导化合物的靶向性.鉴于已知 的数量的增加深度学习辅助预测的方法越来越多地被使用以减少药物的开发时间和实验的消耗.计算生物学的研究手段已经成为一种常规研究手段.有效的计算机测定方法能够缩小搜索空间节约实验成本.通过构造一个二分类模型以传统的研究手段积累的大量生化数据为依托进行训练我们最终可以预测未知化合物和蛋白质之间的结合关系以便准确地选择药物
4、靶点提高先导化合物的命中率加快药物发现的进程.例如有效的高通量虚拟筛选可以极大地加速药物发现过程.为了提高药物研发效率多年来众学者已开发了许多基于机器学习和深度学习的新模型各种技术已经被引入到解决 预测的问题上这些模型在各种数据集上均显示出令人满意的性能极大促进了 的研究.例如 等使用特征选择技术降低化学基因组空间的维数然后使用支持向量机()进行训练.虽然传统的机器学习方法应用于 的预测效果较好但深度学习技术可以更好地利用大数据来训练一个有效的模型.综合来看在 的领域中通常使用的深度学习方法有两种.第一种是基于结构的计算方法.这类方法在计算的过程中高度依赖于蛋白质靶标的高质量三维结构数据.三维
5、结构数据的测定十分繁琐这导致现有数据库中的数据资源比较有限.此外这类方法通常需要大量的计算资源.第二种计算方法是基于深度学习的无结构的预测方法.此类方法充分利用输入化合 第 期 刘宏生 等:融合互作网络和多模态信息的化合物 蛋白质相互作用预测模型()物和蛋白质的序列特征来预测它们的相互作用.它们只需要化合物的简化分子线性输入规范()和蛋白质的初级序列作为深度神经网络模型的输入使用卷积神经网络()或者循环神经网络()来提取数据的上下文特征.在 年提出的 模型中通过 提取化合物和蛋白质的低维实值特征然后将两个特征向量连接起来通过全连接层计算最终输出.年提出的 模型在原始蛋白质序列上使用 捕获了参与
6、药物 靶点相互作用的蛋白质的局部残基模式.在 年提出的 模型中使用 提取化合物和蛋白质序列数据的上下文特征.化合物的另一种表示方法是使用基于图的表示方法来编码化合物的分子特征图中的顶点代表化合物中的原子边代表每对原子之间的化学键.相应地图卷积神经网络()被应用于从化合物的这种图表示中提取有用的分子特征.年提出的 模型将化合物的结构视为分子图而不是一维序列并使用图神经网络()而不是 来学习化合物的表示.现有模型仍然存在一些不足之处本文针对其中两点进行了分析和改进.第一点是如何有效地将两种不同模态的蛋白质序列信息和分子图谱信息结合起来.通常的做法是在特征矩阵对齐后通过相加、点积或者直接拼接在一起的
7、方式进行整合.这种融合方法没有反映出两种信息之间的关系.第二点是通常将现有模型分为两种一种是用只包含蛋白质和化合物个体信息的表征蛋白质和化合物的特征矩阵作为模型的输入另一种是利用它们的相互作用以及与之相关的其他相互作用连接成的网络信息进行链路预测.但是很少有人尝试将两者结合起来.为了解决上述问题本文提出了一种基于编码器 解码器结构的融合作用网络和多模态信息的化合物 蛋白质相互作用深度学习预测模型()用于二分类任务.该模型是基于()和注意力机制提取特征的并采用交叉注意力模块来处理蛋白质特征和化合物特征之间的关系以融合多模态信息学习化合物与蛋白质之间的成对非共价相互作用.同时该模型整合了 网络中的
8、信息.该模型是一个无结构的模型只接受化合物的图表示和蛋白质的初级序列作为输入具有处理大规模数据集的能力计算复杂度相对较低.与已有的 预测方法相比该模型在学习化合物特征的时候摒除了传统的图卷积模块直接采用 模型的解码器并特别加入了图的邻接矩阵形状的掩码让模型屏蔽了非相邻节点的特征来学习整个化合物中相邻单个原子的局部特征以更好地捕获化合物的分子特征.此外该模型利用其中的交叉注意力模块合并多模态的信息.同时该模型使用自然语言处理中表征词向量的 模型提取蛋白质的特征它有着强大的序列间联系捕捉能力.最后模型将 网络之间的信息有效地编码到整个模型中并且利用可学习权重来辅助预测相互作用它增加了模型接收的有效
9、信息提高了模型的预测能力.本文在两个公共数据集上进行了全面的验证结果表明即使使用无三维结构信息的输入本文提出的模型也可以成功地学习到化合物与蛋白质之间的成对非共价相互作用这一结果证实了本文提出的模型可以为 的有效建模提供有力的工具从而极大地促进药物发现进程.方法.编码蛋白质为了将蛋白质序列转换为模型能够接收的表示方式本文使用 模型将所有序列翻译成 辽宁大学学报 自然科学版 年 实值嵌入.是将 模型在包含大量蛋白质序列的数据集()上进行预训练训练完毕后得到语言模型.可以将该语言模型的参数固定下来用于在特定任务中获取词嵌入作为额外特征并直接应用于下游任务.模型提出了动态词向量能够让词语学习到当前语
10、境的信息.在此之前模型的词向量表征方法以 为代表.有一个十分明显的弱点即它是静态词向量.所谓静态词向量就是当用它去表征蛋白质序列时在序列中的同一个氨基酸可能因为周围的其他序列环境不同而具备不同的功能和意义此时应该给予不同的词向量但静态词向量并不具备这样的能力.模型是一种动态词向量它能够结合当前的语境来区分同一个氨基酸在不同序列环境下有怎样的区别.模型之所以能实现这样的功能是由其双向()语言模型的性质决定的.化合物表征从存在形式上讲化合物分子天然是一种图结构它的每个原子相当于图中的节点连接两个原子的化学键则相当于图中的边.因此本文采用图的形式来表示化合物分子.将神经网络的方法扩展到了图结构数据的
11、处理上.它在本质上是一种迭代过程递归地将周围节点的“消息”从近到远聚集在一起.本文也采用 中这种迭代的思想一步步为每个原子聚集与之相连的其他原子所包含的信息.在这一过程中我们还融入了注意力机制.注意力机制允许一种方法聚焦于神经网络的任务相关部分.将注意力机制应用于具有序列结构数据的任务已经成为一种惯例这种方法使模型能够专注于输入中最相关的部分并实现更好的预测.图注意力网络()的出现将注意力机制扩展到图结构的数据中用于节点分类任务.将注意力机制应用于图的核心思想是通过关注目标节点的邻居和局部环境来获得目标节点的上下文向量.在编码图之前首先需要定义节点特征.在这里使用常见的 种类型的原子特征来表征
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 网络 多模态 信息 化合物 蛋白质 相互作用 预测 模型 28 INMI 29
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。