基于注意力机制的RNA碱基关联图预测方法_曹一航.pdf
《基于注意力机制的RNA碱基关联图预测方法_曹一航.pdf》由会员分享,可在线阅读,更多相关《基于注意力机制的RNA碱基关联图预测方法_曹一航.pdf(11页珍藏版)》请在咨信网上搜索。
1、Techniques and Methods技术与方法生物化学与生物物理进展Progress in Biochemistry and Biophysics2023,50(3):基于注意力机制的RNA碱基关联图预测方法*曹一航 黄强*(复旦大学生命科学学院,上海 200438)摘要 目的长链非编码RNA在遗传、代谢和基因表达调控等方面发挥着重要作用。然而,传统的实验方法解析RNA的三级结构耗时长、费用高且操作要求高。此外,通过计算方法来预测RNA的三级结构在近十年来无突破性进展。因此,需要提出新的预测算法来准确的预测RNA的三级结构。所以,本文发展可以用于提高RNA三级结构预测准确性的碱基关联图
2、预测方法。方法为了利用RNA理化特征信息,本文应用多层全卷积神经网络和循环神经网络的深度学习算法来预测RNA碱基间的接触概率,并通过注意力机制处理RNA序列中碱基间相互依赖的特征。结果通过多层神经网络与注意力机制结合,本文方法能够有效得到RNA特征值中局部和全局的信息,提高了模型的鲁棒性和泛化能力。检验计算表明,所提出模型对序列长度 L 的 4 种标准(L/10、L/5、L/2、L)碱基关联图的预测准确率分别达到 0.84、0.82、0.82 和 0.75。结论基于注意力机制的深度学习预测算法能够提高RNA碱基关联图预测的准确率,从而帮助RNA三级结构的预测。关键词 深度学习,RNA碱基关联图
3、,结构预测,注意力机制中图分类号 Q812DOI:10.16476/j.pibb.2022.0241RNA作为生物大分子在遗传代谢、细胞表达调控等方面作为调控因子发挥生物学功能1-2。RNA分子通过三级结构形成的空间构象与其他分子发生相互作用或反应。因此,解析其结构能够更有效地研究它与其他分子的相互作用机制。RNA分子的三级结构包括所有碱基原子的空间坐标及其在三维空间中的相互作用关系3。三级结构的相互作用主要包括共价键的相互作用、氢键相互作用、范德华力及其他非键相互作用4。目前,冷冻电镜技术5是获得RNA分子三级结构的常用手段。尽管该方法能得到精确的三级结构,但是价格昂贵、实验周期长等缺点限制
4、了该技术的大规模使用。这促使研究人员开发基于计算的预测算法来快速地预测RNA的三级结构。RNA 三级结构的预测算法主要可分为两类,基于先验知识的预测算法和基于核酸分子物理化学特征的预测算法。其中,基于先验知识的三级结构预测方法包括碎片组装算法6和同源序列比较算法7-8。前者将已有的RNA三级结构按照不同的标准切割成碎片再重新组合,例如按照二级结构、原子的三维空间坐标或内部碱基间的接触概率9-10;后者利用模版序列间的协同进化信息来预测目标序列的三级结构。基于核酸分子物理化学特征的预测算法通过计算最低的自由能构象来预测RNA分子的三级结构11,该方法通常采用蒙特卡罗模拟退火算法或分子动力学模拟算
5、法12,利用动态规划方法迭代来得到目标序列的三级结构,例如SWA、FARFAR、FARNA等算法。研究表明,优化RNA内部碱基间的接触概率矩阵能显著提高碎片组装算法的预测准确率3。此外,内部碱基间的接触概率矩阵能提升直接耦合分析的准确率,这也有助于核酸的结构预测13-14。因此,RNA碱基间的接触问题受到了密切的关注。以往研究发现,蛋白质残基接触的准确性能够影响蛋白质三级结构的预测结构。通过蛋白质残基的接触绘制接触概率矩阵,并将该矩阵称为关联图。近年来,机器学习算法已经广泛应用于蛋白质 国家重大科技专项“重大新药开发”课题(2018ZX09J18112)和国家自然科学基金(31971377)资
6、助项目。通讯联系人。Tel:021-31246589,E-mail:收稿日期:2022-05-26,接受日期:2022-07-11 658 2023;50(3)生物化学与生物物理进展 Prog.Biochem.Biophys.的关联图预测中,例如:Li等15提出残差神经网络来预测蛋白质的关联图;RaptorX16将进化偶联算法和序列保守信息整合至深度学习算法来预测蛋白质关联图;R2C算法17将支持向量机用于关联图的预测并得到了较好的准确率。此外,深度学习算法也已广泛应用于 RNA 变异位点的分类18、RNA 结合蛋白19以及 RNA 三级结构20的预测中。然而,深度学习算法在RNA关联图的预测
7、中进展缓慢。目前,仅有RNAcontact21将深度学习算法用于RNA关联图的预测。虽然众多研究已经表明基于深度学习的预测算法往往优于传统的计算方法,但是RNAcontact仅采用深度卷积神经网络来提取特征值,该方法无法提取序列间的特征值,因此预测准确率还有待提高。针对现有的深度学习方法不能处理RNA序列中碱基间相互依赖的特征,本文提出了一种基于注意 力 机 制 的 深 度 学 习 预 测 模 型(命 名 为ATTcontact),用于预测RNA的关联图。其中,用文本注意力机制提取RNA序列的特征值,而图像注意力机制则用于提取RNA二级结构、位置特异性矩阵和协方差矩阵的特征值。首先,ATTco
8、ntact的运行仅需要RNA的序列信息和多序列比对文件。其次,为了处理特征值间对输出的影响,模型采用了 长 短 期 记 忆 网 络(long short-term memory networks,LSTM)、卷积神经网络(convolutional neural networks,CNN)、注意力机制和全连接层进行学习。最后,通过特征值间维度的转换,用全连接层预测每个碱基间的接触概率。检验计算结果表明,ATTcontact模型优于基于进化偶联算法和以往的深度学习预测方法。1数据与方法1.1数据集首先,从Protein Data Bank(PDB)库中下载具有 3D 结构的单链 RNA 序列,共
9、得到了 729 个PDB 结构文件。随后,去除同源度高于 90%的RNA序列。为了优化运行速度,本文去除了序列长度大于300个碱基的PDB结构。预处理之后,用余下的649个PDB结构建立数据集,利用DSSR22软件提取每个PDB结构所对应的二级结构,并从649条序列随机选取500条序列作为模型的训练集,74条序列为验证集,75条序列为测试集。根据Weinreb等14的工作以及蛋白质关联图的相关研究,当RNA中碱基上的任意一个原子与另一个碱基的任意原子距离小于8 时,设定这两个碱基在三级结构上接触(设碱基对的关联值为1),否则,就认为它们在三级结构中没有发生接触(设碱基对的关联值为0)。基于这个
10、判定标准,本研究把RNA序列中每个碱基之间的接触关联特征转换为LL大小的矩阵(L是RNA序列的长度)。因此,碱基间的接触问题可以视为二分类问题,可以应用深度学习算法进行预测。1.2深度学习网络模型本研究利用图1的深度学习模型来训练RNA数据集。模型结构包括CNN、LSTM、残差神经网络(residual net,ResNet)23和注意力机制24。注意力机制包括基于文本的注意力机制和基于图像的注意力机制。此外,注意力机制整合进残差神经网络中来提取RNA特征值中更深维度的信息。RNA序列经过独热编码(one-hot encoding)的处理后直接与文本注意力机制相连,随后用3层LSTM充分挖掘R
11、NA的序列信息。第一部分的ResNet包含着3个一维的卷积层并以LSTM的输出作为输入。卷积层的卷积核分别为2、3、3,ReLU函数作为激活函数。该部分的网络引入0.02的丢弃率来避免过拟合。序列特征值经过一系列非线性变换后得到输出,并经过扩维运算后转换为三维张量与另外3个特征值合并,形成LL4的张量并作为第二部分神经网络的输入。在第二部分,每个ResNet中都包含了二维的卷积层和图像注意力机制。同样,每个卷积层的卷积核都是2,并用ReLU函数作为激活函数。模型采用0.02的丢弃率和标准化来避免模型的过拟合。在模型的最后,加入了两层全连接层,第一层采用ReLU激活函数,并使用0.02的丢弃率和
12、标准化来避免过拟合,最后一层全连接层只有一个节点,用Sigmoid函数作为激活函数,将模型最后的输出转化为0,1之间的概率。模型构建采用Google公司的TensorFlow25框架(V2.16)。网络使用 Adam 优化算法,并将Cross-entropy作为损失函数来进行模型的优化。研究过程中使用了Nvidia GTX3080图形处理器来加速模型的优化速度。1.3输入值完成 RNA 三级结构数据集的构建后,生成RNA序列的特征矩阵。特征矩阵越体现RNA的理化信息,预测结果就越准确。根据Sun等21的研究,有多种参数信息对RNA三级结构的预测有影响,包括碱基的排列顺序、RNA的二级结构、溶曹
13、一航,等:基于注意力机制的RNA碱基关联图预测方法2023;50(3)659 剂可及表面积、碱基间的相对位置、协同进化信息等。在本研究中,由于溶剂可及表面积等参数需要利用其他软件进行预测,这一步骤往往会引入错误的预测结果,使关联图的预测过程把错误结果视为真实值进行学习,从而影响模型的准确性。基于上述原因,本研究把RNA序列、位置特异性矩阵、二级结构以及基于协同进化信息得到的协方差矩阵作为神经网络的特征值。a.RNA序列。从PDB结构文件中提取RNA的碱基,并根据碱基的种型把每个碱基都转换为one-hot向量,即M_sequenceR(L4)。为了处理不同长度的RNA序列,本文将RNA序列的长度
14、设置为300,未满300个核苷酸的RNA序列用0向量填充至300,以便于模型运算。b.二级结构(secondary structure,SS)。对于已有PDB结构文件的RNA序列,利用DSSR软件分析其三级结构的特征来得到准确的二级结构,并把二级结构转化为LL大小的矩阵,M_secondaryR(LL)。当碱基互补配对时该位置处的元素为1,否则为 0。对于没有 PDB 结构文件的 RNA 序列,则利用SPOT-RNA软件预测其二级结构并经过上述相同的方法得到二维的特征矩阵。同样地,本文将未满300个碱基的矩阵用0元素进行填充,并对矩阵进行扩维,得到LL1大小的三维矩阵。c.协方差矩阵(cova
15、riance matrix,Cov)。从NCBI 数据库中下载 FASTA 参考数据集,并利用BLASTN软件将待测RNA序列与参考数据集进行比较,最后用 Muscle 软件26得到多序列比对文件。为了得到更具有特异性的序列,本文去除了具有80%相似性的序列和空位超过50%的序列。最后,使用pydca软件27中的MeanField算法计算序列中每个碱基与另一个碱基之间的协方差,得到协方差矩阵M_CovR(LL)。对该矩阵进行填充和扩维操作后得到LL1大小的三维矩阵。d.位置特异性矩阵(position specific scoring matrix,PSSM)。采用动态规划算法计算RNA序列中
16、每个碱基的相对位置。得分规则如下:if seqi=seqj,Ai,j=Ai-1,j-1+1 (1a)if seqi seqj,Ai,j=Ai-1,j-1+1 (1b)其中,i和j分别是碱基在序列中的位置,seq i(seq j)是在i(j)位置处的碱基,Ai,j是第i行第j列时矩阵的元素。基于上述计算方法构建了位置特异性矩阵,M_pssmR(LL),并对该矩阵进行相同的填充和扩维操作。最后,模型将经过独热编码后的RNA序列作为第一部分网络的输入,即经过文本注意力机制、LSTM和一维的CNN等非线性计算后进行扩维操作,得到LL1的张量。此外,二级结构、协方差矩阵和位置特异性矩阵等特征值合并为LL
17、3的矩阵张量,并与第一部分网络的输出一起作为深度学习模型第二部分的输入。1.4注意力机制模型包含文本注意力机制28和图像注意力机制29。文本注意力机制主要从二维的RNA序列信息中提取特征值,并与LSTM相连。图像注意力机制包含了通道注意力机制和空间注意力机制,并与卷积神经网络整合,来提取RNA二级结构、协方差矩阵、位置特异性矩阵和RNA序列的高维特征值。图像注意力机制分别在特征值的通道和大小中寻找对输出权重较大的部分特征。在文本注意力机制(self-attention)中,模型将一维的输入经过非线性计算变化为 2 个矩阵,Query(查询值)和Key(键),并设置Value(值)与Key相同。
18、即对于每一个序列中的碱基Xi,Qi=(XiW),Ki=(XiW),其中,Xi R(14),WR(4m),Qi R(1m),Ki R(1m),为非线性激活函数。对Qi与Ki进行矩阵的点积运算并用 Softmax 将计算结果标准化。最后,将 Vi与Softmax函数对计算结果相乘,即Zi=Softmax(Qi Ki)Vi (2)其中是矩阵的点积运算。上述计算过程可总结为:Attention(Q,K,V)=Softmax(QKT)V (3)公式(3)中,KT是K的转置矩阵。本文将通道注意力机制和空间注意力机制整合形成卷积模块注意力机制(convolutional block attention mo
19、dule,CBAM)。该模块能从多维的空间矩阵中提取三维矩阵的特征值信息。因此,CBAM模块能够有效学习三维特征数据并得到每个特征值对输出结果的贡献权重。公式(4a)和(4b)表示CBAM模块的计算过程。F=MC(F)F (4a)F=MS(F)F (4b)公式(4a)中F是一个中间层的三维矩阵,MC是通道注意力;公式(4b)中MS是空间注意力,660 2023;50(3)生物化学与生物物理进展 Prog.Biochem.Biophys.是矩阵的点积运算。1.4.1通道注意力机制 通道注意力机制使用平均池化和最大池化的降维方法,利用ReLU函数进行非线性变化,分别得到代表通道的张量。在经过Sig
20、moid函数进行非线性操作后,得到通道注意力矩阵。公式如下:MC(F)=(MLP(AvgPool(F)+MLP(MaxPool(F)(5)式中是 Sigmoid 函数,MLP 是进行全连接层计算,AvgPool和MaxPool分别代表平均池化和最大池化的降维操作,F是中间层的三维矩阵,F R(LLn)。1.4.2空间注意力机制 空间注意力机制也使用最大池化计算和平均池化计算得到两个描述不同特征的值,并将这两个特征合并进行卷积运算从而产生二维的空间注意力矩阵。公式如下:MS(F)=(f3 3AvgPool(F),MaxPool(F)(6)式中f3 3代表在进行卷积运算时利用了33的卷积核。1.5
21、效果评估类似于蛋白质内部残基间接触概率的预测,本文对RNA内部碱基间的接触概率预测同样由精确率(Precision)、召 回 率(Recall)、准 确 率(Accuracy)等指标进行计算。具体如下:Precision=TPTP+FP (7a)Accuracy=TP+TNTP+FP+TN+FN (7b)Recall=TPTP+FN (7c)F1(调和平均)=2 Precision RecallPrecision+Recall (7d)其中:TP是真阳性,表示预测的碱基配对结果与实验结构的值都为阳性,即两个碱基预测的原子距离小于 8,在实验结构也小于 8;FP 是假阳性,表示预测的值为阳性,而
22、实验结构的值为阴性,即两个碱基预测的原子距离小于8,而真实大于8;TN是真阴性,即预测的碱基配对结果与实验结构的值都为阴性,即两个碱基预测的原子距离大于8,而真实也大于8;FN是假阴性,表示预测的值为阴性,而实验结构的值为阳性,即两个碱基预测的原子距离大于8,而真实大于8。一般来说,top L/n(n=1,2,5,10)表示在该范围内模型预测得到的最高准确率。此外,为了进一步评价 ATTcontact 的预测效果,本文还构建了两个评价指标,受试者工作特征曲线(receiver operating characteristic curve,ROC)和 精 确 率-召 回 率 曲 线(precis
23、ion-recall curve,PRC)。其中,ROC上各点反映着每个待测软件相同的特性,即它们都是对同一输入数据的不同反应。在几种不同的判定标准下,不同的待测软件往往会得到不同的反应结果。ROC曲线是指在特定的阈值条件下,模型在不同判断标准下所得的各个信号的连线。通常情况下,ROC曲线覆盖的面积即AUC(area under curve)值越大,模型的预测效果越好。其横轴为假阳率(false positive rate,FPR),纵 轴 为 真 阳 率(true positive rate,TPR),即:FPR=TPTP+FN (8a)TPR=FPFP+TN (8b)另外,PRC的横轴为召
24、回率,纵轴为精确率,因此PRC表示精确率与召回率的关系。模型在01的范围内设置阈值区间并设置频率得到一定数量的阈值,即每次模型的输出与该阈值进行比较,当模型的输出值大于阈值时定义为正样本,当模型的输出值小于阈值时定义为负样本。基于上述理论,本研究得到与模型输出相关的精确率和召回率。当曲线越靠近右上角,召回率和精确率越大。2结果2.1算法概览模型在LSTM和CNN的基础上添加了注意力机制,用于计算对模型输出结果更为重要的部分特征(图1)。模型的输入是RNA序列、二级结构、位置特异性矩阵以及协方差矩阵。首先,序列提交给SPOT-RNA和Muscle,分别获得序列的二级结构和多序列比对文件。随后,用
25、pydca软件比较多序列比对文件得到协方差矩阵。最后,分别把特征值输入至一维的神经网络和二维的神经网络中,来预测所有碱基间的接触概率。2.2不同注意力机制的预测结果为了探究注意力机制对RNA关联图预测的影响,本实验维持其他参数(模型的层数、深度、卷积核、优化函数以及学习率等)不变,分别比较ATTcontact、保留文本注意力机制而不采用图像注曹一航,等:基于注意力机制的RNA碱基关联图预测方法2023;50(3)661 意力机制的模型、保留图像注意力机制而不采用文本注意力机制的模型,以及不采用注意力机制的模型来预测测试集。由表1可知,当模型不采用注意力机制,而仅使用CNN和LSTM时,模型在L
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 注意力 机制 RNA 碱基 关联 预测 方法 曹一航
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。