基于特定序列的长牡蛎视黄酸反应元件预测.pdf
《基于特定序列的长牡蛎视黄酸反应元件预测.pdf》由会员分享,可在线阅读,更多相关《基于特定序列的长牡蛎视黄酸反应元件预测.pdf(9页珍藏版)》请在咨信网上搜索。
1、42卷海洋通报http:/海洋通报MARINE SCIENCE BULLETIN基于特定序列的长牡蛎视黄酸反应元件预测李言柯1,徐晓莹2,魏磊1,黄宝玉1,张美溦1,韩怡静1,刘雅琼1,王晓梅3,王晓通1(1.鲁东大学农学院,山东烟台264025;2.烟台市海洋经济研究院,山东烟台264034;3.中国水产科学研究院长岛增殖实验站,山东烟台265800)摘要:视黄酸受体和核受体超家族中的大部分成员对细胞整个分化、增殖过程都具有调控功能。视黄酸受体结合配体后激活,通过结合靶基因启动子区特定的核苷酸序列调控靶基因表达。视黄酸受体结合序列是由核心序列A/GGT/GTCA间隔不同碱基构成的重复序列,称
2、为视黄酸反应元件。为了实现对长牡蛎基因组中含有的视黄酸反应元件的快速筛选预测,本研究利用Perl工具编写了一个可以批量筛选视黄酸反应元件的脚本,并对长牡蛎基因组中启动子区域序列进行筛选预测,共筛选到412个启动子区含有视黄酸反应元件的基因。随后,将这些基因在各种数据库中比对分析,预测其参与的生物学过程及可能的生物学功能。结果显示,大部分基因与蛋白质结合、核苷酸结合、水解酶活性、蛋白激酶活性等功能有关。关键词:长牡蛎;视黄酸受体;视黄酸反应元件;基因组;Perl中图分类号:P714+.5;Q811.4;TP313文献识别码:A文章编号:1001-6932(2023)04-0398-09Doi:1
3、0.11840/j.issn.1001-6392.2023.04.004收稿日期:2022-06-04;修订日期:2022-07-19基金项目:国家自然科学基金(41876193;41906088;42076088);国家重点研发计划(2018YFD0901400);山东省泰山学者专项基金(tsqn201812094);山东省现代农业产业技术体系(SDAIT-14-03);山东省高等学校“青创科技计划”(2019KJF004)作者简介:李言柯,硕士研究生,主要从事海洋生物基因组学研究,电子邮箱:通信作者:刘雅琼,博士,讲师,主要从事分子生物学研究,电子邮箱:王晓梅,博士,副研究员,主要从事海洋
4、生物学研究,电子邮箱:Prediction of retinoic acid response elements based on specificsequences in the pacific oyster Crassostrea gigasLI Yanke1,XU Xiaoying2,WEI Lei1,HUANG Baoyu1,ZHANG Meiwei1,HAN Yijing1,LIU Yaqiong1,WANG Xiaomei3,WANG Xiaotong1(1.School of Agriculture,Ludong University,Yantai 264025,China;2.
5、Yantai Institute of Marine Economy,Yantai 264034,China;3.Changdao Enhancement and Experiment Station,Chinese Academy of Fishery Sciences,Yantai 265800,China)Abstract:Most members of the retinoic acid receptor and nuclear receptor superfamily regulate the process of cell differentiationand proliferat
6、ion.RA receptors are activated by binding ligands and regulate the expression of target genes by binding specificnucleotide sequences in the promoter region of target genes.The retinoic acid receptor binding sequence is composed ofA/GGT/GTCA,which is called retinoic acid response element.In order to
7、 achieve rapid screening and prediction of genescontaining retinoic acid reaction elements on Crassostrea gigas genome,this study used Perl programming to predict the geneswith retinoic acid response elements in the promoter region of genes on Crassostrea gigas genome.A total of 412 gene containingR
8、AREs in the promoter regions were screened.Then,these genes were compared and analyzed in various databases to predicttheir biological processes and possible biological functions.The results showed that most of these genes were related to proteinbinding,nucleotide binding,hydrolase activity and prot
9、ein kinase activity.Keywords:Crassostrea gigas;retinoic acid receptor;retinoic acid response element;genome;Perl第42卷第4期2023年8月Vol.42,No.4Aug.20234期http:/视黄酸(Retinoic Acid,RA)是维生素 A 的一种衍生物,在整个生物体细胞的分化、增殖以及程序性凋亡等过程中都发挥着调控功能1。视黄酸在细胞内的受体蛋白具有抑制致癌因子发挥致癌作用的效应,并在白血病2、肝癌3、乳腺癌4等肿瘤的生长中发挥作用,这也引起了研究者们对视黄酸受体的关注。实
10、际上,人们对视黄酸受体怎样控制细胞功能的研究大多是直接根据核受体超家族中的甲状腺激素及固醇类激素等的作用机制来理解的5。视黄酸受体属于核受体,结合配体后被激活,进入细胞核中,通过结合位于靶基因调控区域的特定DNA序列调节基因表达。1987年,人们通过预测核受体超家族中除类固醇、维生素D等之外的大量未曾发现的且与调节蛋白密切相关的基因,从而确定了视黄酸受体的存在。随后发现了 RAR(RETINOIC ACID RECEPTOR)和 RXR(RETINOID X RECEPTOR)两大类视黄酸受体蛋白6,见表1。视黄酸受体与核受体超家族的基本结构相同,都是由A/B、C、D及E四个对应不同作用的结构
11、域组成。其中,高度保守的C区含有DNA结合结构域(DNA Binding Domain,DBD),具有特异性的DNA识别序列7。核受体的DNA结合结构域包括两个“锌指(zinc fingers)”,每个“锌指”表现出不同的功能:由三个氨基酸组成一个半体,且近N端的成为“P-box”;由五个氨基酸组成且近C端的称为“D-box”8。以“P-box”为氨基酸基础序列的核受体可以被分为两组,第一组是以糖皮质激素、盐皮质激素、孕激素和雄激素受体为代表,第二组包括其他所有配体激活的核受体,包括维生素D、全反式视黄酸、9-顺视黄酸受体和大部分具有与已确认的受体相似的结构、但尚未确定其配体和功能的孤儿受体。
12、E区是第二保守的区域,含有配体结合结构域(Ligand-BindingDomain,LBD),其功能相对复杂,包含配体结合口袋,是主要二聚化结合区域,并具有配体依赖的反激活功能7。核受体通过直接结合其调控的靶基因启动子区特异的DNA序列从而发挥功能,其结合的特异DNA序列又称为激素反应元件(Hormone ResponseElements,HREs)9。视黄酸受体结合的靶基因调控区特定序列被称为视黄酸反应元件(Retinoic AcidResponse Elements,RAREs)。研究表明,主要的RAREs的核心序列为A/GGT/GTCA,此外还有一些近似序列也可以构成RAREs10-11
13、。视黄酸受体识别位点由核心序列组成,两个核心序列之间间隔不同数量的核苷酸组成不同的同向重复序列(DirectRepeats,DRs),例如,间隔1个核苷酸组成的序列为DR1,间隔2个核苷酸组成的序列称为DR2。第一个发现的RA反应元件为两个拷贝的A/GGGTCA核心序列组成的同向重复序列12。目前为止发现的大多数RAREs是由A/GGGTCA间隔5个碱基组成的同向重复序列DR5,是全反式视黄酸受体识别的片段。此外,A/GGGTCA间隔两个核苷酸组成的同向重复序列DR2同样也作为RAREs发挥作用。另外还鉴定到少量的9-顺式视黄酸反应元件,由同向重复的两个核心序列间隔1个碱基构成的DR1组成。研
14、究表明,脊椎动物中RAR可以结合DR1、DR2以及DR5,而RXR识别序列为DR112。除了同向重复外,视黄酸反应元件同样识别以 8 个碱基为间隔且两个核心序列以外翻重复(Everted Repeats,ER)构成的 ER813,以及以零个碱基和一个碱基为间隔的且两个核心序列以回文序列(palindrome)构成的反向重复序列(InvertedRepeat,IR)IR0 和 IR1。另外 RARs 可以结合同向重复、外翻重复和反向重复序列及可变长度的间隔碱基的复合结构。不过,视黄酸反应元件的相对效力和特异性取决于重复序列的构型以及间隔碱基组成的核苷酸序列。研究发现以DR5组成的视黄酸反应元件通
15、常在反式激活测定中比DR2和ER8有效,而且比间隔多个碱基的复合构型更有效。已知的视黄酸反应元件由Gigure 等5整理(见表2)。在生物信息学(Bioinformatics)中,Perl(PracticalExtraction and Report Language)有着得天独厚的优势。首先,Perl作为一个脚本语言,省去编译视黄酸受体RARRARRARRXRRXRRXR亚类1,21,21,2-基因功能反式激活抑制配子,细胞启动子活性-表1视黄酸受体类型李言柯 等:基于特定序列的长牡蛎视黄酸反应元件预测39942卷海洋通报http:/的周期过程,有着编译语言的功能,又有Shell脚本的快捷。
16、其次,Perl不会因为数据太大而崩溃,在生物测序领域动辄上百G乃至T数量级的数据需要处理,Perl很好地契合这一点。最后,Perl中有着无比强大的正则表达式可以快速处理字符串,非常适合处理生物信息中大数据量的序列。蛋白质中酪氨酸磷酸化修饰过程是调节信号转导途径和关键细胞功能的主要机制之一。酪氨酸残基的可逆磷酸化修饰受到酪氨酸激酶和酪氨酸磷酸酶的共同调节14。酪氨酸激酶和酪氨酸磷酸酶在控制细胞生长和许多其他功能中发挥关键作用,酪氨酸磷酸化对许多细胞信号通路至关重要15。此外,有研究表明,酪氨酸磷酸化也影响一些代谢酶的活性16。另外,酪氨酸可用于蛋白质、生物胺和黑色素的生物合成,或通过五种酶促反应
17、分解为能量,产生乙酰乙酸等并进一步分解17。长牡蛎(Crassostrea gigas)属于软体动物门,双壳纲,牡蛎目,牡蛎科,生长在全世界范围的温热带海域中18-19。在世界范围内,长牡蛎具有很高的经济价值和生态意义。对长牡蛎视黄酸受体CgRAR和CgRXR已有一定的研究20-22,但是其所调控的下游基因及下游基因的功能的相关报道较少。本文通过Perl语言编写一个可以预测视黄酸反应元件的脚本,在长牡蛎基因组中挖掘具有视黄酸反应元件的基因,并通过生物信息学方法对这些基因的功能进行预测。通过本文的研究,有助于整体了解长牡蛎中视黄酸受体调控的基因及其可能参与的生物学过程,为长牡蛎视黄酸受体调控的信
18、号途径及下游基因功能的分子生物学研究提供一定的基础。1材料与方法1.1牡蛎全基因组数据筛选获取2012年,中国科学家完成世界上第一张牡蛎的全基因组序列图谱,牡蛎实际基因组大小为800 M,这次组装基因组最终版本为558 M。组装率达到70%23。本文所用到的牡蛎基因数据文件(FASTA)和基因注释文件(GFF)下载于 NCBI(ftp:/ftp.ncbi.nlm.nih.gov/),基因版本号为:GCA_000297895.1。此版本数据信息新,基因ID标注明确,主流数据库都是以此来进行功能注释,方便后面进行功能注释。1.2在Linux、Mac、Windows下配置运行环境在牡蛎全基因组中预测
19、含有视黄酸反应元件的基因,首先从牡蛎全基因组文件中获取所有可能的序列,并获取序列所在Scaffold上的位点。在基因描述文件里,获取序列下游调控的基因。并获取基因的起始位点、终止位点、正负链。然后利用得出的基因ID对数据库(GO,KEGG,Swissport,Trembl等)进行对比获取KEGG富集图等数据。软件基于Perl语言编程在多个操作系统都可以运行,在windows中,需要提前安装Perl编程语言(https:/www.perl.org/),打开cmd执行命令。在macos与Liunx中打开终端执行命令即可。示例代码:perl PredictRAR.pl-fa GCF_90280664
20、5.1_cgigas_uk_roslin_v1_genomic.fna-gff GCF_902806645.1_cgigas_uk_roslin_v1_genomic.gff-upstreamOutup.txt-intervalOut inter.txt1.2.1 配置视黄酸反应元件模式匹配从前文中分析出,视黄酸受体结合位点由两个核心序列间隔不同的数量的碱基构成,首先我们列表分析视黄酸反应元件的主要类型。本文选择文献报道的主要核心序列A/GGT/GTCA,在表 3 中列出A/GGT/GTCA 构成的重复序列,作为RAREs的预测依据,表中类型皆用正则表达式类型DR1DR2DR5ER8IR基因H
21、BVmHHClmCRBP-IhApoAlhRAR2mCP-Hm7F-crystallinhMCADTREpalhOST序列CGGGGTAAAGGTTCAGGTGAGGTCAGGGGTGGGGGTAGGTCAAAAGGTCAGAAGGGGTCAAGGGTTCAGTAGGGTTCACCGAAAGTTCACTGCAGGTCACTGACAGGGCATAAGTGACCCTTTTAACCAGGTCAGTATTGACCTTTCTCTCCGGGTAAAGTCAGGTCATGACCTGACTAGGTGACTCACCGGG表2已知的视黄酸反应元件54004期http:/表达。通过模式化之后序列符合的视黄酸反应元件
22、的所有结构。接下来就是通过Perl处理牡蛎基因组和基因描述文件。1.2.2 处理牡蛎基因组文件在生物信息学中,FASTA文件是一种最常见的表示核苷酸序列或氨基酸序列的文本格式。每一个独立的染色体、基因或蛋白质都是由一个“”开头,后面跟基因描述文字为第一行,第二行开始为核苷酸序列或氨基酸序列,核苷酸ATCGN等代码表示。通过Perl存一个哈希变量%seq,把第一行的ID定义为Key,之后的序列直到下一个“”定义为Value。如此就可以把数据全部捕获在内存中,等待调用。利用Perl的正则表达式用每一个模式对每一个基因进行匹配,若匹配成功,则把匹配的哈希对应的键值重新赋值给一个哈希变量。并获取匹配上
23、的序列和所在的位置,储存于一个二维哈希。基因组文件处理完毕。1.2.3 处理基因描述文件现版本的基因描述文件版本是由Sanger研究所研发定义的第三代文本格式文件,可以用来描述基因、mRNA、CDS、exon等序列所在的染色体或Scaffold、基因位点、正负链、起始位点、终止位点及其基因ID、类型描述。利用被 Shell 处理过后的基因描述文件,在Perl中省了多余的处理步骤,但是由于基因描述文件的信息过多,仍然需要通过筛选过滤出有用的基因信息。首先利用Split命令对基因描述文件进行分隔,并把Scaffold、正负链、基因起始和终止位点、基因ID分别存入变量中,其余的定义为undef。基因
24、描述文件处理完成。1.2.4 提取预测视黄酸反应元件哈希%seq 作为一个全局变量并储存每一个Scaffold和基因序列可以随时被调用,利用之前已经正则表达式模式化的视黄酸反应元件对每一个哈希值进行模式匹配m/。捕获的序列储存到一个数组中,并把匹配上的序列和Scaffold另存于一个新哈希。由于基因组装只组装一条链,而两条链上都有基因,这导致了基因在描述文件中的正负链之分。组装在同一条链上正负链基因呈反向互补结构。因此,正链上基因调控区是在上游,负链上的基因调控区是下游并反向互补。为确保预测的准确性和完整性,本文还捕获了基因中的预测序列并保存于不同文件中。通过捕获的序列所在Scaffold的位
25、置与基因描述文件中的正链基因起始文件对比,如果捕获序列在基因上游2Kb内,则把基因描述文件保存的变量存入一个上游基因合集文件。负链的基因与终止位点进行对比,在基因下游2Kb内同样把保存的变量存入上游基因合集文件。如果在起始位点和终止位点中,不论正负链都将保存的变量存于一个基因内合集文件。至此预测基因序列已经完成,接下来进行基因数据库功能注释。1.3DNA水平的基因功能注释通过Blast将预测的视黄酸反应元件所调控的基因于NR、SwissPort、GO、GOG、KEGG等数据库进行基因注释。Blast(Basic Local Alignment Search Tool)是美国国家生物技术信息中心
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 特定 序列 牡蛎 视黄酸 反应 元件 预测
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。