核酸序列及数据分析.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 核酸 序列 数据 分析
- 资源描述:
-
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,本章内容,第一节 核酸数据的获取,第二节 序列比对,第三节 序列特征分析,1,实验,生物学,生物信息学,理论,生物学,2,3,基因组学,核酸,6,核酸,脱氧核糖核酸,(,DNA,),核糖核酸,(,RNA,),功能:,是细胞内携带遗传信息的物质,在生物体的遗传、变异和蛋白质的生物合成中具有极其重要的作用。,核酸:遗传信息携带着,7,真核生物,:DNA RNA,原核生物,:DNA RNA,大多数病毒,:DNA,极少数病毒,:RNA,遗传物质是,DNA,遗传物质是,RNA,细胞生物,非细胞生物,HIV,、,SARS,病毒、流感病毒、烟草花叶病毒、车前草病毒等,8,Biology Neil Campbell,,,Version 4,,,1996,9,核酸组成,10,DNA,RNA,碱基,腺嘌呤,(adennine,A),鸟嘌呤,(guanine,G),胞嘧啶,(cytosine,C),胸腺嘧啶,(thymine,T),腺嘌呤,鸟嘌呤,胞嘧啶,尿嘧啶,(Uracil,U),戊糖,脱氧核糖,核糖,磷酸,磷酸,磷酸,核苷酸的基本组成单位,11,12,基因不同,核酸序列,A,G,C,T,不同,13,第一节 核酸数据的获取,14,实验手段获取核酸序列,Sanger,双脱氧末端终止,法(1977),PCR,技术,(1985),DNA,自动测序仪的发展,(,ABI,1995),生物信息学分析软硬件设施,15,大规模基因组测序的两种策略,逐步克隆法,-基于,BAC,的方法,(,Clone by Clone),先把基因组打碎成200300,kb,的片段并制成,BAC,文库,再选择一些,BAC,进一步打碎成3,kb,左右的小片段,测序并拼接(,BAC,克隆的覆盖率不应低于3倍,),,。,全基因组霰弹法-,鸟枪法,(,Whole Genome Shot-gun),把基因组直接打碎成3,kb,左右的小片段,测序并拼接。,16,已形成了一条世界第六、亚洲最大的基因组测序技术平台,共有,MegaBACE,测序仪104台,,ABI3730,测序仪2台,,ABI377,测序仪11台,满负荷运转日产可达50,Mb,,是一个低投入、高产出,高度自动化的测序平台。,中国基因组测序情况,17,我国测序能力的“三级跳”,人类基因组计划1%项目的,finishing(1999,年),中-丹合作的家猪基因组计划(2000年),水稻工作框架图的绘制和公布(2001年),标志着我国已掌握了国际先进的测序技术,具有相当的测序能力。,测序能力和质量已达到国际一流水平,以独立承担大规模的基因组测序项目,我国已经成为继美国之后世界上第二个具有独立完成大规模的全基因组测序和组装分析能力的国家,18,通过生物信息学手段,获取核酸序列,19,三大核酸序列数据库,GenBank,(,NCBI,),EMBL,DDBJ,20,特殊类型核酸序列数据库:,非编码,RNA,数据库(,ncRNA,);,表达序列标签数据库(,dbEST,);,序列标签位点数据库(,dbSTS,);,miRBase,;,tRNAdb,等。,21,基因组相关数据库:,人类基因组数据库(,HGD,);,基因组序列数据库(,GSDB,);,基因组在线数据库(,GOLD,)等。,22,基因表达数据库:,基因表达库(,GEO,);,斯坦福微阵列数据库(,SMD,);,ArrayExpress,;,CGED,;,GXD,;,BodyMap,等。,23,人类基因突变及疾病相关数据库:,人类基因变异数据库(,HMGD,)、人类遗传双等位基因序列数据库(,HGBASE,)、人类孟德尔遗传在线(,OMIM,)、国际单体型计划(,HapMap,)、人类单核苷酸多态性数据库(,dbSNP,)、肿瘤基因数据库(,TGDB,)、疾病关联数据库(,GAD,)、癌症基因数据库(,CGAP,)、人类表观遗传数据库(,HEP,)、人类,DNA,甲基化与癌症数据库(,MethylCancer,)等。,24,以,NCBI,数据库为例,学习如何获取核酸序列及序列相关信息,www.ncbi.nlm.nih.gov/,www.ncbi.nlm.nih.gov/genbank/,NCBI,GenBank,25,什么,时候需要利用生物,信息学获取序列信息,基因克隆(,PCR,,,RACE,),表达检测(,RT-qPCR,,,RT-PCR,),基因表达调控(基因过表达或沉默表达),原核表达蛋白,序列同源性分析,26,CCL21,27,28,29,30,31,CCL21,32,当前可查,103,条,基因组相关基因,99,条,可查看,SNP11,条,基因定义,染色体定位,基因组参考序列号,选择物种,33,34,35,36,37,38,39,40,41,42,基因基本信息的总结,43,基因基本信息的总结,基因与染色体、基因组相关信息,44,基因相关参考文献,基因功能相关参考文献,45,表型,变异,和艾滋病相关,46,相关通路,和其他基因的互做,47,基因基本信息,同源性,基因本体注释(,GO,分类),48,Gene Ontology(GO分类),Gene Ontology,包含了,基因参与的生物过程,,所处的,细胞位置,,,发挥的分子功能,三方面功能信息,并将概念粗细不同的功能概念组织成,DAG,(有向无环图)的结构。,Gene Ontology,是一个使用有控制的词汇表和严格定义的概念关系,以有向无环图的形式统一表示各物种的基因功能分类体系,从而,较全面地概括了基因的功能信息,。,在基因表达谱分析中,,GO,常用于,提供基因功能分类标签和基因功能研究的背景,知识。利用,GO,的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。,49,50,基因编码蛋白的基本信息,51,参考序列信息,mRNA,和编码蛋白序列信息,基因组相关序列信息,52,53,CCL21,核酸序列,CCL21,mRNA,登录号,CCL21,编码蛋白,CCL21,登录号,54,什么是登录号(,accession number,),?,An accession number is label that used to identify a sequence.It is a string of letters and/or numbers that corresponds to a molecular sequence.,Examples,X02775GenBank genomic DNA sequence,NT_030059Genomic contig,Rs7079946dbSNP(single nucleotide polymorphism),N91759.1An expressed sequence tag(1 of 170),NM_006744RefSeq DNA sequence(from a transcript),NP_007635RefSeq protein,AAC02945GenBank protein,Q28369SwissProt protein,1KT7Protein Data Bank structure record,protein,DNA,RNA,55,NCBIs important RefSeq project:best representative sequences,RefSeq(accessible via the main page of NCBI),provides an expertly curated accession number that,corresponds to the most stable,agreed-upon“reference”,version of a sequence.,RefSeq identifiers include the following formats:,Complete genomeNC_#,Complete chromosomeNC_#,Genomic contigNT_#,mRNA(DNA format)NM_#e.g.NM_006744,ProteinNP_#e.g.NP_006735,56,CCL21,核酸序列,CCL21,mRNA,登录号,CCL21,编码蛋白,CCL21,登录号,57,基因序,列信息,基因相,关信息,58,Genbank,格式注解,59,LOCUS,条目名称(标识符),DEFINITION,序列的定义,说明,ACCESSION,序列编号,具有唯一性和永久性,VERSION,版本,KEYWORDS,由序列提交者提供,包括序列的基因产物及相关信息,SOURSE,序列来源,说明序列的来源物种,来源组织等,REFERENCE,和序列相关的文献,包括题目,作者等信息,FEATURES,具有特定格式,包含大量的信息和内容,用来详细描述序列特性及相关内容,BASE COUNT,碱基组成,ORIGIN,碱基序列,并以,/,作为序列条目结束的标记,序列文件的主要结构:,60,61,FEATURES,具有特定格式,包含大量的信息和内容,用来详细描述序列特性及相关内容,62,GenBank,记录中特性表中的主要关键词,:,关键词,解 释,关键词,解 释,misc_feature,生物学特性无法用特性表关键词描述的序列,promoter,转录起始区,misc_difference,序列特性无法用特性表关键词描述的序列,CAAT_signal,真核启动子上游的,CAAT,盒,与,RNA,结合相关,conflict,同一序列在不同研究中在位点或区域上有差异,TATA_signal,真核启动子的,TATA,盒,unsure,序列不能确定的区域,-35_signal,原核启动子中的,-35,框,old_sequence,该序列对以前的版本做过修订,-10_signal,原核启动子的,Pribow,盒,variation,包含稳定突变的序列,GC_signal,真核启动子的,GC,盒,modified_base,修饰过的核苷酸,RBS,核糖体结合位点,gene,已识别为基因或已命名的序列区域,polyA_signal,RNA,转录本的剪切识别位点,misc_signal,无法用信号特性关键词描述的信号序列,enhancer,增强子,63,关键词,解 释,关键词,解 释,attenuator,与转录终止有关的序列,CDS,蛋白质编码序列,terminator,转录终止序列,sig_peptide,编码信号肽的序列,rep_origin,双链,DNA,复制起始区,transit_peptide,转运蛋白编码序列,misc_RNA,无法用,RNA,关键词描述的转录物或,RNA,产物,mat_peptide,编码成熟肽的序列,prim_transcript,初始转录本,intron,内含子,precursor_RNA,前体,RNA,polyA_site,RNA,转录本的多聚腺苷酸化位点,mRNA,信使,RNA,rRNA,核糖体,RNA,5clip,前体转录本中被剪切掉的,5,端序列,tRNA,转运,RNA,3 clip,前体转录本中被剪切掉的,3,端序列,scRNA,小细胞质,RNA,5UTR,5,非翻译区,snRNA,小核,RNA,3UTR,exon,3,非翻译区,外显子,snoRNA,加工和修饰,rRNA,的小核,RNA,64,关键词,解 释,关键词,解 释,immunoglobulin_related,repeat_unit,单个的重复元件,C_region,免疫相关蛋白上的不变区,LTR,长末端重复序列,D_segment,免疫球蛋白重链的可变区,,T,细胞受体,链,Satellite,卫星重复序列,J_ segment,免疫球蛋白重链、轻链以及,T,细胞,、,、,的结合链,misc_binding,无法描述的核酸序列结合位点,N_ region,插入重排免疫球蛋白片段间的核苷酸,primer_bind,复制、转录的引物结合位点,S_ region,免疫球蛋白重链的开关区,protein_bind,蛋白质结合区,V_ region,编码免疫球蛋白的可变区,N,末端的序列,STS,测序标签位点,V_ segment,编码免疫球蛋白的可变区的序列,misc_recomb,无法用重组特性关键词描述的重组事件,repeat_region,基因组中所包含的重复序列,iDNA,通过重组所消除的,DNA,65,关键词,解 释,关键词,解 释,misc_structure,无法用结构关键词描述的核酸序列高级结构或构型,stem_loop,发夹结构,D_loop,线粒体中,DNA,中的取代环,GenBank,记录中特性表中的限定词,:,限定词,含 义,限定词,含 义,/allele=,给定基因的等位基因,/codon_start=,相对于序列第一个碱基,编码序列密码子的偏移量,/bound_moiety=,嵌合范围,/country=,DNA,样本的来源国,/cell_type=,获得序列的细胞类型,/db_xref=,其他数据库信息的交叉索引号,/citation=,已被引用的参考文献数,/direction=,DNA,复制方向,/clone_lib=,获得序列的克隆文库,/environmental_sample=,序列直接从环境材料中获得而没有指明来源物种,66,限定词,含 义,限定词,含 义,/exception=,指明,DNA,序列未按通常的生物学规律翻译,如,RNA,编辑,/PCR_conditi-ons=,描述,PCR,的反应条件,/frequency=,在种群中发生变异的频率,/pop_variant=,获得序列的群体变异种名称,/germline,如果序列是,DNA,并来源于免疫球蛋白家族,则表示该序列来源于未重排,DNA,/product=,序列编码产物的名称,/insertion_seq=,序列来源于某种插入元件,/anticodon=,tRNA,反义密码子的位置及它所编码的氨基酸,/isolate=,序列来源的生物个体,/cell_line=,获得序列的细胞系,/lab_host=,为扩增序列来源物种所用的实验室宿主,/chromosome=,获得序列的染色体,/macronuclear,指明,DNA,来源于染色体分化的大核期,/clone=,获得序列的克隆子,/note=,评论及附加信息,/codon=,指出与参考密码子不同的密码子,/organelle=,获得序列的细胞器,/EC_number=,序列产物的酶学编号,67,限定词,含 义,限定词,含 义,/cons_splice=,区分内含子剪切位点和“,5,-GT.AG-3,”,剪切位点,/map=,相关特性在基因图谱上的位置,/cultivar=,所获序列植物的栽培变种,/mod_base=,被修饰碱基的简写,/dev_stage=,序列来源于某种生物的特定发育阶段,/number=,从,53,注明遗传元件的顺序,/evidence=,序列特性来源于实验还是推理,/organism=,提供测序用遗传物质的物种的科学名称,/focus,指出在记录中的来源特性在其他物种中还有不同的来源特性,/phenotype=,序列特性所导致的表型,/function=,序列所代表的功能,/plasmid=,获得序列的质粒名称,/haplotype=,序列来源于某种物种的单倍体,/protein_id=,蛋白质的检索号,/isolation_sou-rce=,描述序列来源物种的生理、环境和地理信息,/proviral,整合在基因组中的前病毒,/label=,序列特性的俗名,/rearranged,如果序列是,DNA,并来源于免疫球蛋白家族,则表示该序列来源于重排,DNA,68,限定词,含 义,限定词,含 义,/rpt_family=,重复序列,/transposon=,转座子,/rpt_unit=,指明重复区域的重复元件构成,/variety=,获得序列的生物变种,/serotype=,同一物种的不同血清学特征,/pseudo,假基因,/sex=,获得序列的物种性别,/replace=,表明特性间的间隔序列已被替换,/specimen_vou-cher=,指明来源物种保存于什么地方,/rpt_type=,重复序列的组织方式,/strain=,获得序列的菌珠,/sequenced_m-ol=,获得序列的分子类型,/sub_species=,获得序列的来源物种的亚种,/serovar=,同一原核生物的血清学特征,/tissue_lib=,获得序列组织库,/specific_host=,获得序列的天然宿主,/transgenic,指明物种的来源特性是否是转基因受体,/standard-name=,特性的通用名称,/transl_except=,标明序列中未按指定密码子表翻译的氨基酸的位置,/sub_clone=,获得序列的亚克隆,69,限定词,含 义,限定词,含 义,/sub_strain=,获得序列的来源微生物亚种,/tissue_type=,获得序列组织类型,/translation=,按通用或指定的密码子表翻译的氨基酸序列,/transl_table=,描述在翻译中与通用密码表不同的密码表,/usedin=,表明该特性在其他检索中也被使用,/virion,病毒颗粒,70,.,71,FASTA,格式,FASTA,格式第一行是描述行,第一个字符必须是“,”,字符。,随后的行是序列本身,每行序列不超过,80,个字符。,序列由标准的,IUB/IUPAC,氨基酸和核酸代码代表。,ref|NC_000016.8|NC_000016:76691052-77024150 Homo sapiens chromosome 16,reference assembly,GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG,72,73,成功提取,CCL21 mRNA,全长序列,74,.,75,编码序列,76,成功提取,CCL21 mRNA,编码序列,77,第二节 序列比对,78,什么,时候需要进行序列比对,已知某基因的部分核酸序列,已知某基因编码的蛋白序列,获取基因的全长序列,(包括,5,端和,3,端非编码序列的获得),已知某基因的,cDNA,序列,已知某基因的同源序列和,相似序列(两个序列以上),序列同源性相似性分析,保守序列的分析,及聚类分析的需要等,克隆序列测序后的验证,确认序列的准确性,已有一个或多个已知或未知序列,79,序列比较,序列比较的一个基本操作就是比对(,Alignment,),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述,多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,80,相似性,(similarity),:,是指一种很直接的,数量关系,,比如部分相同或相似的百分比或其它一些合适的度量。比如说,,A,序列和,B,序列的相似性是,80,,或者,4/5,。这是个量化的关系。当然可进行自身局部比较。,序列的相似性,81,同源性,(homology),:,指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于,质的判断,。就是说,A,和,B,的关系上,只有是同源序列,或者非同源序列两种关系。而说,A,和,B,的同源性为,80,都是不科学的。,生物序列的同源性,82,相似性和同源性关系,序列的相似性和序列的同源性有一定的关系,一般来说,序列间的相似性越高的话,它们是同源序列的可能性就更高,,所以经常可以通过序列的相似性来推测序列是否同源。,正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现,A,序列和,B,序列的同源性为,80,一说。,83,数据库的搜索,在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,需要通过数据库搜索,找出具有一定,相似性,的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。对于氨基酸序列来说,有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。因此,数据库搜索与数据库查询一样,是生物信息学研究中的一个重要工具,.,84,序列比对搜索和双序列比对,85,NCBI,主站点:,www.ncbi.nlm.nih.gov/BLAST/,对一般用户来说,目前常用的办法是通过,NCBI,国际著名生物信息中心的,BLAST,服务器进行搜索。,序列比对神器,-BLAST,86,BLAST,简介,BLAST,是由美国国立生物技术信息中心(,NCBI,)开发的一个基于,序列相似性,的数据库搜索程序。,BLAST,是“局部相似性基本查询工具”,(Basic Local Alignment Search Tool),的 缩写。,87,BLAST,简介,Blast,是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择,blastn,程序。,88,NCBI,BLAST,89,90,主要的BLAST程序,程序名,查询序列,数据库,搜索方法,Blastn,核酸,核酸,核酸序列搜索逐一核酸数据库中的序列,Blastp,蛋白质,蛋白质,蛋白质序列搜索逐一蛋白质数据库中的序列,Blastx,核酸,蛋白质,核酸序列,6,框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。,Tblastn,蛋白质,核酸,蛋白质序列和核酸数据库中的核酸序列,6,框翻译后的蛋白质序列逐一比对。,TBlastx,核酸,核酸,核酸序列,6,框翻译成蛋白质序列,再和核酸数据库中的核酸序列,6,框翻译成的蛋白质序列逐一进行比对。,91,数据库,简述,nr,month,dbest,dbsts,htgs,yeast,E.coli,pdb,kabat,vector,mito,alu,gss,非冗余的,GenBank,EMBL,DDBJ,PDB,序列,除了,EST,、,STS,、,GSS,和,0,1,2,阶段的,HTGS,序列,nr,中过去,30,天的最新序列,非冗余的,Genbank,EMBL,DDBJ,PDB,的,EST,部分,非冗余的,Genbank,EMBL,DDBJ,PDB,的,STS,部分,0,1,2,阶段的高产量基因组序列,(3,阶段完成的,HTG,序列在,nr,库里,),酵母的全基因组序列,大肠杆菌的全基因组序列,由三维结构库来的核酸序列,Kabat,的免疫学相关序列库,Genbank,的载体子集,线粒体核酸序列,REPBASE,中,Alu,重复序列翻译而来,用来遮蔽查询序列中的重复片段,基因组勘测序列,(Genome Survey Sequence),BLAST,的核酸数据库,92,NCBI,BLAST,93,94,BLAST搜索格式,(,1,),FASTA,格式,FASTA,格式第一行是描述行,第一个字符必须是“,”,字符。,随后的行是序列本身,每行序列不超过,80,个字符。,序列由标准的,IUB/IUPAC,氨基酸和核酸代码代表。,ref|NC_000016.8|NC_000016:76691052-77024150 Homo sapiens chromosome 16,reference assembly,GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG,95,BLAST搜索格式,(,2,)单纯序列数据输入格式,GCAGTGCGCAGGCGTGAGCGGTCGGGCCCCGACGCGCGCGGGTCTCGTTTGGAGCGGGAGTGAGTTCCTGAGCGAGTGGACCCGGCAGCGGGCGATAGGGGGGCCAGGTGCCTCCACAGTCAGCCATGGCAGCGCTGCGCTACGCGGGGCTGGACGACACGGACAGTGAGGACGAGCTGCCTCCGGGCTGGGAGGAGAGAACCACCAAGG,(,3,)标识符格式,NC_000016,96,GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTC TAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTG,97,结果页面,98,结果页面,99,结果页面,100,结果页面,101,结果页面,102,BLAST,程序评价序列相似性的两个数据,Score,:,使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、,Score,值越大,则相似性越高,。,E value,:,在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述,Score,值的概率的大小。,E,值越接近零,越不可能找到其它的匹配序列,其背后的含义就是,E,值越小,则匹配度越好,。,103,E,值,(E-Value),P,值,(P-Value),BLAST,程序中使用了,E,值而非,P,值,这主要是从直观和便于理解的角度考虑。比如,E,值等于,5,和,10,,比,P,值等于,0.993,和,0.99995,更直观。,但是当,E111,AATTCCGG,222,CCGGAATT,333,GGCCTTAA,113,114,115,116,117,118,第三节 序列特征分析,119,什么是基因?,基因,是遗传信息的物理和功能单位,包含产生一条多肽链或功能,RNA,所必需的全部核苷酸序列,。,碱基成对出现,:-ATCGGCC-,-TAGCCGG-,120,基因 基因组,任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为,genomes,(,基因组,)。,基因组有两层意义:,遗传物质,和,遗传信息,。,要揭开生命的奥秘,就需要从,整体水平,研究基因的存在、基因的结构与功能、基因之间的相互关系。,121,碱基,+,脱氧核糖,+,磷酸,脱氧核苷酸,DNA,染色体,A,T,C,G,构成,形 成,双 链,蛋,白,质,+,基因,基因就是位于,DNA,上的,有效遗传效应的片段,基因,1+,基因,2,+,基因,3,+-,122,基因是一种相对独立的遗传信息单位,这些信息单位可以通过各种方式在生物个体之间进行重新组合,并向后代传递;,基因是,一段,DNA,分子,,遗传信息贮存在,DNA,序列之中;,基因的信息内容通过相应的形式表现出来,即指导合成蛋白质或,RNA,,进而产生生理功能,或影响其他基因的表达。,基因具有几个重要的特征,123,中心,法则(,The,C,entral,D,ogma,),基因表达中的信息流,124,基因功能区域,基因按其功能可分为,结构基因,和,调控基因,:,结构基因,可被转录形成,mRNA,,并进而转译成多肽链;,调控基因,是指某些可调节控制结构基因表达的基因。,在,DNA,链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个,开放阅读框,(Open Reading Frame,ORF),。,结构基因多含有插入序列,除了细菌和病毒的,DNA,中,ORF,是连续的,包括人类在内的真核生物的大部分结构基因为,断裂基因,,即其编码序列在,DNA,分子上是不连续的,或被插入序列隔开。,断裂基因被转录成前体,mRNA,,经过剪切过程,切除其中非编码序列,(,即内含子,),,再将编码序列,(,即外显子,),连接形成成熟,mRNA,,并翻译成蛋白质,。,125,基因的不连续性,Intron,和,Exon:,大多数真核生物蛋白质基因的编码顺序,(Exon),都被或长或短的非编码顺序,(Intron),隔开,126,真核生物基因结构:,一个完整的真核生物基因,不但包括编码区域,还包括,5,端和,3,端两侧长度不等的特异性序列,虽然这些序列不编码氨基酸,却在基因表达的过程中起着重要的作用。所以,严格的,“,基因,”,这一术语的分子生物学定义是:产生一条多肽链或功能,RNA,所必须的全部核苷酸序列。,127,基因序列特征分析主要内容,一、开放阅读框,二、,CpG,岛,CpG islands,三、转录终止信号,四、启动子,promoters,五、密码子偏好性,128,一、开放阅读框,ORFopen reading frame,开放阅读框,指的是从,5,端开始翻译起始密码子(,ATG,)到终止密码子(,TTA,、,TAG,、,TGA,)的蛋白质编码碱基序列。,129,1.1,遮蔽重复序列,在进行任何真核生物序列的基因分析之前,最好把重复序列找出来并从序列中除去。,130,1.2,根据开放读码框预测基因,A,起始密码子,ATG,第一个,ATG,的确定则依据,Kozak,规则,;,Kozak,规则是基于已知数据的统计结果,所谓,Kozak,规则,即第一个,ATG,侧翼序列的碱基分布所满足的统计规律,.,131,若将第一个,ATG,中的碱基,A,,,T,,,G,分别标为,1,2,3,位,则,Kozak,规则,可描述如下:,(1),第,4,位的偏好碱基为,G,;,(2)ATG,的,5,端约,15bp,范围的侧翼序列内不含碱基,T,;,(3),在,-3,,,-6,和,-9,位置,,G,是偏好碱基;,(4),除,-3,,,-6,和,-9,位,在整个侧翼序列区,,C,是偏好碱基。,132,B,终止密码子,终止密码子,:TAA,TAG,TGA,GC%=50%,终止密码子每,64 bp,出现一次;,GC%50%,终止密码子每,100,200 bp,出现一次;,由于多数基因,ORF,均多于,50,个密码子,因此最可能的选择应该是,ORF,不少于,100,个密码子。,133,C 3,端的确认,3,端的确认主要根据,Poly(A),尾序列,若测试,Contig,不含,Poly(A),序列,则根据加尾信号序列“,AATAAA,”,和,BLAST,同源性比较结果共同判断。,134,开放读码框常用软件,ORF finder,:,(www.ncbi.nlm.nih.gov/gorf/orfig.cgi),GENSCAN,:美国麻省理工学院开发的人类(或脊椎动物)基因预测软件。,http,:,/genes.Mit.edu/GENSCAN.html,ExPASy Translate tool,:,web.expasy.org/translate/,135,136,137,138,Homo sapiens chemokine(C-C motif)ligand 21(CCL21),mRNA,NCBI Reference Sequence:NM_002989.3,ACATAAATAGCAGGCCAATCCCAGCCCACGCACAGACCCCCAACTTGCAGCTGCCCACCTCACCCTCAGC TCTGGCCTCTTACTCACCCTCTACCACAGACATGGCTCAGTCACTGGCTCTGAGCCTCCTTATCCTGGTT CTGGCCTTTGGCATCCCCAGGACCCAAGGCAGTGATGGAGGGGCTCAGGACTGTTGCCTCAAGTACAGCC AAAGGAAGATTCCCGCCAAGGTTGTCCGCAGCTACCGGAAGCAGGAACCAAGCTTAGGCTGCTCCATCCC AGCTATCCTGTTCTTGCCCCGCAAGCGCTCTCAGGCAGAGCTATGTGCAGACCCAAAGGAGCTCTGGGTG CAGCAGCTGATGCAGCATCTGGACAAGACACCATCCCCACAGAAACCAGCCCAGGGCTGCAGGAAGGACA GGGGGGCCTCCAAGACTGGCAAGAAAGGAAAGGGCTCCAAAGGCTGCAAGAGGACTGAGCGGTCACAGAC CCCTAAAGGGCCATAGCCCAGTGAGCAGCCTGGAGCCCTGGAGACCCCACCAGCCTCACCAGCGCTTGAA GCCTGAACCCAAGATGCAAGAAGGAGGCTATGCTCAGGGGCCCTGGAGCAGCCACCCCATGCTGGCCTTG CCACACTCTTTCTCCTGCTTTAACCACCCCATCTGCATTCCCAGCTCTACCCTGCATGGCTGAGCTGCCC ACAGCAGGCCAGGTCCAGAGAGACCGAGGAGGGAGAGTCTCCCAGGGAGCATGAGAGGAGGCAGCAGGAC TGTCCCCTTGAAGGAGAATCATCAGGACCCTGGACCTGATACGGCTCCCCAGTACACCCCACCTCTTCCT TGTAAATATGATTTATACCTAACTGAATAAAAAGCTGTTCTGTCTTCCCACCCAAAAAAAAAAAAAAAAA,AAA,以,CCL21,的,mRNA,序列举例说明,ORF,识别,139,140,141,*,142,143,ExPASy-Translated tool,144,二、,CpG,岛,CpG islands,CpG,岛,是指,DNA,序列上的一个区域,此区域含有大量相联的胞嘧啶(,C,)、鸟嘌呤(,G,),以及使两者相连的磷酸酯键(,p,)。,CpG,岛的概念是,Gardiner-garden,和,Fromner,于,1987,年提出的,基因中平均每,100 Kb,即可出现。,CpG,岛位于基因的启动子和第一个外显子区,约有,60%80%,的人类基因的启动子和起始外显子含有,CpG,岛,其中,GC,含量大于,50%,,长度超过,200bp,。因此搜索,CpG,岛可以为基因及其启动子预测提供重要线索。,145,利用,CpGPlot,预测分析,CpG,岛,CpGPlot,是预测,CpG,岛的在线工具,它是由欧洲分子生物学实验室,EMBL European Molecular Biology Laboratory,提供的。,其网址为:,www.ebi.ac.uk/Tools/emboss/cpgplot/index.html,146,CpGPlot,在线操作页面,147,用,CpGplot,预测,CpG,岛的结果,148,三、转录终止信号,转录终止信号是在,mRNA,序列的,3,端终止密码子下游位置上的加尾信号(,tailing signal,)。前体,mRNA 3,端多聚腺苷酸化是真核细胞内,mRNA,转录后处理的三个最主要步骤之一,这三个步骤包括:,5,帽子结构的形成、内含子的剪切及,3,端的多聚腺苷酸化,因此,前体,mRNA 3,端多聚腺苷酸化与,mRNA,稳定性的调节、,mRNA,的细胞内转运、展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




核酸序列及数据分析.ppt



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/12155819.html