基于GEO和TCGA数据库胰腺癌生存相关基因的生物信息学分析.pdf
《基于GEO和TCGA数据库胰腺癌生存相关基因的生物信息学分析.pdf》由会员分享,可在线阅读,更多相关《基于GEO和TCGA数据库胰腺癌生存相关基因的生物信息学分析.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 卷第期年月西 安 交 通 大 学 学 报(医 学 版)J o u r n a l o fX ia nJ i a o t o ngU n i v e r s i ty(M e d i c a l S c i e n c e s)V o l N o S ep 本刊网址:h t t p:/y x x b x j t u e d u c n微信公众号:西安交通大学学报医学版基础研究基于G E O和T C G A数据库胰腺癌生存相关基因的生物信息学分析龚梦元,王琦琦,朱泽恩,仵正,王铮,钱伟琨,(西安交通大学第一附属医院肝胆外科,陕西西安 ;西安交通大学胰腺疾病诊疗中心,陕西西安 )摘要:目的基于胰
2、腺癌相关的高通量基因表达(G E O)和癌症基因组图谱(T C GA)数据,采用生存相关算法筛选并验证参与胰腺癌患者生存的关键预后基因.方法采用G E O数据库个胰腺癌基因芯片(M i c r o a r r a y)和T C G A数据库胰腺癌转录组测序(R NA s e q)数据,利用K a p l a n M e i e r(KM)分析和C o x比例风险模型进行生存相关基因的过滤并取目的基因交集;对交集基因进行多因素回归分析与临床相关性分析筛选预后相关基因;对预后相关基因进行通路富集分析和C I B E R S O R T免疫富集分析寻找其调控胰腺癌的潜在分子机制.结果本研究借助T C
3、 GA和G E O数据库中包含的生存信息与临床特征的个胰腺癌数据集,筛选得到了个与胰腺癌生存相关的基因(C D O、D C B L D、F AM A、I T G A和S L C A),且多因素C o x回归分析和临床相关性分析表明,C D O高表达是胰腺癌预后的保护性因素,其抑癌作用与抑制肿瘤细胞恶性生物学行为和促进胰腺癌抗肿瘤活性免疫细胞浸润相关.结论本研究首次提出了C D O是与胰腺癌预后显著相关的保护性基因,并发现C D O的抑癌机制与抗肿瘤免疫微环境形成密切相关,为后续胰腺癌基础研究与临床治疗提供了新靶点.关键词:胰腺癌;生存相关基因;C D O;免疫微环境中图分类号:R 文献标志码:
4、AD O I:/j d y x b 收稿日期:修回日期:基金项目:国家自然科学基金青年基金项目(N o )S u p p o r t e db yt h eN a t i o n a lN a t u r a lS c i e n c eF o u n d a t i o no fC h i n a(N o )通信作者:钱伟琨,助理研究员,住院医师 E m a i l:q i a n w e i k u n x j t u e d u c n;王铮,教授,主任医师,研究员,博士生导师 E m a i l:z h e n g w a n g m a i l x j t u e d u c n网络
5、出版地址:h t t p s:/k n s c n k i n e t/k c m s/a r t i c l e/a b s t r a c t?u r l I d R&u n i p l a t f o r mN Z K P T()B i o i n f o r m a t i c sa n a l y s i so f s u r v i v a l r e l a t e dg e n e s i np a n c r e a t i cc a n c e rb a s e do nG E Oa n dT C G Ad a t a b a s eGONG M e n g y u a n
6、,WANGQ i q i,Z HUZ e e n,WUZ h e n g,WANGZ h e n g,Q I AN W e i k u n,(D e p a r t m e n to fH e p a t o b i l i a r yS u r g e r y,T h eF i r s tA f f i l i a t e dH o s p i t a l o fX ia nJ i a o t o n gU n i v e r s i t y,X ia n ;P a n c r e a t i cD i s e a s eC e n t e ro fX ia nJ i a o t o n g
7、U n i v e r s i t y,X ia n ,C h i n a)A B S T R A C T:O b j e c t i v eB a s e do nG e n eE xpr e s s i o nOm n i b u s(G E O)d a t a b a s ea n dT h eC a n c e rG e n o m eA t l a s(T C GA)d a t a b a s e,s u r v i v a la n a lys i sw a su s e dt os c r e e nt h ek eypr ogn o s t i cge n e si n v o
8、 l v e do fpa n c r e a t i cc a n c e rpa t i e n t s M e t h o d sT w opa n c r e a t i cc a n c e rge n ec h ips(M i c r o a r r ay)f r o mt h eG E Od a t a b a s ea n dt r a n s c r ipt o m es equ e n c i ng(RNA s eq)f r o mt h eT C GAd a t a b a s ew e r eu s e dt of i l t e rt h es u r v i v a
9、 l r e l a t e dge n e su s i ngK apl a n M e i e r(KM)a n a lys i sa n dC o xr i s km o d e l,a n dt h et a rge tge n e sw e r e i n t e r s e c t e d P r ogn o s i s a s s o c i a t e dge n e sw e r es c r e e n e df i r s ta n dt h e npa t h w aye n r i c h m e n ta n a lys i so ri mm u n e e n r
10、 i c h m e n ta n a lys i sw a spe r f o r m e db a s e do nt h e s ege n e st of i n do u t t h e i rpo t e n t i a lm o l e c u l a rm e c h a n i s m s i nr egu l a t i ngpa n c r e a t i cc a n c e r R e s u l t s I nt h i s s t u dy,f i v e s u r v i v a l r e l a t e dge n e s(i e,C D O,D C B
11、L D,F AM A,I T G Aa n dS L C A)w e r es c r e e n e do u t M u l t i f a c t o r i a lC o xr egr e s s i o na n a lys i sa n dc l i n i c a lc o r r e l a t i o na n a lys i ss h o w e dt h a th ighC D Oe xpr e s s i o nw a sapr o t e c t i v ef a c t o rf o rpa n c r e a t i cc a n c e rpr ogn o s
12、i s,a n di t sa n t i t u m o re f f e c tw a sa s s o c i a t e d w i t hi t sr o l ei ni n h i b i t i ngt h e m a l ign a n tb i o l ogi c a l b e h a v i o ro fpa n c r e a t i cc a n c e rc e l l sa n dpr o m o t i ngt h ei n f i l t r a t i o no fi mm u n ek i l l e rc e l l si npa n c r e a t
13、 i c西 安 交 通 大 学 学 报(医 学 版)第 卷本刊网址:h t t p:/y x x b x j t u e d u c n微信公众号:西安交通大学学报医学版c a n c e r C o n c l u s i o n T h i s s t u dys ug ge s t s t h a tC D O i s apo t e n t i a l t u m o r s up pr e s sge n eo fpa n c r e a t i c c a n c e r,a n d t h et u m o ri n h i b i t i o ne f f e c to fC
14、D O m ayb er e l a t e dt oi t sr o l ei nr e m o d e l i ngt h ei mm u n e m i c r o e n v i r o n m e n to fpa n c r e a t i cc a n c e r K E Y WO R D S:pa n c r e a t i cc a n c e r;s u r v i v a l r e l a t e dge n e;C D O;i mm u n em i c r o e n v i r o n m e n t胰腺癌恶性程度极高,年生存率不足,且由于胰腺重要的内外分泌功能属
15、性及术后胰瘘、出血等并发症发生率高,处理困难、花费高昂,造成胰腺癌患者的生存质量不佳、预后不良,同时也为社会带来极大的医疗与经济负担.发病机制不明、有效治疗手段缺乏是造成胰腺癌不良临床诊疗局面的重要原因.因此,阐明胰腺癌发生发展的分子机制、针对核心分子开发相应的靶向治疗手段是改善胰腺癌患者预后的关键所在.随着胰腺癌临床诊疗及基础研究领域对高通量测序 技 术(h i g h t h r o u g h p u ts e q u e n c i n go r“n e x t g e n e r a t i o n”s e q u e n c i n gt e c h n o l o g y,NG
16、S)的广泛应用,包括转录组测序(R NA s e q u e n c e,R NAs e q)、蛋白组与代谢组、单细胞组以及当下研究火热的“时空”转录组测序等高通量检测手段为肿瘤标志物、肿瘤治疗分子靶点的筛选提供了极大便利,特别是深度结合以人工智能、机器学习等为代表的新兴生物信息学分析方法,标志着胰腺癌的大数据诊疗时代已经拉开序幕.基因表达数据库(G e n eE x p r e s s i o nOm n i b u sd a t a b a s e,G E O)和癌症基因组图谱(T h eC a n c e rG e n o m eA t l a s,T C GA)数据库是目前肿瘤学相关研
17、究中数据量最大、应用最为广 泛的 两 个 公 共 资 源 中心 ,不仅涵盖了基因表达、甲基化、非编码R NA等数据,更重要的是其包含临床资料和其动态更新的生存数据.依托G E O和T C G A的生物信息学分析在胰腺癌基础与临床研究中的应用越来越受到研究者的重视.因此,为寻找新型的胰腺癌预后分子标志,本研究首先基于G E O数据库两个大样本量的胰腺癌数据集过滤出了与胰腺癌生存相关的基 因,并 利 用T C G A数 据 库 胰 腺 癌 数 据 集(P AA D)进一步验证筛选;其次对这些目标基因进行多因素C o x回归分析和临床相关性分析发现,半胱氨 酸 双 加 氧 酶(c y s t e i
18、 n ed i o x y g e n a s et y p e,C D O)的表达随胰腺癌分期升级而降低,且其低表达是胰腺癌不良预后的独立危险因素;最终的癌症基因功能富集G e n eO n c o l o g y(GO)和K y o t oE n c y c l o p e d i ao fG e n e sa n dG e n o m e s(K E G G)和 免 疫 细胞浸润分析表明,C D O是胰腺癌的抑癌基因,其作用可能是通过抑制巨噬细胞浸润、阻滞肿瘤细胞周期来实现.这提示C D O的激活调控可以作为临床胰腺癌治疗的潜在靶点.材料与方法胰腺癌芯片(M i c r o a r r
19、a y)与转录组(R N A s e q)数据下载与整理从国际知名生物信息学公共数据库G E O官方网站(h t t p s:/wwwn c b i n l mn i hg o v/g e o/)获取两个包含生存信息的大样本胰腺癌M i c r o a r r a y数据(分别为G S E 和G S E )及其对应的临床数据文件 .G S E 包含 例正常胰腺和 例胰腺癌M i c r o a r r a y数据,生存分析、临床相关性分析及C o x回归分析时删除其中 例正常胰腺样本和例临床信息不完整的胰腺癌样本;G S E 包含 例胰腺癌M i c r o a r r a y数据.从国际知名
20、生物信息学公共数据库G T E x官方网站(h t t p s:/wwwg t e x p o r t a l o r g/)获取 例正常胰腺组织样本的R NA S e q数据;并从国际知名生物信息学公共数据库T C GA官方网站(h t t p s:/p o r t a l g d c c a n c e r g o v/)获取胰腺癌(包含 例患者的组织样本)的R NA s e q数据及其对应的临床信息文件,并根据后续分析需要,生存分析时删除其中例正常胰腺样本和例临床信息不完整的胰腺癌样本.利用P e r l及R计算机语言程序与软件进行数据矩阵的整理,M i c r o a r r a y数
21、据的补缺、合并与矫正采用l i mm a程序包;R NA s e q原始数据采用F P KM矫正,利用l i mm a程序包进行数据的补缺、合并、矫正与矩阵的融合.基因E n s e m b l eI D与基因名称转换依托人类基因注释 文件(获取 自G E N C O D E网站h t t p s:/wwwg e n c o d e g e n e s o r g/).生存相关基因的过滤与筛选采用乘积极限法即K a p l a n M e i e r(KM)分析和C o x比例风险模型即C o x回归分析两种统计学方法进行生存相关基因的过滤.首先,将方法项中整理的G E O基因表达矩阵与临床信
22、息进行合并(包括生存状态、生存时间、肿瘤病理分期、肿瘤临床分级);其次,提取合并生存信息的基因表达矩阵,利用s u r v i v a l程序包进行基因与生存情况的KM分析和C o x回归期龚梦元,王琦琦,朱泽恩,等基于G E O和T C GA数据库胰腺癌生存相关基因的生物信息学分析本刊网址:h t t p:/y x x b x j t u e d u c n微信公众号:西安交通大学学报医学版分析,输 出 差 异 具 有 统 计 学 意 义(过 滤 界 值P )的基因并取二者交集,得到生存相关性过滤后的基因集合;此外,利用V e n n D i a g r a m程序包将G S E 和G S
23、E 得到的生存相关基因取交集,得到 个初步过滤的与胰腺癌生存相关的基因;最后,将方法项中整理的T C GA基因表达矩阵与临床信息进行合并,并依次代入前述 个基因利用s u r v i v a l程序包进行生存分析,得到个最终筛选的胰腺癌生存相关基因(本步骤亦可通过基于T C G A数据库构建的权威公共生物信息学分析G E P I A网站h t t p:/g e p i a c a n c e r p k u c n/进行).数据可视化及统计学分析数据的可视化主要基于R语言软件(版本)和G S E A(版本)软件进行,根据图形绘制需求分别调用相应的工具程序包:生存分析采用“s u r v i v
24、 a l”程序包;单因素和多因素C o x回归分析和森林图绘制采用“s u r v i v a l”程序包;临床相关性分析采用“g g p u b r”程序包;差异表达分析采用“l i mm a、p h e a t m a p”程序包;部分GO富集分析采用“c l u s t e r P r o f i l e r、e n r i c h p l o t和g g p l o t”程 序 包,部 分GO和K E G G富集分析图绘制采用G S E A软件;免疫细胞相关性采用“v i o p l o t、l i mm a、g g p l o t、g g p u b r和g g E x t r a”
25、程序包,并依托“C I B E R S O R T”工具进行免疫相关基因比对循环(次数 ).本实验采用R语言软件(版本)和G r a p h P a d(版本)软件进行数据的统计分析.统计学分析由相应的程序包自动完成,其中所有假设检验的检验水准设定为,差异具有统计学意义具体定义为:开展生存基因筛选时,P 认为差异具有统计学意义;单因素与多因素C o x回归分析(包括肿瘤分期、肿瘤分级与生存期)时,P 认为差异具有统计学意义,且以P 为本实验筛选界值;开展临床特征相关性分析时,P 认为差异具有统计学意义;开展差异表达分析时,基因差异倍 数(l o g F C)、矫 正 后 的P值(P a d j
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GEO TCGA 数据库 胰腺癌 生存 相关 基因 生物 信息学 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。