整合影像组学和基因组学构建肾透明细胞癌肿瘤分级预测模型.pdf
《整合影像组学和基因组学构建肾透明细胞癌肿瘤分级预测模型.pdf》由会员分享,可在线阅读,更多相关《整合影像组学和基因组学构建肾透明细胞癌肿瘤分级预测模型.pdf(7页珍藏版)》请在咨信网上搜索。
1、海南医学2023年8月第34卷第15期Hainan Med J,Aug.2023,Vol.34,No.15整合影像组学和基因组学构建肾透明细胞癌肿瘤分级预测模型田占雨,李霞,李永生,陈家齐海南医学院生物医学信息与工程学院,海南海口571199【摘要】目的基于影像基因组学特征构建预测肾透明细胞癌(CCRCC)的肿瘤分级的机器学习模型,并挖掘CCRCC分级相关基因及其功能,为个体化精准医疗提供线索和潜在靶点。方法以CCRCC为研究对象,共涉及197例样本,通过整合其影像组学及基因组学大数据,提取关键特征,构建机器学习模型预测CCRCC肿瘤分级。针对与CCRCC分级相关的关键特征基因进行功能富集分析
2、,解析影响CCRCC进展的生物学功能。结果通过影像组学特征与基因组学信息构建的机器学习模型均能有效地预测CCRCC分级。基于影像组学建立的模型其曲线下面积(AUC)为0.715(95%CI:55.1%87.8%);基于差异表达的特征基因构建的预测模型AUC为0.856(95%CI:73.2%98%);基于显著突变的特征基因构建的预测模型AUC为0.652(95%CI:47.8%82.5%)。相较于单一组学的模型,整合多组学构建的模型能更好地预测肿瘤分级(AUC=0.929,95%CI:84.1%100%)。基因功能富集分析揭示WNT4可能通过调控信号通路、细胞分化通路参与CCRCC的发生发展。
3、结论基于影像基因组学的联合特征能够有效地预测CCRCC分级,通过解析CCRCC的基因功能,为临床诊疗提供新视角和潜在的生物标志物。【关键词】肾透明细胞癌;机器学习;基因功能富集分析;影像组学;基因组学【中图分类号】R737.11【文献标识码】A【文章编号】10036350(2023)15220607Integrating radiomics and genomics to construct a tumor grade prediction model in clear cell renal cell carcinoma.TIAN Zhan-yu,LI Xia,LI Yong-sheng,CH
4、EN Jia-qi.College of Biomedical Information and Engineering,Hainan MedicalUniversity,Haikou 571199,Hainan,CHINA【Abstract】ObjectiveTo construct a machine learning model for predicting the tumor grade of clear cell renalcell carcinoma(CCRCC)based on the characteristics of imaging genomics,and to mine
5、CCRCC grading related genesand their functions,so as to provide clues and potential targets for individualized precision medicine.MethodsTakingCCRCC as the research object,a total of 197 samples were involved.By integrating its big data of radiomics and genom-ics,the key features were extracted,and
6、a machine learning model was constructed to predict the tumor grade of CCRCC.Functional enrichment analysis was carried out on the key characteristic genes related to CCRCC grading,and the biologi-cal functions affecting the progress of CCRCC were analyzed.ResultsThe machine learning model construct
7、ed by ra-diomics features and genomic information can effectively predict CCRCC grading.The area under the curve(AUC)of themodel based on radiomics was 0.715(95%CI:55.1%-87.8%).The AUC of predictive model constructed based on differ-entially expressed characteristic genes was 0.856(95%CI:73.2%-98%).
8、The AUC of the predictive model constructedbased on the characteristic genes with significant mutations was 0.652(95%CI:47.8%-82.5%).Models constructed withthe integration of multi-omics provided a better prediction of tumor grade than models with single omics(AUC=0.929,95%CI:84.1%to 100%).Gene func
9、tional enrichment analysis revealed that WNT4 might participate in the occurrenceand development of CCRCC by regulating signaling pathways and cell differentiation pathways.ConclusionThe com-bined features based on radiogenomics can effectively predict the CCRCC classification,which provides a new p
10、erspec-tive and potential biomarkers for clinical diagnosis and treatment by analyzing the gene function of CCRCC.【Key words】Clear cell renal cell carcinoma;Machine learning;Gene function enrichment analysis;Radiomocs;Genomics 论著 doi:10.3969/j.issn.1003-6350.2023.15.018基金项目:海南省2021年研究生创新型课题(编号:Qhys2
11、021-351)。第一作者:田占雨(1994),男,硕士,初级医师,主要研究方向:影像基因组学。通讯作者:李霞(1957),女,博士,教授,主要研究方向:生物信息融合分析技术,E-mail:。肾透明细胞癌(clear cell renal carcinoma,CCRCC)占肾细胞癌的75%80%,是恶性程度高,预后差,死亡率最高的亚型1。世界卫生组织/国际泌尿病理学会(World Health Organization/International Society ofUrological Pathology,WHO/ISUP)根据核仁突出情况对CCRCC进行了分级(级、级、级、级),随后根据预
12、后结局进一步将患者分为低级别组(级、级)和高级别组(级、级)2-3。现阶段对肿瘤分级主要依靠经皮穿刺活检,需要面临出血、气胸以及针道转移等并发症的风险。因此,需要一种非侵入性的方法协助判断CCRCC的肿瘤分级。随着医学影像成像技术的发展以及高通量基因组学技术的进步,影像基因组学应运而生。影像基因组学是一个多学科交叉的新兴领域,是影像组学和基因组学的有机结合。在之前的研究中,Celli等4结合了影像组学与基因组学,利用多元逻辑回归算法构建机器学习模型,该模型在鉴别诊断低风险子宫内膜癌方面有着出色的分类能力。马佳琪等5通过结合影像基因组学信息,在诊断2206Hainan Med J,Aug.202
13、3,Vol.34,No.15海南医学2023年8月第34卷第15期结直肠癌肝转移、预测患者预后和治疗敏感性等方面显示出独特的优势。将预测模型用于临床实践为个性化治疗带来显著优势,可以减少患者后续治疗的时间成本,并为制定临床治疗方案和改善患者总体生存率提供了指导和新的见解。然而,针对恶性程度较高的CCRCC的肿瘤分级仍然具有挑战性。本研究以影像基因组学为切入点,通过结合医学影像和多组学数据识别不同水平的特征,基于机器学习算法构建多种预测模型,并结合各类算法优势,筛选最优特征组合以达到准确预测CCRCC肿瘤分级的目的。相较于之前的研究,本研究构建的复合型模型取得了更优的分类效能。此外,进一步探讨了
14、多组学水平特征基因的功能,挖掘基因在CCRCC中的潜在临床价值。1资料与方法1.1一般资料CCRCC患者的医学影像数据来源于 TCIA 数据库(The Cancer Imaging Archive,ver-sion 3:Updated 2020/05/29),按照入组标准进行筛选。入组标准:(1)经病理诊断确诊为CCRCC;(2)CT增强扫描皮质期与髓质期期相准确且完整;(3)图像中未出现各类伪影;(4)具备合适的信噪比。符合入组标准的样本共197例。CCRCC患者的多组学数据来源于TCGA数据库(The Cancer Genome Atlas Program-NCI,2017年)。数据集包含
15、了530例患者的基因组和转录组信息,基因表达水平为每千个碱基的转录每百万映射读取的片段数(fragment per kilobase method,FPKM)。通过比对注释文件,获得了16 769个编码基因的表达谱数据和12 903个基因的遗传变异数据。最后从数据集中筛选出同时具有医学影像数据和多组学数据的样本,包含了197例患者。随后本研究按照2016年WHO/ISUP简化分级将I期、II期定义为“低级别组(stage 0)”,III期、IV期定义为“高级别组(stage 1)”。1.2影像组学数据提取及预测模型构建基于医学影像数据利用ITK-SNAP软件半自动形式确定原发灶边界,其中窗宽窗
16、位预设为腹部窗(level:40 HU;window:600 HU)。随后应用Python软件(version 3.8)中“Pyradiomics”库提取影像组学特征6,参数设定如下:箱宽(bin-width)为25;重采样像素间距(Pixel Spac-ing)为3 mm3 mm3 mm;内插程序选择最近邻。提取出的影像特征主要包含 7 个类别维度,形状特征(shape-based)、一阶特征(first-order)、灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)、灰度区域大小矩阵(Gray Level Size Zone Matrix,GLSZM
17、)、灰度行程矩阵(Gray Level Run-Length Matrix,GLRLM)、邻域灰度差矩阵特征(Neighbouring Gray Tone Differ-ence Matrix,NGTDM)和灰度依赖矩阵(Gray Level De-pendence Matrix,GLDM)。1.3识别与CCRCC 相关的转录组和基因组特征在转录组数据集中,由于FPKM值包含不同数量级,为避免表达值相差过大而对模型产生不良影响,本研究进行了数据的归一化,使基因表达谱数据局限在相同数量级范围内。由于转录组水平和基因组水平的数据形式不同,本研究分别进行了差异分析,以筛选在不同CCRCC肿瘤分级之间
18、显著差异表达或突变的特征基因。1.4基因功能富集分析为发掘在CCRCC肿瘤分级中显著差异表达的特征基因的潜在信息,探索基因的生物学功能以及肿瘤的生物学行为,本研究使用R编程软件中“clusterProfiler”包中的“enrichGO”功能进行功能富集分析。对于富集分析得到的生物学功能,进一步筛选出至少包含3个重合基因的显著富集的功能(count3,P-value0.05)。随后使用R“simplify-Enrichment”包中的“GO_similarity”功能进行语义相似性计算,将相似的GO术语进行聚类。最后使用“simpli-fyGO”功能对功能富集聚类结果进行可视化。1.5构建CC
19、RCC肿瘤分级预测模型本研究基于单一组学特征和联合多组学特征,并结合不同的机器学习算法构建了针对 CCRCC 肿瘤分级的预测模型。主要基于支持向量机算法(Support Vector Ma-chine,SVM)、逻辑回归算法(Logistic Regression,LR)、随机森林算法(Random Forest,RF)以及极端梯度提升算法(Extreme Gradient Boosting,XGB)分别构建机器学习模型,用于预测CCRCC肿瘤分级。各个模型模型参数均采用网格搜索选取最佳输入参数,并且超参数均位于对应值阈内。1.6统计学方法本研究通过Wilcoxon秩和检验筛选在CCRCC高低
20、分级中存在显著差异的影像组学特征和显著差异表达基因(P0.05)。在基因组层面,本研究应用Fisher精确检验筛选存在显著差异的突变基因(P0.8),见图6。上述结果表明基于影像基因组学联合特征构建的SVM模型在预测CCRCC分级中表现最佳,因此随后使用SVM算法,基于影像组学特征、转录组特征和基因组特征,分别构建机器学习模型,以评估不同组学识别的关键特征在 CCRCC 肿瘤分级方面的预测效能(图7)。其中影像组学预测模型其AUC为0.715图4在CCRCC不同肿瘤分级中存在显著差异的表达基因Figure 4Expressed genes with significant difference
21、s in differenttumor grades of renal clear cell carcinoma图5BAP1和SETD2在高级别CCRCC中突变占比较高Figure 5BAP1 and SETD2 have a high mutation ratio inhigh-grade CCRCC2209海南医学2023年8月第34卷第15期Hainan Med J,Aug.2023,Vol.34,No.15(95%CI:55.1%87.8%),转录组预测模型AUC为0.856(95%CI:73.2%98%),基因组预测模型AUC为0.652(95%CI:47.8%82.5%)。结果表明
22、,与其他水平的特征相比,基于转录组水平关键特征基因构建的SVM模型在肿瘤分级方面具有更优的预测效能(AUC=0.856,95%CI:73.2%98%)。而结合多组学特征的影像基因组学模型(AUC=0.929,95%CI:84.1%100%)较单一组学(AUC=0.6520.856)模型预测效能更佳。2.4CCRCC相关基因组学的特征功能为了进一步挖掘特征基因在 CCRCC 肿瘤进展中发挥的作用,本研究使用LASSO算法进一步筛选在肿瘤分级中显著差异表达的关键特征基因进行功能富集分析,以探究其参与调控的通路与功能。关键基因被富集在了多条条通路中,并按照P值排序选取了前8条通路进行可视化展示(图8
23、)。本研究发现与肿瘤分级相关的特征基因主要富集在了T细胞分化(T cell differenti-ation)、淋巴细胞分化(Lymphocyte differentiation)、细图6基于四种机器学习模型ROC曲线Figure 6ROC curve based on four machine learning models注:“svc_train”与“svc_test”分别代表基于支持向量机算法构建预测模型的训练集和测试集;“rf_train”与“rf_test”分别代表基于随机森林算法构建预测模型的训练集和测试集;“lr_l1_train”与“lr_l1_test”分别代表基于逻辑回归算
24、法构建预测模型的训练集和测试集;“XGB_train”与“XGB_test”分别代表基于极限梯度提升算法构建预测模型的训练集和测试集。Note:svc_train and svc_test respectively represent the training set andthe test set of the prediction model based on the support vectormachine algorithm;rf_train and rf_test respectively representthe training set and the test set of
25、the prediction model based on therandom forest algorithm;lr_l1_train and lr_l1_test respectivelyrepresent the training set and the test set for constructing theprediction model based on the logistic regression algorithm(L1normal form);XGB_train and XGB_test respectively representthe training set and
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 整合 影像 基因组 构建 透明 细胞 癌肿 分级 预测 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。