基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf
《基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf》由会员分享,可在线阅读,更多相关《基于机器学习联合加权基因共...鉴定狼疮肾炎潜在生物标志物_白志勋.pdf(10页珍藏版)》请在咨信网上搜索。
1、论著基于机器学习联合加权基因共表达网络分析鉴定狼疮肾炎潜在生物标志物白志勋1,王艳平2,杨杰3,谭州科11.遵义医科大学附属医院器官移植中心(贵州遵义 563000)2.遵义医科大学临床学院(贵州遵义 563000)3.遵义医科大学第二附属医院检验科(贵州遵义 563000)【摘要】目的 探讨狼疮肾炎(lupus nephritis,LN)发生发展的潜在机制,探讨与 LN 进展相关的关键生物标志物和免疫相关途径。方法 从 Gene Expression Omnibus 数据库中下载数据集。通过对差异表达基因的差异表达分析和加权基因共表达网络分析(weighted gene co-express
2、ion network analysis,WGCNA)挖掘,通过基因本体论基因功能富集分析、疾病本体论疾病富集分析、京都基因和基因组数据库通路富集分析,探索 LN 中差异表达基因的生物学功能。利用 LASSO 回归、支持向量机和随机森林 3 种机器学习模型获得 LN 中的枢纽基因(hub 基因),构建基于 hub 基因的列线图诊断模型,并通过受试者操作特征曲线评价 hub 基因的诊断准确性,同时采用单样本基因集富集分析对已知标记基因集与 hub 基因的表达之间的关系进行分析。结果 共获得 2 297 个具有统计学意义的差异表达基因。WGCNA 得到 7 个共表达模块;青色模块与 LN 的相关性
3、最高;通过结合差异基因,共获得 347 个目标基因。通过支持向量机、LASSO 和随机森林 3 种机器学习技术获得了 3 个 hub 基因(CLC、ADGRE4P、CISD2),作为 LN 的潜在生物标志物。受试者操作特征曲线下面积(area under the curve,AUC)分析显示 3 个 hub 基因具有诊断价值(AUCCLC=0.718,AUCADGRE4P=0.813,AUCCISD2=0.718)。根据单样本基因集富集分析,hub 基因主要在细胞凋亡、糖酵解、代谢、缺氧以及肿瘤坏死因子-核因子-B 相关途径中得到增强。结论 通过机器学习技术结合 WGCNA 筛选获得 3 个
4、LN 疾病发生发展中的 hub 基因(CLC、ADGRE4P 和 CISD2)。以上3 个基因可以为临床早期诊断 LN 提供帮助,并可能为进一步深入研究 LN 进展机制提供思路。【关键词】枢纽基因;加权基因共表达网络分析;潜在生物标志物;狼疮肾炎Identification of potential biomarkers of lupus nephritis based on machine learning andweighted gene co-expression network analysisBAI Zhixun1,WANG Yanping2,YANG Jie3,TAN Zhouke
5、11.Organ Transplantation Center,Affiliated Hospital of Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China2.Clinical College,Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China3.Department of Laboratory,the Second Affiliated Hospital of Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China
6、Corresponding author:TAN Zhouke,Email:【Abstract】Objective To explore the potential mechanism of the occurrence and development of lupus nephritis(LN)and identify key biomarkers and immune-related pathways associated with the progression of LN.Methods Wedownloaded a dataset from the Gene Expression O
7、mnibus database.By analyzing the differential expression of genes andperforming weighted gene co-expression network analysis(WGCNA),as well as Gene Ontology enrichment,DiseaseOntology enrichment,and Kyoto Encyclopedia of Genes and Genomes pathway enrichment,we explored the biologicalfunctions of dif
8、ferentially expressed genes in LN.Using three machine learning models,namely LASSO regression,support vector machine,and random forest,we identified the hub genes in LN,and constructed a line diagram diagnosismodel based on the hub genes.The diagnostic accuracies of the hub genes were evaluated usin
9、g the receiver operatingcharacteristic curve,and the relationship between known marker gene sets and hub gene expression was analyzed usingDOI:10.7507/1002-0179.202306132基金项目:国家自然科学基金(82260106);贵州省卫生健康委员会项目(GZWKJ2021-138);遵义医科大学大学生创新创业培养专项(ZYDC2022119)通信作者:谭州科,Email: 996 West China Medical Journal,J
10、ul.2023,Vol.38,No.7 http:/www.wcjm.orgsingle sample gene set enrichment analysis.Results We identified a total of 2 297 differentially expressed genes.WGCNA generated 7 co-expression modules,among which the cyan module had the highest correlation with LN.Weobtained 347 target genes by combining diff
11、erential genes.Using the three machine learning methods,LASSO regression,support vector machine,and random forest,we identified three hub genes(CLC,ADGRE4P,and CISD2)that could serveas potential biomarkers for LN.The area under the receiver operating characteristic curve(AUC)analysis showed thatthes
12、e three hub genes had significant diagnostic value(AUCCLC=0.718,AUCADGRE4P=0.813,AUCCISD2=0.718).According tosingle sample gene set enrichment analysis,the hub genes were mainly associated with apoptosis,glycolysis,metabolism,hypoxia,and tumor necrosis factor-nuclear factor-B-related pathways.Conclu
13、sions By combining WGCNA andmachine learning techniques,three hub genes(CLC,ADGRE4P,and CISD2)that may be involved in the occurrence anddevelopment of LN are identified.These genes have the potential to aid in the early clinical diagnosis of LN and provideinsight into the mechanisms underlying LN pr
14、ogression.【Key words】Hub gene;weighted gene co-expression network analysis;potential biomarker;lupus nephritis系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种累及肾脏等多系统的自身免疫性疾病,其中 50%以上的患者可发展为狼疮肾炎(lupusnephritis,LN)1。LN 是以补体大量激活、免疫复合物在肾小球内沉积、肾小球增生和硬化、肾组织炎症反应为特点的肾损害2。LN 是我国最常见的继发性肾小球疾病,约占肾小球疾病的 12%,占继发性肾小球
15、疾病的 70%左右3。LN 患者具有广泛的临床表现,包括单纯性血尿或快速进展的肾功能衰竭,以及各种器官组织的损害,病理类型表现为轻度的系膜高细胞增生到新月体肾炎和弥漫性硬化的各种阶段。不同病理分型 LN 的疾病活动性及其预后不同,研究证实 LN 是导致 SLE 患者不良预后的首要原因,尽管激素及免疫抑制剂能够改善部分LN 患者预后,但仍有大量的 LN 患者进展为终末期肾病,极大增加了患者的经济负担,影响患者生活质量4。淋巴瘤同样是一种系统性疾病,可以入侵几乎任何组织和器官,在 SLE 患者中非霍奇金淋巴瘤很常见,其组织学类型通常为弥漫大 B 细胞淋巴瘤。临床医生必须高度警惕,积极进行检查并及时
16、完成淋巴结活检,以便在早期阶段发现淋巴瘤5-10。同时,LN 患者总体上患癌症的风险也略有增加,可以猜测 LN 与淋巴瘤之间可能存在一定关联。此外,临床诊疗过程缺乏生物标志物和治疗过程中的病情反复是目前 LN 治疗的障碍。传统的分子生物学只能解释生物过程的局部部分,难以对 LN 进展中的整个生物系统进行全面探索。为探索筛选 SLE患者中发生 LN 的差异表达基因,并研究 LN 的潜在机制和与 LN 进展相关的关键生物标志物和免疫相关途径,本研究使用加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)方法,分析 Gene
17、Expression Omnibus(GEO)数据库中与 LN 相关的数据集,同时结合癌症基因组图谱(The Cancer Genome Atlas,TCGA)和基因型-组织表达数据库(Genotype-TissueExpression,GTEx)来分析 LN 与淋巴瘤之间的关联。1 资料与方法1.1 数据收集与处理LN 的表达谱数据集 GSE99967 从 GEO 数据库中获得11。GSE99967 中总共有 46 个样本,其中 LN样本 29 个,对照样本 17 个;所有样本均来自周围血液,根据测序平台 GPL21970 的注释信息,将探针翻译为基因符号。1.2 差异表达基因分析为了在对照
18、样本和 LN 患者的周围血液样本中发现差异表达基因,本研究选择 R 4.2.0 软件中的“limma”软件包对 GEO 数据集中 LN 和对照样本进行差异分析。筛选标准为 P0.5。1.3 WGCNA 构建WGCNA 是一种分析基因间相关性以及模块与外部样本性状之间关系的系统生物学方法,用于发现基因簇与临床性状之间的相关性,以及基因与共表达模块或临床性状之间的相关性12-13。本研究选择 hclust 函数进行样本聚类分析,来消除异常值;然后选择软阈值函数来计算建立一个无标度的网络架构所需的软阈值功率量;再通过比较两个节点与其他节点之间的加权相关性,定量表示节点之间的相似性,从而将连接矩阵转变
19、为拓扑重叠矩阵;通过拓扑重叠矩阵对不同基因模块进行聚类,计算模块特征基因和基因显著性的表达量,将不同的模块与表型联系起来。使用 R 4.2.0 软件中的“WGCNA”软件包进行 WGCNA 分析。1.4 生物标志物的筛选使用 LASSO 回归、支持向量机(support vector华西医学 2023 年 7 月第 38 卷第 7 期 997 http:/www.wcjm.org machine,SVM)、随机森林 3 种机器学习进行生物标志物的筛选。LASSO 回归可以在拟合广义模型的同时进行变量筛选,以发现有意义的预测因素14。本研究使用 R 4.2.0 软件的“glmnet”软件包开展L
20、ASSO 回归分析。SVM 是一种线性分类器,使用基于 SVM 的最大间隔原理训练样本,不断迭代,最后选出需要的特征数15。通过构建随机森林选择特征得到与 LN 和对照组显著相关的基因的重要性16。1.5 模型诊断价值评估首先绘制箱式图分析 GSE99967 数据集中 LN组与对照组间枢纽基因(hub 基因)的表达差异水平,然后基于 hub 基因构建受试者操作特征(receiveroperating characteristic,ROC)曲线,用曲线下面积(area under the curve,AUC)评估 hub 基因诊断 LN的性能。1.6 富集分析将 P0.05 作为基因本体论(Ge
21、ne Ontology,GO)、疾病本体论(Disease Ontology,DO)、京都基因和基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析的检验标准。GO 用于注释基因及其产物在生物过程中的功能、分子功能和细胞成分17-18。DO 用于注释和分析基因与疾病的关系。KEGG 通过所包含基因、蛋白质化学成分及其相互作用、反应和关系网络的信息,用于注释和分析基因功能和代谢途径19。采用单样本基因集富集分析对潜在生物标志物的生物学功能及调控机制进行分析。1.7 TCGA-GTEx 分析TCGA 数据库包含 33 个肿瘤的数据,用于分
22、析基因表达和预后关系;GTEx 数据库则只包含正常个体的数据,可以研究正常个体不同组织之间的基因表达差异20。通过整合 TCGA 及 GTEx 数据分析hub 基因在淋巴瘤及 33 种肿瘤中的表达差异性。2 结果2.1 LN 中的差异表达基因利用 GSE99967 数据集检测到 LN 患者和对照样本之间的 2 297 个差异表达基因,其中 1 060 个基因表达上调,1 237 个基因表达下调(图 1)。2.2 WGCNA 目标模块的构建和基因筛选WGCNA 分析如图 2a 所示,对所有样本进行聚类分析后发现,GSM2666765 样本的聚类偏离明显,因此在 WGCNA 中被作为异常值而排除。
23、使用剩余的 45 个样本中差异表达基因的表达矩阵,研究构建了加权基因共表达网络。合并特征因子大于 0.5 的模块,并将模块中最小基因数设置为 25(图 2b),从而在加权基因共表达网络中筛选出 7 个共表达模块(图 2c)。根据模块与 LN 疾病的相关性研究,最终选择青色模块作为目标模块(图 2d)。在青色模块中,共有 347 个差异表达基因目标基因;LN 模块成员度与基因显著性的散点图见图 2e。ConLN3210123组别OLFM4DEFA3CEACAM8IL1RL1C5orf30FLT3GRB10IL18RAPIL18R1SNORA76CC9orf78CREG1TSTA3TUBB2ARU
24、NDC3AAHSPHBDGYPACISD2CLIC2RIOK3CCDC176IGF2BP2CTSETGM2ANK1BPGMCA1FAM210BXKPI3TRAV24TRAJ37TRAJ56TRAJ52TRGJP1TRDCTRDJ4TRDJ2TRAJ19TRAJ35TRAJ10TRAJ13TRAJ21LINC00861TRBV7.9TRBV3.1TRACTRAJ53TRAJ17TRAJ31TRAJ40TRAJ23TRAJ16TRAJ14XISTCCR3CLCFCER1AADGRE4P024101log2(FC)下调无差异上调意义log10(P 值)TRDJ4FCER1ATRAJ53CLCADGR
25、E4PTRAJ31CCR3PI3TRBV7.9TRBV3.1TRAJ19PFKFB2SLC4A1SELENBP1AHSPSNORA76CIL18RAPCISD2C5orf30CREG1GRB10TSTA3XKHBD组别图 1 差异表达基因的热图和火山图a.GSE99967 的热图,LN:狼疮肾炎组,Con:对照组;b.GSE99967 差异基因火山图,红色表示上调的基因,蓝色表示下调的基因,灰色表示无统计学差异的基因,FC:差异表达倍数 998 West China Medical Journal,Jul.2023,Vol.38,No.7 http:/www.wcjm.orgGSM266676
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 联合 加权 基因 鉴定 狼疮 肾炎 潜在 生物 标志 白志勋
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。