基于Charm算法挖掘基因表达保序子序列.pdf
《基于Charm算法挖掘基因表达保序子序列.pdf》由会员分享,可在线阅读,更多相关《基于Charm算法挖掘基因表达保序子序列.pdf(6页珍藏版)》请在咨信网上搜索。
1、现代计算机Modern Computer第 29 卷 第 14 期2023 年 7 月 25 日基于Charm算法挖掘基因表达保序子序列廖旭红,江华,廖莎,李志杰*(湖南理工学院信息科学与工程学院,岳阳414006)摘要:保序子序列(OPSS)是基因表达数据重要的定性测度双聚类方法,通常将基因实数表达值排序后替换成相应的列标签,OPSS 的部分行在部分列下同升同降。提出一种基于 Charm 算法的保序子序列挖掘方法 Charm_Seq,将Charm由频繁闭合项集挖掘改造为频繁闭合序列挖掘,充分利用了Charm高效的ItemsetTidset前缀搜索树数据结构。在人工和实际基因表达数据集上进行实
2、验,实验结果验证了该方法的高效性和有效性。关键词:基因表达数据;双聚类;保序子序列;Charm;序列挖掘文章编号:10071423(2023)14000806DOI:10.3969/j.issn.10071423.2023.14.002收稿日期:20230224修稿日期:20230630基金项目:湖南省自然科学基金(2019JJ40111)作者简介:廖旭红(1997),女,湖南醴陵人,硕士生,研究方向为计算生物学;江华(1996),男,安徽合肥人,硕士生,研究方向为数据挖掘;廖莎(2000),女,湖南涟源人,硕士生,研究方向为数据挖掘;*通信作者:李志杰(1964),男,湖南永兴人,博士,副教
3、授,研究方向为大数据在线学习,Email:0引言诞生于上世纪90年代的分子生物学微阵列实验技术,通过生物芯片同时测定成千上万基因在不同实验条件下的表达量,产生了海量的基因表达数据1。挖掘基因表达数据中基因活动模式信息,在生物医药等领域有广泛用途。聚类是一种重要的无监督机器学习和数据挖掘技术,基因表达数据传统聚类仅在基因或实验条件单一方向上聚类。然而,一个生物基因不可能在所有的实验条件下展示共表达特性,也不可能在所有的实验条件下展示相同的水平,却常常参与多种遗传通路。这些特性意味着基因表达数据存在许多潜在的局部模式,只有对基因(行)和实验条件(列)两个方向同时聚类,才可能挖掘出大量有价值的局部模
4、式。基因表达数据双聚类主要有基于定量测度和基于定性测度的方法。Cheng等2引入元素残差与子矩阵均方残差(mean square residue,MSR)的概念,以MSR为评价函数贪婪求解约束优化问题,这种CC算法是典型的基于定量测度的双聚类方法。多数双聚类方法通过不同基因表达样本相似性度量发现局部模式。Wang等3为了指导相似模式聚类,定义了一种新的最近邻测度方法。Liu等4以基因表达值排序的顺序而不是欧氏距离作为判断两个基因相似的标准,提出一种灵活有效的保序双聚类模型。保序子序列(orderpreserving subsequence,OPSS)是部分行在部分列下具有相同的趋势,实质上是一
5、种排序后的保序子序列挖掘问题。Ben-Dor等5-6证明OPSS是NP难题。本文提出基于Charm7的基因表达数据保序子序列挖掘算法Charm_Seq。Charm是离线挖掘频繁闭合项集的最高效算法8。Charm_Seq 将Charm由频繁闭合项集挖掘改造为频繁闭合序列挖掘,实验验证了算法的有效性。8廖旭红等:基于Charm算法挖掘基因表达保序子序列第14期1相关工作1 1.1 1基因表达数据保序子序列基因表达数据保序子序列基因表达数据可表示为一个n m的数值矩阵A,其中元素aij表示第i个基因(gi)在第j个实验条件(tj)下的表达实数值。A可形式化表示为A=(G,C),其中,G=g1,g2,
6、gi,gi+1,gn表示基因行集合,C=c1,c2,cj,cj+1,cm表示实验条件列集合。表1是一个基因表达数据序列示例。表 1基因表达数据序列示例Geneg1g2g3g4g5g6t00.2170.3750.238-0.0730.3940.385t10.0840.1150.000-0.1460.9090.822t20.409-0.2010.1500.4420.4430.426t30.1380.2540.165-0.0770.8180.768t4-0.159-0.094-0.191-0.3411.0701.013t50.129-0.1810.1320.0630.2270.226在DNA微阵列分
7、析中,密切相关的基因的表达值可能会随一组实验样本相应地同步上升和下降。尽管这些基因的强度表达水平可能不接近,但它们所呈现的模式却非常相似,这种模式即是双聚类局部模式。图1展示从GDS2267酵母菌数据集挖掘的两个局部模式示例,每个模式在条件列集上具有一致递减趋势。Entry ValueColumns3503002502001501005001356891015Entry ValueColumns350300250200150100500578101115(a)Cluster#1(b)Cluster#2图 1酵母菌两个双聚类模式示例假设I G,J C,AIJ=(I,J)表示部分行I在部分列J下具
8、有相似行为或趋势,AIJ也称之为保序子序列。OPSS是矩阵A的一种双聚类局部模式,挖掘OPSS是要从给定的基因表达序列A中发现具有相似行为或趋势的子序列AIJ=(I,J)的集合。1 1.2 2频繁项集与频繁项集与CharmCharm算法算法项集挖掘以事务型数据为挖掘对象,是数据挖掘领域很活跃的研究方向。Charm算法挖掘事务型数据的频繁闭合项集,是最有效的离线频繁项集挖掘算法。定义1事务型数据。事务型数据是由事务组成的集合,每个事务是项的集合,称为事务项集。设事务数据的属性集A=a1,a2,an,项为属性的整型取值。每个属性在一个事务中最多一个项,因此,一个事务项集的长度不大于属性集长度。定义
9、2频繁项集。一个项集X在事务型数据的所有事务中出现的次数称为项集的支持度(X)。假设事务数据集的最小支持度阈值为min_sup,如果(X)min_sup,则称项集X为频繁项集。定义 3频繁闭合项集。假设 X 是频繁项集,Y 表示项集 X 的任一超项集。如果Y,(Y)(X)均成立,则称X为频繁闭合项集。离线和在线频繁模式挖掘典型算法9-10有Apriori、Charm、IncMine、Moment 等。其 中Charm是频繁闭合项集离线挖掘最有效算法,其优越性能主要通过构建键值对搜索树,并且键值对表示采用Bitset编码技术。另外,算法采用差集技术减少中间计算节点的内存占用空间,使用基于hash
10、的方法加速清除非闭合的项集等。实验显示9,使用Charm作为批处理挖掘器的 IncMine 算法,比 Moment快几个数据级,且使用更少的内存。Charm的数据结构是一种ItemsetTidset(IT)前缀搜索树。树中每个节点为IT对,频繁闭合项集为ITSearchTree的叶子节点。该算法首先扫描事务数据库得到频繁项组成的集合I,然后对每个频繁项Xi I的节点Pi向下深度扩展。2基于Charm的频繁闭合序列挖掘与 Charm 挖掘频繁闭合项集不同,保序子序列 OPSS 是挖掘频繁闭合序列,即保序子序列。挖掘频繁闭合项集与挖掘频繁闭合序列的区别如下:(1)频繁闭合项集首先搜索频繁项,而频繁
11、闭合序列挖掘首先搜索的是长度为 2频繁原 9现代计算机2023年子序列;(2)频繁闭合项集搜索树下层节点由当前节点与兄弟节点连接生成,而频繁闭合序列增长由当前序列与长度为2频繁原子序列连接实现;(3)长度为2频繁序列是基本的原子序列,也是所有序列增长的连接对象。然而,Charm有高效的 ItemsetTidset前缀搜索树数据结构,这是Apriori等没有的。Charm_Seq通过改造Charm算法实现基因表达数据频繁闭合序列挖掘。基于 Charm 的保序子序列方法挖掘频繁闭合序列过程有如下三个步骤:(1)每个基因的所有表达值按大小排序;(2)各个基因表达值分别替换为相应列标签;例如表1数据,
12、经步骤(1)和(2)处理后将变成如表2所示的基因表达列序列。表 2基因表达列序列Geneg1g2g3g4g5g6基因表达值降序排序200244033511312033545322151100424455(3)挖掘列标签序列集的频繁闭合序列。为了挖掘表2中g1g6的频繁闭合序列,可以改造Charm算法为Charm_Seq算法,把挖掘目标由频繁闭合项集转变为频繁闭合序列。在Charm_Seq算法中,设 P 表示以P为父节点的所有子节点,Pi P,则Pi向下深度扩展即是Pi 不断取代 P 的循环过程。Charm_Seq伪代码如算法1所示。算法1Charm_Seq(A,min_sup,C=)输入:基因
13、表达数据矩阵A,最小支持度阈值min_sup输出:频繁闭合序列集合C(1)G=Ordering(A,T)/T为列标签集(2)I=P=sisi+1g(sisi+1):sisi+1G(sisi+1)min_sup(3)for each Si g(Si)inP(4)Pi=and S=Si(5)for each Sj g(Sj)inIand SiSj/可首尾连接(6)S=S Sj,G=g(Si)g(Sj)(7)if(S)min_sup)then(8)Add S G toPi;(9)if(Pi)thenP=Pi,goto(3)(10)deletePi(11)C=C S以表2中的 g1,g2,g3,g4,
14、g5,g6 六个基因为例,图2说明Charm_Seq算法挖掘列标签频繁闭合序列的过程。图 2g1g6的列标签子序列Gidset搜索树构建过程3实验结果与分析本文使用GEO微阵列基因表达数据集、基于基因表达数据的肿瘤或非肿瘤分类数据集,以及人工数据集对算法的性能进行评价。比较算法包括 Charm_Seq、OPSS、CC、Charm、Apriori等。算法用 Java 语言实现。实验在 2.60 GHz、Intel(R)Core(TM)i7-6700HQ CPU、内存16 GB、操作系统Windows 10的计算机上进行。3 3.1 1数据集数据集GDS2267微阵列基因表达数据集来自 GEO网站
15、:http:/www.ncbi.nlm.nih.gov/geo,是 GEO公共资源网上关于酵母菌(Saccharomyces cerevisiae)微阵列基因表达数据,数据集名称是Metabolic cycle:time course。该数据集以1225分钟的间隔对营养有限的连续培养细胞进行三个周期的分析。在这种条件下,生长的细胞以呼吸爆发的形式表现出强健的周期性。数据集对应实验的结果提供了对控制代谢振荡的分子机制的洞察。四 个 基 准 数 据 集 leukemia、coloncancer、breastcancer、unbalanced 是 基 于 基 因 表 达 数 10廖旭红等:基于Cha
16、rm算法挖掘基因表达保序子序列第14期据的肿瘤或非肿瘤分类数据集。其中,leukemia和 coloncancer 可从网站下载获得:http:/www.csie.ntu.edu.tw/cjlin/libsvmtools/datasets/。breastcancer和 unbalanced 则是 Weka 数据分析工具的两个自带数据集。T10I4D100K和 T40I10D100K是两个人工产生项集模式的事务数据集,使用 Zaki s IBMDatagen software 标准符号。该人工数据集句法规则为 TxIyDz Pu Cv,其中 x 是平均事务长度,y为项集大小(单位为k),z表示所
17、产生事务的数量(单位为k)。表 3实验相关的七个数据集参数数据集GDS2267leukemiacoloncancerbreastcancerunbalancedT10I4D100KT40I10D100K基因个数93357129200010331040样本大小36类标ALL:47类标AML:25类标tumor:40类标normal:22类标recurrenceevents:85norecurrenceevents:201类标Active:12类标Inactive:844100001000003 3.2 2算法性能分析算法性能分析3 3.2 2.1 1CharmCharm挖掘频繁闭合项集挖掘频繁闭
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Charm 算法 挖掘 基因 表达 保序子 序列
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。