基于分数微分的时间序列相似性度量及其应用.pdf
《基于分数微分的时间序列相似性度量及其应用.pdf》由会员分享,可在线阅读,更多相关《基于分数微分的时间序列相似性度量及其应用.pdf(8页珍藏版)》请在咨信网上搜索。
1、 年月四川大学学报(自然科学版)J u l 第 卷第期J o u r n a l o fS i c h u a nU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n)V o l N o 基于分数微分的时间序列相似性度量及其应用闫汶朋,汪志涛,袁晓(四川大学电子信息学院,成都 )摘要:时间序列的相似性度量是时间序列聚类、分类以及其他相关时间序列分析的基础传统基于距离的相似性度量方法,忽视了时间序列可能存在的时间上的联系,而将时间序列看作一系列孤立点的集合对于序列间可能存在的前后联系,基于分数阶微分的遗传特性和记忆特性,提出一种新
2、的时间序列聚类的相似性度量根据时间序列的分数阶微分计算新序列间的点距离,将其作为聚类算法的输入对时间序列进行聚类仿真实验结果表明,与基于原始序列矢量距离的聚类结果相比,新的分数阶相似性度量方法表现更好关键词:时间序列;聚类;相似性度量;分数阶微分中图分类号:T P 文献标识码:AD O I:/j 收稿日期:作者简介:闫汶朋(),男,四川南江人,硕士研究生,主要研究领域为信号与信息处理、分数阶微积分理论与应用通讯作者:袁晓 E m a i l:y u a n x i a o s c u e d u c o mT i m e s e r i e s s i m i l a r i t ym e a
3、 s u r e m e n tb a s e do nf r a c t i o n a l d i f f e r e n t i a l a n d i t sa p p l i c a t i o nY AN W e n P e n g,WANGZ h i T a o,Y U AN X i a o(C o l l e g eo fE l e c t r o n i c sa n dI n f o r m a t i o nE n g i n e e r i n g,S i c h u a nU n i v e r s i t y,C h e n g d u ,C h i n a)A b
4、 s t r a c t:S i m i l a r i t ym e a s u r e so ft i m es e r i e sa r et h eb a s i sf o rt i m es e r i e sc l u s t e r i n g,c l a s s i f i c a t i o na n do t h e r r e l a t e dt i m es e r i e sa n a l y s i s T h e t r a d i t i o n a l d i s t a n c e b a s e ds i m i l a r i t ym e a s u
5、 r e i g n o r e s t h ep o s s i b l et e m p o r a l c o n n e c t i o n so f t i m e s e r i e s a n d t r e a t s t i m e s e r i e s a s a s e r i e so f i s o l a t e dp o i n t s e t s F o r t h ep o s s i b l eb a c k w a r da n df o r w a r dc o n n e c t i o n sb e t w e e ns e q u e n c e
6、 s,an e ws i m i l a r i t ym e a s u r e f o r t i m e s e r i e s c l u s t e r i n g i sp r o p o s e db a s e do nt h eg e n e t i ca n dm e m o r yp r o p e r t i e so ff r a c t i o n a lo r d e rd i f f e r e n t i a t i o n T h ep o i n td i s t a n c e sb e t w e e nt h en e ws e q u e n c
7、e sa r ec a l c u l a t e db a s e do nt h e f r a c t i o n a l o r d e rd i f f e r e n t i a t i o no ft h e t i m e s e r i e s,a n d t h e na r eu s e da s t h e i n p u t o f t h e c l u s t e r i n ga l g o r i t h mt oc l u s t e r t h e t i m e s e r i e s T h es i m u l a t i o ne x p e r
8、i m e n t a lr e s u l t ss h o wt h a tt h en e wf r a c t i o n a l o r d e rs i m i l a r i t ym e a s u r ep e r f o r m sb e t t e rc o m p a r e dw i t ht h ec l u s t e r i n gr e s u l t sb a s e do nt h eo r i g i n a l d i s t a n c e s K e y w o r d s:T i m es e r i e s;C l u s t e r;S i
9、m i l a r i t ym e a s u r e;F r a c t i o n a l d i f f e r e n t i a l引言时间序列作为一种随时间顺序变化的数据序列,通常具有数据量大、维度高、无限递增、结构复杂等特点近年来,面对日益庞大的时间序列数据集,人工标记的成本日益增加,属于无监督、半监督学习的时间序列聚类引起了越来越多研究者的兴趣,并被广泛应用于金融学、医疗诊断,、工业生产控制和生物学等聚类通过将相似的数据放入相关或同质的组中,将具有最小相似性的对象放入其他组中,已成为一种有用的数据分析方法对于时间序列的相似性研究,很多采用了欧几里德距离或其演变,但基于矢量的欧
10、式距离及其演 第 卷四川大学学报(自然科学版)第期变单纯的将时间序列看做孤立点的集合,忽视了时间序列可能存在的时间上的联系和关键点信息,对于序列在时间轴上的偏移也非常敏感,不具备形态识别能力针对这些问题,国内外学者们相继提出了众多的解决方法:广泛应用于语音识别领域的D TW距离,通过把两个时间序列进行延伸和缩短,找到距离最短的扭曲距离;隐马尔可夫模型,利用时间序列隐含的属性(马尔可夫性)提高聚类精度近年来,王瑞等根据分段序列的斜率变化,划分形态模式,把时间序列转换成字符串序列李海林等提出动态时间弯曲与符号距离结合的时间序列距离度量方法,反映了时间序列数值分布和形态特征 S o l e i m
11、a n i等定义了两个相似性阈值并确定它 们的值,提出 了发展的最 长公共子 序列(D e v e l o p e d L o n g e s t C o mm o n S u b s e q u e n c e,D L C S S),解决了L C S S很难确定正确的相似度阈值,导致结果较差的问题甄远婷等 基于中心C o u p l e函数捕获时间序列的动态相依结构,采用C r a m e r v o nM i s e s统计量构造了一种新的相似性度量本文提出一种基于分数阶微分的时间序列相似性度量,利用分数阶微分的遗传效应和记忆特性,对原始时间序列数据进行分数阶微分计算,再根据传统的点与点距
12、离公式计算得到相似度,最后将其作为聚类算法的输入完成时间序列的聚类分数阶微分理论基础分数阶微积分作为一个重要的数学分支,近年来,已不断在科学、工程等领域得到了广泛的应用,并被引入控制论、流体力学、信号处理及图像处理等领域 对于某些特定的应用,整数阶微分并不能进行很好的描述,需要借助分数阶微分以达到更精确的描述,如:流变本构方程、分数阶控制系统等相对于整数阶微分,分数阶微分可以提供比整数阶微分更丰富的信息 G L分数阶导数的定义分数阶微分有多种不同的定义形式,适合于数值计算 的G r n w a l d L e t n i k o v(G L)分数阶导数定义为G LaDtf(t)l i mA()
13、f(t),ta,b()A()f(t)jg()jf(tj)()g,gjjgj,j,()式()和式()中,D为分数阶微分算子;(可取分数)为运算阶数;t表示时间序列当前时刻;是采样步长;g()j为二项式系数,可通过式()递推求出可以看出,在计算分数微分时,要用到时刻t之前所有的历史数据,被加项数目变得非常大对于时间序列,随着数据量的增大,考虑所有历史数据,分数阶微分的计算速度会随之受到影响,因此,在实际计算中,根据分数微分加权系数具有的较快衰减特性,使用短时记忆法则,只考虑时间序列当前时刻近来的过去,即在区间tL,t的行为G LaDtf(t)tLDtf(t),taL()式()中,L是记忆长度根据公
14、式,具有下限a的分数导数可用具有移动下限tL的分数导数来逼近但是,这样的简化,在计算精度上会受到某些惩罚,对于atb,若存在函数f(t)M,则可利用式(),由短时记忆原理所引起的误差,建立估计()G LaDtf(t)tLDtf(t)M L(),aLtb()该不等式可以用来确定给定精度情况下的记忆长度L,有LM()()A()f(t)Jjg()jf tj()()式()中,JtJ()表示计算t时刻序列点分数阶导数使用的非局域记忆点数,使用短时记忆原理,不考虑全部历史数据G L定义适用于和的微分与积分,且当时,有Dif i()f i(),在时间序列处理中,可将初始时刻a看为 G L分数阶微分的数值计算
15、式()也可写为:G LaDtf(t)A()f(t)o(),当选择的采样步长足够小时,式()中的求极限操作可以忽略,G L定义的分数阶导数便可以由G LaDtf(t)A()f(t)直接计算,再结合短时记忆原理,减少计算过程与传统的整数阶微分只使用当前和前几个有限步长内的函数值相比,分数阶微分具有遗传特性和记忆特性,涉及到t时刻序列点的前J个非局域记忆点序列值,可以捕捉时间序列的前后关系,与其他未将时间序列做相应计算,把各序列点看作孤立存在的方法相比,分数阶微分(如图)考虑了时间序列的时间顺序,使时间序列相似性的刻画具有 第期闫汶朋,等:基于分数微分的时间序列相似性度量及其应用第 卷非局域的记忆特
16、性对于精度损失的问题,对比了通过分数导数逼近式()与运用短时记忆原理计算式()计算结果的区别(C B F训练集,设置为 ),如图所示可以看出,利用短时记忆原理,在不同记忆点数J的情况下,分数阶导数计算结果与逼近式计算结果接近完全重合,误差可忽略不计(a)原始时间序(b)不同阶次分数微分图原始时间序列及不同阶次分数阶微分F i g R a wt i m es e r i e sa n df r a c t i o n a l o r d e rd i f f e r e n t i a t i o no fd i f f e r e n to r d e r s图短时记忆与逼近式计算结果F i
17、g S h o r t t e r m m e m o r ya n da p p r o x i m a t ec a l c u l a t i o nr e s u l t s基于分数阶微分的时间序列相似性度量给定两个长度为n的时间序列x、y,传统的欧式距离dE(x,y)ni(xiyi)()/是时间序列聚类中最常用的相似度量有研究表明,在时间序列分类精度上,欧式距离具有惊人的竞争力,在诸多算法中都有广泛的应用时间序列由于具有先后顺序,把时间序列各点看做孤立的存在并不合理,因此,需要考虑时间序列中可能存在的时间上的联系,以达到更好的聚类效果基于分数阶微分的时间序列相似度,对原始时间序列的每
18、一点求其分数阶微分,可以看做计算一段序列的加权累计值由于分数阶微分计算结果中某些数值较大,对其进行标准化处理,通过将所有数据与数据最小值的绝对值相加来转换数据,使数据的最小值变为,其他所有数据变为正数,再使用Z S c o r e标准化处理数据DxiDxi()式(),xi表示时间序列的第i点数据;Dxi表示时间序列各时间点的阶分数微分;表示分数阶微分时间序列的均值;表示标准差;Dxi表示分数阶微分时间序列各点标准化后的值算法描述了具体过程输入为时间序列各个时刻的函数值构造的向量,第()行设定初始化步长,()()行递推计算二项式系数,()()根据相应的非局域记忆点数J计算给定时间序列的分数阶微分
19、值,最后,标准化返回结果算法伪代码:分数阶微分输入:原始时间序列Tit,t,tn输出:标准化的分数微分时间序列()初始化()f o rj;jl e n(t);jd o()C a l c u l a t e W e i g h t s(,)e n d()f o ri;il e n(t);id o()i fiJt h e n()yC a l F r a D i f f(,f,h,)()e l s e()yC a l F r a D i f f(,f,h,)第 卷四川大学学报(自然科学版)第期e n d()r e t u r nS t a n d a r d i z a t i o n(y)再通过处
20、理后的序列计算欧式距离得到相似度,定义如下dF(x,y)(ni(DaxiDayi)/(ni(AxiAyi)/()式(),Axi和Ayi为时间序列各时间点的阶分数微分计算表达式(式);Axi和Axi表示对其进行标准化;dF(x,y)为最终计算得到的相似度实验编译工具P y t h o n ,操作系统W i n d o w ,C P U/AMDR y z e n H w i t hR a d e o nG r a p h i c s,主频 GH z,内存 G B,固态硬盘容量 G 实验数据与实验方法本文实验中用到的时间序列数据集为U C R时间序列数据库 中收集的标准时间序列数据集,每个数据集包含
21、一个训练集和一个测试集,具体信息如表表U C R标准时间序列数据集T a b U C Rs t a n d a r dt i m es e r i e sd a t a s e tD a t an a m eKLNMC o f f e C r i c k e t_X C B F E C G E C G F i v e D a y s S y m b o l s F a c e F o u r F I S H S c r e e n T y p e M e d i c a l I m a g e T r a c e _w o r d s S y n t h e t i c_c o n t r o
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分数 微分 时间 序列 相似性 度量 及其 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。