分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 高效低索引的图相似性搜索算法.pdf

高效低索引的图相似性搜索算法.pdf

上传人：自信****多点

文档编号：622165

上传时间：2024-01-18

格式：PDF

页数：9

大小：2.19MB

《高效低索引的图相似性搜索算法.pdf》由会员分享，可在线阅读，更多相关《高效低索引的图相似性搜索算法.pdf（9页珍藏版）》请在咨信网上搜索。

1、h t t p:/ww wj s j k x c o mD O I:/j s j k x 到稿日期:返修日期:基金项目:江苏省高校自然科学研究项目(K J A )T h i sw o r kw a ss u p p o r t e db yt h eN a t u r a lS c i e n c eF o u n d a t i o no f t h eJ i a n g s uH i g h e rE d u c a t i o nI n s t i t u t i o n so fC h i n a(K J A )通信作者:郑朝晖(z h e n g z h s u d a e d u

2、c n)高效低索引的图相似性搜索算法邱珍郑朝晖苏州大学计算机科学与技术学院江苏苏州江苏省网络空间安全工程实验室江苏苏州 (s t u s u d a e d u c n)摘要图相似性搜索是在给定的度量标准下查找与查询图相似的图集合,目前大多采用“过滤验证”的计算框架.针对现有方法中过滤下界不紧密和索引空间占用较大等问题,提出了一种基于查询图分区的多层级过滤、低索引空间占用的图相似性搜索算法Z I n d e x.该算法首先通过全局粗粒度过滤得到预候选集;然后提出基于扩展概率的查询图分区算法,并采用层级过滤机制进一步精简候选集,增强下界紧密性;最后引入序列相似性差值计算序列中数据分布的稀疏

3、度,提出分区压缩和差值压缩两种编码压缩算法,并据此构建“零”索引结构,降低索引空间开销.实验结果表明,Z I n d e x算法所得下界更加紧密,产生的候选集大小可减少左右,算法执行时间大大缩短,且该算法在索引空间占用极小的情况下仍具有可扩展性.关键词:图相似性搜索;层级过滤;扩展概率;编码压缩;查询图分区中图法分类号T P G r a p hS i m i l a r i t yS e a r c hw i t hH i g hE f f i c i e n c ya n dL o wI n d e xQ I UZ h e na n dZ HE NGZ h a o h u iS c h o

4、 o l o fC o m p u t e rS c i e n c ea n dT e c h n o l o g y,S o o c h o wU n i v e r s i t y,S u z h o u,J i a n g s u ,C h i n aJ i a n g s uP r o v i n c eC y b e r s p a c eS e c u r i t yE n g i n e e r i n gL a b o r a t o r y,S u z h o u,J i a n g s u ,C h i n aA b s t r a c t G r a p hs i m

5、i l a r i t ys e a r c h i s t os e a r c ht h eg r a p hs e t t h a t i s s i m i l a r t oq u e r yg r a p hu n d e r am e a s u r e m e n t,w h i c ha d o p t s t h e“f i l t e r i n g v e r i f i c a t i o n”f r a m e w o r k A i m i n ga t t h ep r o b l e m so f t h e e x i s t i n gm e t h o

6、d s,s u c ha s t h eu n t i g h t l o w e rb o u n da n d t h e l a r g ei n d e xs p a c e,a n i m p r o v e dg r a p hs i m i l a r i t ys e a r c ha l g o r i t h m(Z I n d e x)b a s e do nq u e r yg r a p hp a r t i t i o nw i t hm u l t i l e v e l f i l t e r i n ga n dl o wi n d e xs p a c e

7、i sp r o p o s e d F i r s t l y,t h ep r e c a n d i d a t es e t i so b t a i n e db yg l o b a l c o a r s e g r a i n e df i l t e r i n g S e c o n d l y,aq u e r yg r a p hp a r t i t i o n i n ga l g o r i t h mb a s e do ne x t e n s i o np r o b a b i l i t yi sp r o p o s e d,a n dah i e r

8、 a r c h i c a lf i l t e r i n gm e c h a n i s mi sa d o p t e dt of u r t h e rs h r i n kt h e c a n d i d a t e s e t,s oa s t oe n h a n c e t h e t i g h t n e s s o f t h e l o w e rb o u n d F i n a l l y,t h e s e q u e n c e s i m i l a r i t yd i f f e r e n c e i s i n t r o d u c e dt

9、o c o m p u t e t h e s p a r s i t yo f t h ed a t a c o n t r i b u t i o n T h e np a r t i t i o nc o m p r e s s i o na n dd i f f e r e n c e c o m p r e s s i o na l g o r i t h ma r ep r o p o s e d t oc o n s t r u c t“z e r o”i n d e xs t r u c t u r e,s oa s t or e d u c e t h e i n d e x

10、s p a c e E x p e r i m e n t a l r e s u l t ss h o wt h a tZ I n d e xa l g o r i t h mh a sa t i g h t e rl o w e rb o u n d,a n dt h ec a n d i d a t es e t s i z eo fZ I n d e xc a nb er e d u c e da b o u t M o r e o v e r,t h ea l g o r i t h me x e c u t i o nt i m e i sg r e a t l yr e d u

11、c e d,a n d i t s t i l l s h o w sg r e a t s c a l a b i l i t y i nt h ec a s eo f t i n y i n d e xs p a c e K e y w o r d s G r a p hs i m i l a r i t ys e a r c h,H i e r a r c h i c a l f i l t e r i n g,E x t e n s i o np r o b a b i l i t y,C o d i n gc o m p r e s s i o n,Q u e r yg r a p

12、hp a r t i t i o n i n g引言近年来,随着互联网技术的飞速发展,数据量呈指数级增长,实现数据的高效存储与检索至关重要.在大数据时代,由于数据实体具有各自的特征属性且大量数据之间存在相互关联的复杂关系,因此通常将这些数据实体以及数据之间的关系抽象为图结构.面对大规模图数据集,图相似性搜索算法在数据分析中具有重要意义,且已被广泛应用于各个领域,如生化信息学、计算机视觉、模式识别和数据检索等 .在图数据集中,对于给定的查询图q和编辑距离阈值,根据指定的图相似性度量标准检索所有编辑距离不超过的图g的过程被称为图相似性搜索.目前,评估图相似性的度量标准有图编辑距离、最大公共子图和图

13、对齐等.其中,图编辑距离(G r a p hE d i tD i s t a n c e,G E D)作为最常用的度量指标,几乎可以评估所有类型的图,精确计算图之间的结构差异.由于图编辑距离计算是N P H a r d问题,因此现有方法大多采用“过滤验证”的思路求解图相似性搜索问题,其性能主要取决于候选集大小、过滤得到候选集的代价,以及图编辑距离的计算开销.在过滤阶段,通常采用索引构建算法和上下界剪枝策略来快速过滤不满足阈值约束的数据图,得到候选集.但过于松弛的过滤下界会导致候选集过大,设计较优的索引结构能缓解这一问题,但会导致索引空间占用较多,然而大部分研究没有考虑到这一性能瓶颈.在验证阶段

14、,要分别精确计算查询图与候选集中数据图的图编辑距离,该过程需要较大的计算开销.如果过滤阶段能够得到精简的候选集,则会大大降低验证阶段的时间消耗.因此,设计高效的过滤机制是优化图相似性搜索算法的重要一环,本文会对该过程做进一步的优化.针对上述候选集较大和索引空间占用较大等问题,本文对过滤策略做出改进并优化索引空间,提出了一种基于查询图分区的多层级过滤、低索引空间占用的图相似性搜索算法Z I n d e x,并在不同数据集上进行实验验证.实验结果表明,本文算法能够在低索引空间占用下实现高效查询.主要工作总结如下:)提出了一种基于扩展概率的查询图分区算法,为每个分区引入一个扩展概率值,即顶点或边被分

15、配到当前分区的可能性,将复杂的结构分区过程转换为简单的数值比较,根据该值可以更精确地判断一个分区与数据图是否匹配,提高了过滤效果.)提出了层级过滤机制以减少候选集大小.为避免不必要的分区匹配与索引构建,在对查询图分区之前首先采用粗粒度过滤得到预候选集,然后在分区过程中基于子图匹配方法进行过滤以进一步精简候选集,解决了候选集过大的问题.)不同于其他研究者对数据库中的图进行分区,本文对查询图分区并建立索引,为每个索引序列引入元素相似性差值,来表征该序列的数据分布稀疏度,并在此基础上提出分区压缩和差值压缩两种编码压缩算法,进而建立“零”索引结构,在降低索引空间的同时大大加快了过滤速度,缓解了在海量数

16、据图中构建索引带来的空间压力.相关工作与问题定义相关工作针对图相似性搜索问题,国内外学者开展了诸多广泛的研究 .在验证阶段,常用的图编辑距离算法有:AG E D,D F_G E D,D D F,C S I_G E D,A s t a r L S a 和B S S_G E D 等.在过滤阶段,W a n g等提出了基于树的qg r a m和基于路径的q g r a m,通过构建k A T树过滤筛选不符合下界条件的数据图,将k A T索引组织为倒排索引以避免缓慢的顺序搜索,不足之处在于该方法只适用于稀疏图.此后,Z h e n g等提出了分支距离的概念,设计了新的下界过滤机制,但其算

17、法的时间和空间复杂度较高.在此基础上,Z h e n g等又提出了基于种过滤边界的混合过滤方法.上述过滤方法都采用了固定划分子结构的思想,由于子结构之间存在重叠部分,一次图编辑操作可能会影响多个子结构,因此该方法的过滤效果有待优化.针对该问题,Z h a o等首次提出了不相交图划分的思想P a r s,将数据图划分为个非重叠子结构,通过子图同构计算过滤数据图,其缺点在于需要较长的索引构造时间和子图同构计算时间,而且随机分区方法会对识别假阳性图造成干扰.此后,L i a n g等提出了参数化的下界和选择性图划分方法ML P a r t i t i o n.

18、该方法可以识别更多的假阳性图,减少候选集大小,而对于大量数据图而言,图划分、子图同构计算和倒排索引的构建均需占据大量的时间与空间.虽然目前已有各种优化的图相似性搜索算法,但是部分改进后的算法仍存在下界不紧密的问题,过滤比例仍然较低,且大多数研究未考虑索引空间占用较大引起的空间消耗问题.基于此,本文提出了一种高效低索引的图相似性搜索算法,在获得较小候选集的同时,能够保证索引占用较低.问题定义本文中,将带标签图集合G定义为一个三元组:GV,E,L.其中V表示图G中的顶点集合,EVV表示边集合,L表示标签标记函数.对于一个数据图gG,用Vg和Eg分别表示图g中的顶点和边集合,用|Vg|和|Eg|分别

19、表示图g中的顶点和边的数量,|G|表示图集合G中数据图的数量.定义(图编辑距离,G r a p hE d i tD i s t a n c e,G E D)数据图g转换为查询图g 所需的最少编辑距离操作数,用来衡量两个图之间的结构差异.本文使用G E D(g,g)表示图g和g 之间的编辑距离.其中图编辑距离操作包括以下点:)插入一个新的孤立顶点u;)在已有顶点u和v之间插入新边e,e(u,v);)删除一个孤立顶点u;)删除连接顶点u和v的边e,e(u,v);)修改顶点v的标签;)修改边e的标签.例如图所示,给定两个图g和g,则G E D(g,g).其中,g转换为g的编辑操作步骤具体体现为:)删

20、除连接顶点C,D的边;)删除连接顶点A,F的边;)删除连接顶点C,F的边;)删除顶点F;)将顶点C修改为E.图查询图q和数据图g,gF i g Q u e r yg r a p hqa n dd a t ag r a p h sg,g定义(不相交图分区)将数据图根据特定规则划分成两两互斥的独立子结构.在本文Z I n d e x算法中,对于一个给定的图g,将满足以下条件的分区结果表示为P(g)p,p,pi.)i,piP(g);)i,j且ij,VpiVpj;)Vni Vpi,Eni Epi.在Z I n d e x算法的分区过程中,为解决固定分区导致的下界松散问题,提

21、升过滤性能,本文提出了基于扩展概率的查询图分区算法,通过引入扩展概率值,动态计算图中各顶点与边的匹配情况,最终得到满足上述不相交条件邱珍,等:高效低索引的图相似性搜索算法的图分区集合P(q).例如图所示,查询图q被分为个分区,即P(q)p,p,p,p.其中任意两个分区都不存在重叠部分,且所有分区的并集为完整的图q.图查询图q的分区情况F i g P a r t i t i o n so fq u e r yg r a p hq定义(图相似性搜索)图相似性搜索算法指从一个给定的数据图集合G中查找与某一查询图q的编辑距离小于或等于阈值的所有数据图g的集合R.定义如下:

22、Rg|G E D(g,q)()例如图所示,给定图数据集Gg,g 和查询图q,设编辑距离阈值,分别求得G E D(g,q),G E D(g,q),其中满足编辑距离阈值的数据图为g,则Rg.定义(过滤下界)对于图g和q,本文定义编辑距离下界L B(g,q)来实现数据图的过滤,如果G E D(g,q)L B(g,q),即过滤下界大于编辑距离阈值,则图g可被过滤,不用精确计算图编辑距离.因此,过滤下界越紧密,越接近真实G E D,所得候选集就越小,算法性能越好.算法设计与分析本文Z I n d e x算法主要包括以下个重要组成部分:)首先基于扩展概率对查询图做分区

23、处理,用查询子图去匹配数据库中的图;)采用层级过滤机制精简候选集,以此减少验证阶段中图编辑距离的计算次数;)最后基于编码压缩算法构建“零”索引,降低索引空间占用,使得能在有限的空间内实现高效查询.本文Z I n d e x算法流程图如图所示,其中,l表示预设的序列压缩阈值,g a p表示任一序列的元素相似性差值.图Z I n d e x算法流程图F i g F l o wc h a r to fZ I n d e xa l g o r i t h m 基于扩展概率的查询图分区算法基于固定大小子结构的图分区方法存在以下缺点:)忽略了图的拓扑结构信息,随着数据规模的增大,其可扩展性存在局限性;)固

24、定大小子结构存在大量结构冗余,一次图编辑距离操作可能会影响多个子结构,导致下界过于松散.为增强下界紧密性,提升过滤性能,Z I n d e x算法针对分区过程中各区域的匹配情况,提出了基于扩展概率的查询图分区算法.不同于P a r s 对图数据库中所有数据图进行随机分区进而造成分区冗余,本文对查询图集合根据定义进行不相交图划分,通过引入扩展概率值的概念,将查询图划分为k个非重叠子区域,其中为编辑距离阈值,k为下界参数值.对于一个分区pi而言,其扩展依据为分区大小和分区中顶点与边标签出现的频率.其中,分区大小表示该分区中顶点和边的总数量,即|VPi|EPi|;顶点标签频率表示该分区所有顶点中每一

25、类顶点出现的次数,即vVPif(Lv);同理,边标签频率表示为eEPif(Le).如果查询图中某一分区较大,那么它就越有可能被编辑距离操作所影响,越不容易被匹配到.同理,分区pi中顶点和边标签频率越高,那么它在数据图中出现的概率也越大,越容易被匹配到.因此,根据扩展概率值s(pi)可以快速判断分区pi与图g是否匹配,大大提高过滤效果.对分区pi而言,其扩展概率值s(pi)的定义如下:s(pi)vEPif(Lpi(v)|Vpi|eEpif(Lpi(e)|Epi|Vpi|Epi|()其中,f(Lpi(v)表示分区pi中顶点标签为v的顶点数量;f(Lpi(e)同理.s(pi)值越大,表明分区pi越容

26、易被匹配到,即图g与查询图q相似的概率越大.对顶点v而言,其加入到分区pi中的贡献值 pi的定义为:pi|s(piv)s(pi)|()Z I n d e x中基于扩展概率的查询图分区算法有两个主要步骤:顶点分配和跨区域边的分配.给定查询图q,则基于扩展概率的查询图分区过程如下:)随机选取k个初始顶点,随后这些顶点将被扩展为k个分区.)尝试将初始顶点的邻居顶点加入到每个分区中,根据式()计算其对分区pi的贡献值 pi,将顶点加入到 pi最大的分区中.如果 pi相等,则将顶点随机加入较小的分区中.)重复步骤)过程,计算每个区域的邻居顶点对各区域的贡献值 pi,直到分配完所有顶点.至此,顶点分配结束

27、.)跨区域的边分配:所有顶点分配完之后,尝试将边分配到其顶点所在的分区中并计算 pi,最终将其分配到 pi最大的区域中.例以图为例,设,k,选择顶点B,D,F作为初始顶点,分别标记所在分区为p,p和p,计算得s(p)s(p)s(p).首先进行顶点分配,与这些分区相邻且未分配的顶点有A和B,由于A和B以及F相邻,因此尝试将顶点A分配到p和p中,计算得 p,p,则将顶点A随机加入分区p.由于顶点B与A,D,F相邻,因此B可被分配C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 到区域p,p和p中,计算得 p ,p ,p ,则将顶点B加入分区p中.

28、此时未分配顶点集合为A.由于顶点A只与区域p相邻,因此将A加入区域p.此时pB,A,a(B,A),pF,pD,B,A,b(D,B),d(B,A),顶点分配结束.然后进行跨区域的边的分配,跨区域的边集合为a(B,A),b(A,B),c(A,F),d(B,F).对于边a(B,A),计算 p ,p ,因为 p p,所以将边a(B,A)加入到p分区中.同理,将其他边加入到对应分区中.最终得到分区信息为:pB,A,a(B,A),a(B,D),b(A,B)pD,B,A,b(D,B),d(B,A)pF,d(F,B),c(F,A).图基于扩展概率的图分区过程F i g G r a p hp a r t

29、 i t i o n i n gb a s e do ne x t e n s i o np r o b a b i l i t y 层级过滤机制为减少验证阶段图编辑距离的计算次数,防止单一过滤造成的数据适应性,Z I n d e x算法对过滤过程进行了优化,基于全局粗过滤和子图匹配方法,提出层级过滤机制,精简候选集大小.详细算法过程如下.)一级过滤:在分区之前进行粗粒度过滤,计算图gG与查询图q之间的顶点和边数的差值L B.定义如下:L B(g,q)Eg|EqVg|Vq()其中,|Vg|和|Eg|分别表示图g中顶点和边的数量.若L B(g,q),那么至少需要次顶点/边的删除或者添加操作才能将

30、g转换到q,则G E D(g,q)L B(g,q).图g与查询图q的图编辑距离一定大于阈值,所以在未分区之前就可将图g过滤掉,得到预候选集并进行扩展分区,可避免不必要的图分区判断过程.)二级过滤:在对预候选集的分区过程中计算不匹配分区数,判断图g是否可以被过滤.在对查询图分区的过程中,计算查询图q与每个数据图g之间的不匹配分区数,记为L B(g,q).如果图g中不匹配分区数大于编辑距离阈值,即L B(g,q),那么该图一定不在编辑距离约束范围内,可以被安全过滤.根据鸽巢原理,每个不匹配分区至少需要一次编辑距离操作才能达到匹配状态,若不匹配分区数大于,则至少需要次操作,因此不再满足编辑距离阈值条

31、件的约束.如图所示,pg,pg.p和p为图中g的匹配分区,而p和p为不匹配分区,所以不匹配分区数为,图g可能是查询图q相似度搜索的结果,可以放入候选集中,进行下一步图编辑距离G E D验证.综上所述,经过层级过滤机制后,满足L B(g,q)或者L B(g,q)的数据图将会被过滤,可以得到更为精简的候选集,大大减少了验证阶段图编辑距离的计算次数.“零”索引的图相似性搜索算法不同于其他研究者对数据库中的所有图分区,本文对查询图分区,可以在一定程度上减少索引空间的占用.但是当查询图集合逐渐增大时,时间开销与索引所需空间也会随之增加.本文在ML P a r t i t i o n 算法多层索引的基础上

32、,基于编码压缩算法构建“零”索引结构Z I n d e x,该过程包括两个步骤:建立索引和索引压缩.其中,在索引压缩阶段,本文提出分区压缩和差值压缩两种改进的索引压缩算法,通过计算索引序列的元素相似性差值推断序列中数据分布的稀疏度,进而选出合适的压缩算法,使得在较小的内存下实现高效查询.)建立索引本文对查询图建立L层“零”索引结构,具体流程如下:在第i(iL)层中,基于查询图扩展概率分区算法将查询图q划分为k个分区,经过层级过滤机制得到该层对应的候选集Ci,最终候选集合CqLiCi.对查询图q的每一个分区p,维护一个倒排索引表I(p),保存包含该分区的所有数据图g.由此,可以在数据集G中快速

33、查找到含有子图p的所有图g.P a r s算法在判断图g是否匹配分区p时,需要频繁进行子图同构计算.为避免复杂的子图同构计算,Z I n d e x在查询图分区的过程中记录图g与分区p的顶点与边标签的频率,记为N(g)和N(p).如果p是图g的匹配分区,则表示为N(g)N(p),否则视为不匹配分区.根据以上阐述,将第i层中的“零”索引结构定义为:Zqi(I(pi),N(pi).)索引压缩本文基于编码算法,提出了两种有效压缩存储Zqi的方法,构建“零”索引序列Z I n d e x.首先计算索引序列s中的元素相似性差值sg a p,并与序列压缩阈值l进行比较.若sg a p大于压缩阈值l,则采用

34、分区压缩算法,否则采用差值压缩算法.其中,sg a p的定义如式()所示:sg a p|sisi|s|,i|s|()其中,|s|表示序列的s的长度.()分区压缩算法对数据分布不均匀的索引序列而言,统一压缩会降低压缩效果.为解决这一问题,本文提出了基于序列划分的索引分区压缩算法,根据数据分布的稀疏情况选择划分长度d,将其划分为若干|s|/d个子序列分别压缩.例如,对于给定的序列s,如果设置d,则序列s可划分为子序列s和s,其中s,s ,则问题转换为对子序列s和s做压缩处理.()差值压缩算法该算法保持每个划分中的第一个元素不变,然后依次计算此后相邻两个元素的差值,即ss,ss ,.最终,对处理过的

35、序列s和s使用邱珍,等:高效低索引的图相似性搜索算法编码算法压缩.常用的编码算法有一元编码、哥伦布编码和指数哥伦布编码等.使用不同的编码算法c o m p r e s s()将会得到不同的“零”索引序列Z I n d e x:Z I n d e x qQLiZ I n d e xqi()其中,Z I n d e xqic o m p r e s s(Zqi).以一阶指数哥伦布编码算法为例,本文“零”索引构建算法具体过程如算法所示.算法“零”索引构建算法输入:查询图集合Q,压缩阈值l输出:“零”索引序列Z I n d e x Z I n d e x;f o r i f r o mt oLd o

36、I(pi),N(pi)f o rq Qd o f o r i f r o mt oLd o Pi(q)p a r t i t i o nqb a s e do ne x t e n s i o np r o b a b i l i t y/分区 I(pi),N(pi)c o n s t r u c t i n d e xf o rPi(q)Zqi(I(pi),N(pi)c o m p u t esg a pi f sg a p l t h e n/压缩 Z I n d e xqisg a pdi c o m p r e s s(Zqi d)e n d i f i f sg a p l t h

37、e n Z I n d e xqisg a pdi c o m p r e s s(|Zqi|j(Zqi(j)Zqi(j)e n d i f Z I n d e x q QLi Z I n d e xqi r e t u r nZ I n d e x本文提出的Z I n d e x算法包括过滤和验证两个阶段.在过滤阶段,图数据集G首先经过基于扩展概率的查询图分区和层级过滤机制,得到查询图q的候选集合Cq;然后对该索引序列进行编码压缩,完成“零”索引的构建.在验证阶段,依次计算候选集Cq中的图g与q的图编辑距离,最终的结果集R保存所有满足阈值约束的图g.)h t t p:/d t p n c i

38、 n i h g o v d o c s a i d s a i d s_d a t a h t m l)h t t p s:/n e t w o r k r e p o s i t o r y c o m/I MD B MU L T I p h p例假设查询图q及其分区结果如图所示,数据图如图中g和g所示,编辑距离阈值.在一级过滤阶段,计算L B(q,g)()(),L B(q,g)()(),因此g被过滤.在二级过滤阶段,计算q与g的不匹配分区数为,则将g加入候选集Cg.在验证阶段计算G E D(q,g),则最终结果集R为空,即查询图q与g和g的编辑距离都不在阈值约束范围内.Z

39、I n d e x算法详细过程如算法所示.算法Z I n d e x算法输入:图数据集G,编辑距离阈值,查询图集合Q输出:Rg|G E D(g,q),g G,q Q/初始化 p r e C,C,R/数据预处理 f o rq Qd o c o m p u t e|Vq|,|Eq|f o rg Gd o N(g)|Vg|Eg|f o rq Qd o f o rg Gd o L B(g,q)Eg|EqVg|Vq i fL B t h e n p r e Cp r e Cg/更新预候选集 f o rq Qd o Pi(q),Ni(p)p a r t i t i o nqb a s e do ne x

40、t e n s i o np r o b a b i l i t y f o rg p r e Cd o f o rp Pi(q)d o i fN(g)N(p)t h e n CCg e n d i f Z I n d e x c o n s t r u c t i n d e x f o rq Qd o f o rg Gd o c o m p u t eG E D(g,q)i fG E D(g,q)t h e n RRg e n d i f r e t u r nR 算法复杂度分析首先在程序初始前,通过遍历预先计算数据库中所有图的顶点和边标签频率,该过程的时间复杂度为O(|G|),并且在过滤

41、过程中,可以利用得到的顶点和边标签频率实现过滤,时间复杂度为O(|G|Q|).然后在图分区阶段,将查询图分区并记录分区大小,然后计算分区p的s(p),其时间复杂度为O(|Vq|Eq|).最后建立L层“零”索引并压缩,进一步计算图编辑距离的精确值,因此本文算法的时间复杂度为O(|Q|L(O(|Vq|Eq|)O(|G|Q|).由于要对查询图分区并建立索引,因此本文算法的空间复杂度为O(L|P|Q|),其中|P|表示分区的数量.实验结果与分析数据集本文在个数据集上进行实验,验证Z I n d e x算法的性能,并从每个数据集中随机选取个数据图组成查询图集合Q.统计信息如表所列,各数据集的详细介绍

42、如下.)A I D S):来自N C I/H I N发展治疗项目的病毒筛选数据集,用于发现艾滋病病毒.该数据集由个化合物组成.)I MD B MU L T I):一个具有实时可视化分析功能的交互式数据和网络数据存储库.本文选取其中个数据C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 图用于实验.)G R A P HG E N):一个合成图生成器,可用于创建大量含有标签的数据图.本文使用该合成图生成器生成个数据图.表数据集的统计信息T a b l eD a t a s e t ss t a t i s t i c

43、 s数据集名称数据集规模平均|V|平均|E|A I D S I MD B MU L T I G RA P HG E N 实验环境本文实验的运行环境为I n t e l(R)C o r e(TM)i C P U GH z,内存为 G B,使用M i c r o s o f tW i n d o w s 位操作系统.开发环境为V i s u a lS t u d i o ,开发语言为C.)h t t p s:/w w w c s e u s t h k/g r a p h g e n 评估指标本文实验中,编辑距离阈值使用范围设置为,并从以下个方面进行实验评估.)过滤能力分析:本文使用平均候选集大小

44、|C|、准确率a c c和召回率r e c a l l来评估层级过滤机制的有效性和准确性,定义如下:|C|qQ|Cq|Q|()a c cT PTN|G|()r e c a l lT PT PFN()其中,|Q|表示查询集大小,|Cq|表示查询图q的候选集大小,T P|CR|,T PTN表示被判断正确的数据图的个数,FN表示被错误过滤的数据图个数.本质上,通过过滤条件的数据图越少,即|C|越小,则过滤性能越好.)“零”索引构建代价:包含索引构建时间与索引大小.)查询响应时间T:表示系统对查询请求做出响应的时间,是衡量图相似性搜索算法的重要指标之一.其定义如下:TTp i n d e xTf i

45、l t e r|C|Tg e d()Tp i n d e x|LiZi|(Tc o m p r e s sTP)()其中,Tp i n d e x是基于扩展概率的查询图分区时间以及构建“零”索引的时间开销,Tf i l t e r是层级过滤产生候选集合所用的时间,Tg e d是图编辑距离的计算时间.)可扩展性:通过讨论算法在不同规模数据集上的候选集大小和查询响应时间的变化趋势来说明算法的可扩展性.实验分析为更好地验证Z I n d e x算法的性能,本文选取现有的主流算法P a r s 和ML P a r t i t i o n 作为对比算法,在上述个不同规模的数据集上进行实验验证.为保证实验

46、的公平性,避免偶然因素,本文在每个评估指标下各执行次查询计算,取平均值作为最终的实验结果.过滤能力分析为验证本文层级过滤机制的有效性和准确性,分别使用候选集大小|C|、准确性a c c和召回率r e c a l l作为评估指标.首先验证有效性.如图所示,测试了|C|在不同阈值下的变化情况.其中横坐标表示阈值大小,纵坐标表示候选集中数据图的数量.根据式(),经过次查询计算显示,在所有数据集上,随着阈值的增加,候选集逐渐增大,有时甚至约等于整个数据集.由图可以看出,在不同数据集上,Z I n d e x算法得到的候选集最小,约为ML P a r t i t i o n候选集的,其次是ML P

47、a r t i t i o n,候选集最大的是P a r s算法.并且随着编辑距离阈值的增大,Z I n d e x算法的候选集增长速度明显比ML P a r t i t i o n和P a r s慢,这表明Z I n d e x算法可以更大力度地精简候选集,减少验证阶段图编辑距离的计算次数,避免了许多无效的图编辑距离计算,验证了Z I n d e x算法层级过滤机制的有效性.(a)A I D S(b)I MD B MU L T I(c)G RA PHG E N图不同数据集中算法的平均候选集大小F i g A v e r a g ec a n d i d a t es e t s i z eo

48、 f a l g o r i t h m so nd i f f e r e n td a t a s e t s其次验证准确率和召回率.本部分实验固定阈值,分别统计P a r s,ML P a r t i t i o n和Z I n d e x算法产生的候选集大小|C|,然后对候选集中的图精确计算编辑距离,统计不在编辑距离阈值内的数据图个数,根据式()和式()计算过滤算法的准确率a c c和召回率r e c a l l.如表所列,Z I n d e x算法得到的a c c和r e c a l l均略高于P a r s和ML P a r t i t i o n,其a c c最高可达 ,表明Z

49、I n d e x算法可以在保证准确性的前提中得到较优的过滤效果.邱珍,等:高效低索引的图相似性搜索算法表不同数据集中种算法的准确率和召回率T a b l ea c ca n dr e c a l lo f t h r e ea l g o r i t h m so nd i f f e r e n td a t a s e t s(单位:)数据集P a r sML P a r t i t i o nZ I n d e xA I D Sa c c r e c a l l I MD B MU L T Ia c c r e c a l l G RA PHG E NA c c R e c a l l

50、 “零”索引构建代价分析Z I n d e x算法主要从两个方面分析索引构建代价:索引空间占用和索引构建时间.本文在编辑距离阈值的情况下,测试了不同编码算法下“零”索引的空间占用情况,实验结果如图所示.图中,N代表编码之前的索引大小,U和E分别代表采用一元编码算法和一阶指数哥伦布编码算法时的索引大小.实验结果表明,在不同数据集上,采用一阶指数哥伦布编码算法具有较好的压缩效果,索引被压缩至原来的左右,能更好地体现“零”索引的性能.因此,本文实验将选取一阶指数哥伦布编码算法作为Z I n d e x的编码算法.图不同压缩算法下的索引占用空间情况对比F i g C o m p a r i

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 高效索引相似性搜索算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。