基于有序聚类方程的数据相似性精准识别仿真_张媛.pdf
《基于有序聚类方程的数据相似性精准识别仿真_张媛.pdf》由会员分享,可在线阅读,更多相关《基于有序聚类方程的数据相似性精准识别仿真_张媛.pdf(5页珍藏版)》请在咨信网上搜索。
1、基金项目:黑龙江省自然科学基金资助项目(LH2022A023)收稿日期:2022-04-20 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0402-05基于有序聚类方程的数据相似性精准识别仿真张 媛1,张慧钧2(1.黑龙江工业学院现代制造工程学院,黑龙江 鸡西 158100;2.延安大学数学与计算机科学学院,陕西 延安 716000)摘要:网络环境中海量数据具有明显复杂度,存在着大量结构化、半结构化和非结构化的数据,数据块长度与位置易产生较高相似性。当前已有的相似性数据识别属于密集任务型方法,会占用大量的内存空间。为了进一步提高
2、数据利用率,降低数据冗余度,提出基于有序聚类方程的数据相似性识别建模仿真的方法。利用小波技术和重复数据删除技术对网络数据降噪,通过预设数据集中心,完成网络数据特征向量的优化提取。基于此,从时间、空间双维度分析特征向量的相似度,以点云分类网络和有序聚类方程为基础,构建数据相似性识别模型。实验结果表明,利用研究方法识别数据相似性时,其归一化互信息值为 0.12,说明上述方法的准确度较高,针对不同规模的待识别数据,研究方法可在 0.6s 之内完成全部数据相似性的识别。以上实验所得数据证明了该方法具有较高的应用准确率和效率。关键词:小波技术;重复数据删除技术;特征向量相似度;点云分类网络;有序聚类方程
3、中图分类号:TP391 文献标识码:BAccurate Recognition Simulation of Data SimilarityBased on Ordered Clustering EquationZHANG Yuan1,ZHANG Hui-jun2(1.School of Modern Manufacturing Engineering,Heilongjiang University of Technology,Jixi Heilongjiang 158100,China;2.College of modern Manufacturing Engineering,Yanan Un
4、iversity,Yanan Shannxi 716000,China)ABSTRACT:Massive data in the network environment has obvious complexity.There are many structured,semi-structured and unstructured data.The length and location of data blocks are easy to produce high similarity.At pres-ent,the existing similarity data recognition
5、is task intensive methods,which will occupy a lot of memory space.In or-der to further improve data utilization and reduce data redundancy,a simulation method of data similarity recognitionbased on ordered clustering equation was proposed.First,wavelet technology and data deduplication technology we
6、reused to reduce the noise of network data,and then network data feature vectors were optimized and extracted by pre-setting the data set center.On this basis,the similarity between feature vectors were analyzed from the dimension oftime and space.Based on the point cloud classification network and
7、ordered clustering equation,a model of identif-ying data similarity was constructed in the end.Following conclusions can be drawn from the experimental results.When the proposed method was adopted to identify data similarity,the normalized mutual information value is 0.12,indicating that the accurac
8、y of method is high.For different sizes of data to be identified,the method can completethe identification of all data similarity within 0.6s.These experimental data prove high application accuracy and effi-ciency of method.KEYWORDS:Wavelet technology;Deduplication technology;Eigenvector similarity;
9、Point cloud classification net-work;Ordered clustering equation2041 引言呈现爆炸式增长的网络数据不仅增加了网络中心空间的冗余度,还加重了系统运行负担,加长了网络目标信息的访问时间1。为了优化网络环境,减少网络中实际存储的数据量,降低网络运行成本和能量消耗,研究人员以聚类网络相似数据为目的,展开对数据相似性识别方法的研究。李贺2等人通过 Word2vec 表示学习方法分析数据内容的特征向量,并将特征向量输入以 K-means 聚类算法和 LSA模型为基础构建的数据聚类模型中,该模型通过探索特征向量间的关联度,实现数据相似性识别,
10、该方法存在识别准确率低的问题。陈科山3等人通过典型洞库类目标筛选模型获取海量数据中主要特征表述清晰的样本数据,并将其与局部自适应阈值生成算法结合,使样本数据的灰度特征在目标轮廓识别方面得到全面优化,最后将特征优化成功的样本数据输入目标判别算法中,实现数据相似性识别。洪征4等人通过网络流量截获方法获取应用层协议数据,并根据协议数据负载特征将其划分成多组以关键特征为单位的簇族,通过将各簇族输入 AGNES 层次聚类算法中,实现数据相似性识别,上述两种方法存在识别效率低的问题。相似数据识别方法是对给定的一对数据序列计算两者之间的相似度,从而度量数据之间的相似程度,在信息科学领域具有非常重要的应用价值
11、。为进一步优化此方法应用下的数据存储空间适应能力以及识别的准确性,提出新的基于有序聚类方程的数据相似性识别方法。2 数据预处理2.1 降噪存储于网络中心空间的数字化信息由于受到多种外界因素的干扰,常存在含量较高的高斯白噪声5。高斯白噪声作为数据应用领域常见的污染源,其对数据的恶劣影响并不仅限于降低数据收敛速度,还能通过随机添加或消除频域信息的方式,使数据释放畸形信号。为了优化操作对象,获取可信度更高的数据相似性识别结果,需要首先利用小波技术去除数据噪声。小波技术是结合了改进小波包分解6、小波阈、小波变换的复合型噪声消除技术,其基本降噪思路参考傅里叶变换7,即通过在原数据基础上添加足以重构高斯白
12、噪声的滤波,实现噪声多频域范围内的有效抑制。小波技术消除数据噪声的具体过程可以分为数据分层、数据排序和数据降噪三个步骤。1)数据分层未经量化的数据通常以 IGES 文件格式存储于网络中心空间,且空间内数据拓扑结构混乱,不利于小波降噪处理。在空间边缘投放一条固定轴,且每隔两个坐标间隔扫描一次空间平面,使网络中心空间在非人为因素的作用下转变为坐标间隔统一的分层结构,且各层级数据总和不超过整体含量的 10%。与网络中心空间直接接触的固定轴并不是由某一方向延伸的随机坐标轴,而是在统计数据集中程度的基础上,由X、Y、Z 三个方向延伸并产生交集后,从交集点坐标发出的坐标轴。这种方向累加的方式不仅提高了分层
13、扫描的精确度,还降低了固定轴的误判率。固定轴的数学描述公式如下:T=2sin 2ni=1(yo-yi)+nj=1(xo-xj)(1)式中,2表示 X 轴线运动轨迹方程;sin 表示 Y 轴线运动轨迹;yo表示 Z 轴线运动轨迹;yi表示集中点坐标;xo表示坐标轴延伸时刻;xj表示坐标轴停止时刻。固定轴确定后,空间内数据分层工作正式开始。考虑到单位层级可能存在度量误差,从而影响层级数据总和与整体含量之间的等比关系,需要在固定轴扫描过程中添加一项阈值,起到限制固定轴扫描范围的作用。阈值限制固定轴扫描范围的数学表达式如下L=+0ki-2dk+l(2)式中,ki-2表示数据层数;l 表示固定轴杆长度。
14、2)数据排序在数据分层的基础上排列数据。由于各层级结构无论在数据量方面,还是在层片间拓扑关系方面均表现出真实、统一的趋势,因此任意层级的数据排序规律适用于全部层级。将待排序的层级结构视为三维空间坐标系中一张边界清晰的平面图,而其中数据则坐落于图中各个点状坐标。邻近坐标间的距离是判断数据是否符合顺序化要求的标准。利用准确性判断方法8获取邻近坐标间的距离,若该距离满足顺序化要求,则能够与小波技术结合,实现高斯白噪声消除。准确性判断方法的表达式如下M=Io+sin()(3)式中,Io表示初始拓扑顺序;表示邻近数据点坐标;表示距离测量误差。3)数据降噪数据降噪的具体过程如下:首先利用离散鲁棒滤波器9向
15、分层、排序整齐的原数据中添加足以重构高斯白噪声的滤波,然后将原数据与改进小波包分解结合,诱导滤波抑制噪声释放。整个噪声抑制过程在数据分层、排序的基础上进展高效,能够满足实际工程的硬性需求。离散鲁棒滤波器添加滤波的数学表达式如下K=f 2|-1(4)式中,f 表示滤波频率;表示参与降噪的原数据量。改进小波包分解的表达式如下H=z0,1|si sj|2z(5)式中,si表示小波重构系数;sj表示诱导条件;z 表示粗略信号频率。2.2 重复数据的删除重复数据过于密集导致空间冗余度过高也会威胁数据304相似性识别性能。为了创造良好的数据相似性识别环境,需要借助重复数据删除技术10二次优化空间内数据。重
16、复数据删除技术作为计算机应用领域内扩展数据存储容量,降低数据交叠率和信息冗余度的新兴数据优化技术,主要通过分块索引的方式减小空间数据占用量和网络传送流量负载。在识别相似数据时,庞大的数据规模不仅增加了一次识别过程的吞吐量,还延长了识别对象的访问时间。因此,在以识别数据相似性为任务目标的操作过程中,删除空间内重复数据是十分有必要的。重复数据删除技术的具体操作过程如下:首先根据数据重复定义择选空间中频繁出现的同属性数据,然后利用学习者模型过滤11。数据重复定义的择选条件包括写入与读出的 fid 域相同、RIDI 访问记录相同、chunkID 磁盘检索地址相同等,被判定为同属性的重复数据会在学习者模
17、型的作用下过滤。重复数据过滤模型为:G=1|w|rid(u)-rid(p)2(6)式中,w 表示数据滤重约束条件;u 表示重复数据判定流程的正确性;p 表示重复数据过滤开销。3 数据相似性识别模型通过构建聚类模型的方式实现数据相似性识别,优先提取数据的特征向量。经过降噪和重复删除的网络数据在特征值比重方面较为突出,有利于采取客观可靠的特征提取方法。3.1 提取数据的特征向量为了避免大规模网络数据在特征向量提取时产生误差,通过预设数据集中心,并把控提取范围的方式逐步提取网络数据的特征向量。在数字化信息领域,各种不同属性、不同特征值比重的单标数据由于存在不同的信息熵,因此其面对数据集预设中心时,并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 有序 方程 数据 相似性 精准 识别 仿真
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。