数据噪声识别及处理技术研究.pdf
《数据噪声识别及处理技术研究.pdf》由会员分享,可在线阅读,更多相关《数据噪声识别及处理技术研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、Industrial Technology Innovation1 数据噪声的概念与来源在统计学上,噪声指被测变量的随机误差或方差。它表示现实世界中事物特性的不完整和不一致性,反映到描述事物的某些特定的量值上,也就是对应的数据上。在原始数据中,噪声通常是由于在采集数据过程中采集方案的缺陷、操作过程的疏忽、记录数据的遗漏等原因造成的。未经过处理的原始数据是脏的、污染的,不能直接对其进行数据处理工作,要经过一些数据清理的预处理工作,才能得到可靠的数据来支持后期数据分析中的结论。2 数据噪声识别通过预先设计的方案采集来的原始数据经常会出现一些采集数据前未预料到的或者难以觉察的异常情况。例如,在实验过
2、程中突发的实验条件变化、实验器材的不稳定或者故障、观测人员的疏忽等,这些都会导致所得到的数据(特别是针对大量数据)中不可避免的出现异常值1。如果这些异常值未经处理就同正常值一同做模型和参数识别的分析工作,只会导致错误的结果。所以,在得到实验采集的第一手数据之后要进行原始数据的噪声识别工作,对那些异常数据进行预处理,以便接下来的处理分析工作的进行。2.1 数据审计工作数据审计指的是在经过分析数据后发现数据之间存在相关性联系,再利用这种相关性条件来寻找数据本身的偏差。例如,通过使用统计分析的方法发现数据之间的相关性,而后在通过聚类识别等手段判断离群点,检测出偏差数据。通常,要在将数据进行统一化处理
3、并判断数据是否对称的基础上,找到那些超过预期值区间的值,作为数据噪声。此外,数据审计工作还需从数据的空值性、连续性和唯一性等方面进行考察。其中,空值性规则针对的是说明性字符、问号字符、特殊字符或者指示性空值的使用和处理;连续性规则指的是对于数据的某一属性而言,在最高值(Maximumvalue)和最低值(Minimumvalue)之间没有缺失;唯一性规则指的是对某一参数属性的赋值必须唯一。2.2 低阶多项式滑动拟合法低阶多项式滑动拟合法(Loworderpolynomialslidingfittingmethod)是一种常见的噪声识别方法,这种识别方法具有科学性、使用性的特点。其中,原始时间序
4、列用表示,拟合多项式为p 阶自回归多项式如式(1)所示2:(1)利用(1)式来对观测值的数学期望进行预测。在统计学上,对于噪声点的判断是通过一定的置信水平的方式,并按照时间的顺序逐点计算,以及信息数据噪声识别及处理技术研究*杨良浩(福建水利电力职业技术学院交通工程学院,福建永安366000)摘要:按设计方案采集的数据通常存在异常数据,应统一化处理数据后进行数据审计、判断数据关系、确定噪声数据。通过 p 阶自回归多项式 值判断范数值是否在标定区间,通过分箱法最大值和最小值确定边界、离群点法检测异常数据、聚类分析法判断相似性进行数据集合,通过多维曲面回归法拟合函数值代替异常值。研究发现奇异值分解法
5、能反映特征值较大数据矩阵,小波分析法能剔除频率未知数据,自适应的免疫算法和相减去噪减谱法能抑制噪声数据。关键词:数据噪声;噪声识别;噪声处理中图分类号:TP391 文献标识码:A 文章编号:2096-6164(2023)03-0075-04*基金项目:2022 年度福建水利电力职业技术学院教科研课题,项目名称:乡村振兴战略下“四好农村路”发展水平研究,项目编号:YJKJ2203B。作者简介:杨良浩(1991-),男,安徽安庆人,硕士研究生,研究方向:交通信息处理技术。产业科技创新 2023,5(3):7578产业科技创新IndustrialTechnologyInnovation76Vol.5
6、 No.3。对于噪声而言,在该点的 值是远大于正常值,这时可以采用式(2)准则进行判断:(2)这种统计方法判断数据中存在的异常值,往往很高效,很快筛选出满足判断条件的部分数据1。但是,在实际应用中仍然存在部分异常值难以直接用数据处理的方式进行判断。当这种情况下,可以结合具体的数据的背景知识、交通领域专业知识、可靠的实际经验等方法进一步识别噪声数据(通常采用阈值来进行限定筛选),从而消除异常值4。2.3 分箱法分箱法(Pointsboxmethod)通常有均值法和中位数法。其中,均值法是用箱均值进行光滑,中位数法是用箱中位数进行光滑。具体而言,基于均值或中位数的分箱法就是在计算过程中将箱中每个值
7、都用均值或中位数值替代3。此外,分箱法计算过程中还需要定义箱边界,通常采用箱中的最大数值和最小数值为箱的边界。进一步而言,将箱中每个值都用边界值进行替换,可以进行箱边界平滑。在计算过程中,箱的宽度越大光滑效果越好。特殊的,若箱中数值区间范围固定,可以得到等宽的箱。2.4 离群点分析离群点分析通过分类的方式来检测那些远离数据群的点,使用这种类似值组成群或者“簇”。这样就能更加直观的看到那些离群点。在离群点分析中,聚类分析法是常用的一种分析方法。聚类分析法的具体做法是将数据划分为若干个组或者类,使得同一组或类中的数据高度相似。对于相似性的判断是根据数据描述属性的取值来分别的,通常采用距离来判断。根
8、据距离的不同,聚类分析能够形成聚类集合,在集合中的数据即相似或相邻的数据,在集合外的数据即异常数据。聚类方式使用这种方式能够直观的找到异常值。3 噪声数据的处理3.1 回归法回归法(Regressionmethod)是利用数理统计原理确定统计量,找到观察到的大量数据间的回归函数关系式,也即建立自变量和因变量之间的回归方程式。回归法通常是通过对大量数据进行深入分析和观察,对观察的数据进行统计回归,用回归法拟合的函数值与原数据进行比较,进而消除噪声数据。在回归法中,线性回归需要找到两个变量之间的最佳直线,使得可以通过一个变量的值来预测另外一个变量的值。而多元线性回归则是针对多个属性,其数据拟合会得
9、到一个多维曲面。回归分析法如式(3)、(4)、(5)所示:(3)(4)(5)3.2 奇异值分解法奇异值分解法(Singularvaluedecompositionmethod)滤波需到合适的滤波器,通常采用的滤波器有滑动平均滤波器、加权平均滤波器等,它们具有压制高频起伏的同时保留函数基本波形的特点,常用于平滑有噪声污染的数据。在奇异值分解法中假设对于,其时间间隔为,由该时间序列重构一个 m 维的相空间。设 yi为相点,t 为延滞时间,N 为相总数,奇异值分解法如式(6)、(7)、(8)所示:(6)(7)(8)令,对 M 进行奇异值分解 SVD(singlevaluedecomposition)
10、,有(9)式中,均为正交矩阵。由 于,S 的 阶 主 子 阵 为 对 角 阵。保留值较大的前 r 个奇异值,将后个奇异值置为,对做反变换,得到奇异值滤波后的M矩阵,对M矩阵数据求平均值,得到奇异值滤波后的数据。3.3 小波分析法小波分析法原理如图 1 所示,将采集的带噪信号77第5卷 第3期杨良浩:数据噪声识别及处理技术研究通过不同的频率段进行信号特征提取,在提取过程中可以将带有特征的信号噪声分为确定性噪声和随机性噪声。其中,频率范围固定的噪声称为确定性噪声,频率范围不固定的噪声称为随机噪声。对于确定性噪声可以利用小波变换特性进行过滤降噪,对于随机噪声,可以改变分辨率大小进行小波识别,删减该部
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 噪声 识别 处理 技术研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。