基于MapReduce物联网大数据处理框架设计.pdf
《基于MapReduce物联网大数据处理框架设计.pdf》由会员分享,可在线阅读,更多相关《基于MapReduce物联网大数据处理框架设计.pdf(6页珍藏版)》请在咨信网上搜索。
1、信息技术 年第 期基于 物联网大数据处理框架设计李 红 邱 凯(贵州电子商务职业技术学院 贵阳)摘 要:针对传统方法处理物联网中大数据时缺乏可扩展性提出了基于 的物联网大数据处理框架用于实现对各种形式的数据资源包括结构化、半结构化和非结构化数据的处理该框架为基于物联网的大数据智能应用提供了技术支持 使用 最近邻技术来清除噪声数据使用奇异值分解来降低数据的维数使用模糊 均值和基于密度的空间聚类的混合技术来处理噪声数据 实验结果表明所提出的框架具有较好的可扩展性和拟合精度在 活动数据集上的准确率为 关键词:物联网 大数据 奇异值分解 中图分类号:文献标识码:文章编号:():./.作者简介:李红()
2、女本科高级讲师研究方向为计算机网络及应用教学 ():.:引 言物联网是通过各种视图信息设备将物品连接到互联网的巨大网络其中所有可以单独寻址的对象都可以相互交换信息最终实现透视识别、定位、跟踪、监督和管理的目标 物联网的基本思想是将所有事物都连接到网络上事物间可以自动识别相互对话甚至可以在无人为干扰的情况下做出选择 从物联网的本质上看数据是从各种类型传感器收集的物联网上数据的特点为:规模巨大:物联网中包括大量的识别设备这些设备持续不断地收集数据使信息规模不断扩大互操作性:目前大多数物联网应用程序处于离线状态物联网需要完成数据分发以完成不同应用之间的数据共享多维性:多维性被认为是物联网的重要特征传
3、感器可以显示各种指针如温度、湿度、光线、重量等多维样本基于 物联网大数据处理框架设计 李红 等信息 当标准数据库框架无法处理非结构化数据时大数据应运而生 本文提出了基于 的物联网大数据处理框架 该框架能够在短时间内存储和检索大量数据 先从数据中清除噪声再使用 抽样和 作为数据约简技术在不丢失数据的情况下约减物联网中的大数据 此外还使用互信息算法检测属性之间的关系并预测语义聚类 最后使用基于 的 进行数据聚类以实现海量数据的存储和检索 方法论.是在独立系统上处理海量数据的编程模板 用户识别 函数后该函数处理一对键值以生成一组中间键值集 此外 模型还创建了一个 函数用于连接与同一中间键相关的所有中
4、间值 架构如图 所示图 架构 框架主要包括大数据集、函数、函数 函数接收大数据并生成中间结果 函数读取中间结果并发出最终结果 读取大数据集如图 所示使用具有 扩展的数据集存储数据 数据存储显示数据的存储对象 然后从数据集中选择特定变量的名称 所选变量的名称允许使用用户指定的变量用户可以使用预览命令检索数据 函数图 为 函数框图首先获取一个数据表其 中 的 变 量 由 数 据 存 储 模 块 中 图 读取数据框图 标记 然后 函数提取数据集的子集用于验证所选密钥的条件值图 函数框图 函数图 为 函数接收从 函数获得的子集结果并合并到一个表中 返回一个键和一个值图 函数框图.算法 算法是一种依赖于
5、密度的聚类技术 算法的工作原理如下:首先选取两个参数一个正数 和一个特征数 从数据集中选取一个点 如果 附基于 物联网大数据处理框架设计 李红 等近点的数量大于或等于 则 与其附近的点看作是一个“簇”然后以同样的方式通过检查新点来扩展这个簇 最后将点添加到聚类中.模糊 均值聚类()算法 算法是一种数据聚类方法 数据集被分类为 个聚类数据集中的每个数据点都与一个聚类高度相关距离聚类中心较远的数据点与该聚类的关联程度较低 该技术通常用于模式识别 模糊 均值聚类的算法步骤如下:首先计算聚类中心:()()然后根据隶属度矩阵计算目标函数:()最后更新隶属值:()()()其中 是大于 的实数为 在聚类 中
6、的隶属度为第 个 维测量数据为聚类的 维中心为质心是测量数据与聚类中心之间的相似性度量 按顺序将聚类中心移动到数据集中的右侧区域 聚类策略依赖于模糊行为特征转换的性质但不具有概率性.最近邻()算法在 算法中结果是对项目的估计该值是其 近邻估计的正常值 从查询示例到标记示例的欧氏距离为:()()()选择 的理想值最好首先查看数据较大的 值可以降低总体噪声根据最大距离对标记的示例进行排序并找到前 个相邻邻居在数据中搜索最可能的实例并比较每个训练样本得出预测值.奇异值分解()奇异值分解()接收定义为 的矩形矩阵其中 是 矩阵 表示数据 表示实验属性 奇异值分解定理为:()()()的列是左奇异向量 的
7、维数与 的维数相同 包含奇异值的行是右奇异向量 表示原始数据在矩阵为对角线的坐标系中的轮廓计算过程为:()()式中标量 为 的特征值 是 与 相关的特征向量 是 个特征向量所张成的 维矩阵奇异值分解的计算包括求 或 的特征值和特征向量 的特征向量表示 的列的特征向量表示 的列 中的奇异值是 或 特征值的平方根 奇异值是 矩阵的对角项并按降序排列 奇异值总是实数如果矩阵 是实矩阵那么 和 也是实矩阵 通过将小奇异值置零可以得到秩满足突出奇异值个数的矩阵估计 物联网大数据处理架构设计提出的方法包括两个主要阶段:数据预处理和数据处理阶段如图 所示 数据预处理阶段 首先进行数据采集即从不同传感器收集数
8、据集然后通过离群点检测和噪声去除进行数据清理再进行数据约简即使用 算法降低数据的维数从而减少数据处理的执行时间利用 抽样从数据集中选择一个随机样本以节省运行时间最后集成相关性和互信息的数据旨在确定属性之间的关系并检测语义聚类 处理阶段 使用基于 的 方法对数据进行聚类这是一种用于数据分发的标准编程模型可以在较长时间内提升大数据的性能.数据预处理数据预处理是将原始数据转换为合理信息的一种数据挖掘方法 在具体实践中真实信息经常是不充分的、相互冲突的、易泄露的并且包含许多错误 数据预处理通过数据清理、数据约简和数据集成来解决这些问题基于 物联网大数据处理框架设计 李红 等图 海量异构传感器数据处理方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MapReduce 联网 数据处理 框架 设计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。