海量数据分布式存储技术研究.pdf
《海量数据分布式存储技术研究.pdf》由会员分享,可在线阅读,更多相关《海量数据分布式存储技术研究.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 7 期100计算机应用信息技术与信息化海量数据分布式存储技术研究魏 彬1WEI Bin 摘要 随着计算机技术的不断发展,互联网业务也在逐渐地扩大,海量用户纷纷涌入到网络中,使得网络系统数据存储空间日益增大。然而海量数据的存储容量往往同存储性能是相反的,传统的数据库在面对海量数据时早已不堪重负,渐渐地就出现了扩展性能差、网络延迟、效率低下等问题。基于此,就车联网海量数据的分布式存储处理技术为研究方向,通过详细分析,构建出一种基于传统数据库存储模式的分布式存储技术,通过仿真实验测试后表明,该技术能够有效解决现有问题,具有一定的参考意义及推广价值。关键词 海量数据;分布式存储;稳定性
2、 doi:10.3969/j.issn.1672-9528.2023.07.0251.咪咕音乐有限公司 四川成都 6100000 引言互联网时代的到来,使得海量数据的处理和检索变得日益复杂起来。要实现海量数据的存储,不仅需要具备超高速网络基础设施,同时还需要能够对海量信息进行处理计算的存储平台1。为此,分布式存储技术便应运而生。分布式存储能够有效缓解海量数据带来的压力。基于物联网时代高速发展的背景下,网络中数据量在日益增长,而分布式存储的作用价值就能够很好地体现出来。所以,研究分布式存储算法,有着极其重要的现实价值和意义。1 系统需求分析(1)由于传统数据存储无法满足现目前互联网发展需要,进而
3、也就无法解决容量扩展和负载分布等问题。同时,也不能仅用单独的机器来进行海量数据存储,一旦超出机器负载,将会造成数据流失、系统崩溃,所带来的损失是无法预测的2。(2)海量的车辆网数据在不断地增加,传统存储系统内部容量已经达到饱和状态,持续地增加的数据只会导致系统查询速度延迟、卡顿,同时随着用户不断地进行数据查询,极大程度上地会导致程序死机。(3)当前车辆网受众群体多以年轻人为主,所以功能需求方面也越来越多样化,这就意味着对存储系统的运算能力有了更高的要求。因此,根据上述存在的问题,本研究首先需要对存储系统进行相关需求分析,系统需求分析主要包含基本需求以及应用需求两大板块3。首先,针对基本需求分析
4、而言,又分为了数据预处理、数据查询以及数据分析等三部分,如图 1所示。1.1 数据预处理由于难以进行车联网信息数据的大规模检验,因此为确保能够对该数据进行有效分析,首先就需要对数据进行预处理工作。该项工作包含了数据清洗与数据筛选这两大部分。其中,数据清洗的作用是指在信息数据传输过程中,有可能会受到某些外部环境因素的干扰,从而导致数据出现质量问题4。而数据筛选本身就具有相关的信息数据特征。由此可见,针对车联网信息数据得处理过程而言,可能会出现一些数据分析的需求,所以相关技术人员在进行操作的过程中,需要根据这些需求将同种类型的信息数据组建成全新的信息数据。1.2 数据查询海量的车联网信息数据查询功
5、能是系统中十分重要的部分。当驾驶人员行驶过程中,车联网用户需要查询各种交通信息,如车速、路段情况以及车流量等5。通过采用简捷、快速地一键查询功能,可以使用户更加快捷地了解到所需要的交通信息,也进一步提高了系统海里数据查询的效率和准确度。1.3 数据分析如果只是从海量的信息数据中获取用户所需要的信息数据,那么用户也仅仅只能获取到单一的地理位置信息、车速等信息。所以,为了满足现代化用户们的需要,也为了能够获取到更具价值的信息数据,对海量的信息数据进行分析是十分有必要的6。其中,车联网信息数据分布式存储系统也需要进行相应的分析,并且必须要满足数据统计、分析以及图 1 数据预处理图 2023 年第 7
6、 期101计算机应用信息技术与信息化建模等。分布式存储系统的应用需求主要是在充分了解到系统中海量用户的基本需求后,然后对系统的运行以及应用进行详细分析研究。本研究是主要是该系统的稳定性、高效性以及拓展性这三方面进行深入探讨。1.4 稳定性本系统可以支持各种数量类型的自动备份和自动存储功能。在数据存储和备份数据的上传过程当中,需要确保上传数据始终保持稳定性状态,同时做到当数百个服务器节点中的只要出现一个故障,系统就能及时地识别出来,而整个系统仍然可以继续运行,并且不会影响任务。1.5 高效性随着车联网数据的不断增加,所以必须要求分布式存储系统具有一定的扩展性能,使其能够在现有的节点基础之上,能够
7、将系统中的节点数量拓展到成百上千节点,以此达到降低系统运行成本的目的,进一步提高该系统的分布式存储能力。1.6 拓展性本研究系统所具有的高效性能主要体现在对系统中的海量数据进行快速、高效处理以及后续的分析上。此外,为了能够确保可以按照信息数据类型的不同需求,能够制定出一种完整的、不同类型的数据处理方案,通过利用不同类型的工具,对所需要解决的问题进行逐一分析7。最后,针对数据分析的结果进行可视化处理,车联网用户与服务器之间的交互方式就变得更加简单方便。2 系统架构本研究首先以传统车联网数据存储系统为基础,针对该系统目前所面临的问题、数据特点以及系统需求等多个方面。此外,还需要结合现代化的数据预处
8、理技术,然后再进一步构建出分布式存储技术的处理系统,具有方案如下:首先,采用分布式集群的部署方法,能够极大程度上地解决因节点数据导致的故障问题,同时还包括了一些关于数据分配上的问题,进一步防止因系统资源不足而产生的系统程序互相干扰等问题。其次,数据存储是以 HBASE 数据库为基础进行的海量数据存储,进一步设计出了众多不同类型、不同数据的查询8。除此之外,采用协调服务能够有相关的数据库进行实时监测,并且还需要确保整个系统只存在一个 NameNode 和HMaster,从而形成车联网海量数据存储层,进一步确保系统中的信息数据能够得以安全、及时地存储。最后,Spark 并行计算框架作为数据处理层部
9、署在Hadoop 分布式集群上,能够有效提升本系统的运行效率以及数据的计算速度。同时,本系统的应用也可以在线支持其他应用场景以供用户选择。2.1 整体设计本系统的整体设计架构分为存储层、处理层以及应用层等三个部分。其中,针对海量信息数据的采集主要包括有:GPS 系统、车载系统、车载摄像头等9。因此,本文所研究的重点在于系统的数据存储以及数据处理这两方面。首先,利用 TFS 集群部署以及资源管理系统进行数据统一化处理;其次,系统中的信息数据存储是由 Hive 和 HBase组成的,二者分别代表离线存储和在线存储10。后者 HBase数据库,会定期备份系统中所有的存储数据,然后再将这些信息数据存储
10、到 TFS 当中,而数据也能够从前者 Hive 的中进行有效读取,最后再一同纳入到 TFS 表中;最后,使用基于内存的并行化计算框架的 MapReduce(MR)来作为该系统数据处理层是最合适的,其中应用层的主要作用是能够对已经存储的信息数据进行查询,当然也包括了对海量车联网用户行为、用户信息进行分析等。2.2 系统实现2.2.1 基于 TFS 的分布式文件存储系统由于 TFS 是一个具有高性能、低成本等特征优势的分布式存储系统,因此本研究的海量车联网数据应用该系统十分合适。本文采用分布式存储数据分片,能够有效解决了现有存在的单点故障问题,进一步确保车联网分布式存储处理系统的稳定性。此外,整个
11、系统的集群是根据不同的机器上的不同种节点组合而成的。本研究一共采用了机器,同时部署了多个不同类型的节点信息11。其中,客户端与NameServer节点相连,而 DataServer 节点与交互系统相连。NameServer 节点的作用主要是用于对系统中的集群数据进行动态化管理与维护,而DataServer 节点的作用是用于存储实时数据和读写。其次,为了能够有效解决系统出现的单点故障现象,最有效的方式是让 NameServer 节点处于活跃状态,而节点就处于休眠状态。这时的 NameServer 节点就主要负责去处理集群中海量车联网用户的所有系统操作,而处于休眠状态的是不支持用户服务。如果集群中
12、因为机器死机或者系统更新升级而无法正常使用的,就必须要对故障进行快速转移处理,从而能够有效避免因为该问题导致影响系统正常使用。再者,为了使系统能够在两者不同状态下的信息数据能够保持一致,storm 提供了一个共享存储系统,通过利用三种不同的信息数据构建成一个集群,从而能够使系统在两种不同状态下的 NameServer 节点信息,能够始终保同样的状态。尤其是在遇到紧急情况之下,二者间也能够快速进行状态切换。因此,本研究 TFS 的数据能够根据不同的数据块,再经过数据备份之后,分布存储在不同的 DataServer 数据库中。2.2.2 HBase 分布式数据库与视频、网页等数据不同,HBase
13、分布式数据库所收集到的海量的车联网数据通常情况下是以半结构化数据为主,其中主要包括由文档信息、地理位置信息、GPS 卫星图像信息等多种不同类型的信息数据12。所以,现代化车联网信息数据存储技术无法使用过去传统的存储模式,为了能够有效提高系统的存取效率,笔者从多维度综合分析了该信息数据2023 年第 7 期102计算机应用信息技术与信息化的相关特点,然后结合 TFS 与 HBASE 数据库,进行了协同存储。本文所设计的车联网信息数据分布式存储系统中,数据存储层主要采用的是两种不同的数据库类型进行协同存储。其中,该系统会定期将车联网中所有的离线数据进行更新检查,并将所有的信息数据存储到对应的 TF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 数据 分布式 存储 技术研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。