一种面向多源高频强时序的数据集分析系统_陈雪梅.pdf
《一种面向多源高频强时序的数据集分析系统_陈雪梅.pdf》由会员分享,可在线阅读,更多相关《一种面向多源高频强时序的数据集分析系统_陈雪梅.pdf(5页珍藏版)》请在咨信网上搜索。
1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering250参考文献1 秦记峰,任东海.人工智能课程实践教学改革探讨和研究 J.计算机教育,2019(10):12-15.2 王海涛,宋文,王辉.一种基于 LSTM 和 CNN 混合模型的文本分类方法 J.小型微型计算机系统,2020,41(06):1163-1168.3 路遥,任晓霞,侯静,等.新形势下高校网站群建设与服务管理探究以北京大学为例 J.实验技术与理,2020,37(9):32-34.4 侯静,邓可君,刘福东.CMS 在高校网站
2、群建设中的应用 J.实验技术与管理,2011,28(04):220-222.5 黄春梅,王松磊.基于词袋模型和 TF-IDF 的短文本分类研究 J.软件工程,2020,23(03):1-3.6 蒙梅.面向网络教育新闻文本的区域分类方法研究 D.西安理工大学,2019.7 曾小芹.基于 Python 的中文结巴分词技术实现 J.信息与电脑(理论版),2019,31(18):38-39+42.8 唐琳,郭崇慧,陈静锋.中文分词技术研究综述J.数据分析与知识发现,2020,4(Z1):1-17.9 黄春梅,王松磊.基于词袋模型和 TF-IDF 的短文本分类研究 J.软件工程,2020,23(03):
3、1-3.10 张小川,于旭庭,张宜浩.一种改进的向量空间模型的文本表示算法 J.重庆理工大学学报(自然科学),2017,31(01):87-92.11 张扬武,李国和,王立梅,等.一种基于 PCA 的文本特征混合选择方法 J.计算机应用与软件,2019,36(10):23-29.作者简介李凯(1989-),男,湖北省武汉市人。硕士学位,工程师。研究方向为信息系统开发与管理等。毛文卉(1991-),女,湖北省武汉市人。硕士学位,工程师。研究方向为大数据管理等。孙晶晶(1991-),女,湖北省武汉市人。硕士学位,工程师。研究方向为云计算等。刘雅琴(1987-),女,湖北省武汉市人。硕士学位,工程师
4、。研究方向为信息系统开发与管理等。吴驰(1976-)(通讯作者),男,湖北省武汉市人。硕士学位,高级工程师。研究方向为信息化管理。随着信息化技术的迅猛发展、硬件技术的革新以及软件技术的日新月异,逐渐产生越来越多的海量数据,而数据标签也随之出现了高频、强时序、多源等特点。高频数据指数据采样间隔短,本文提及的高频数据其采样周期在百微妙级别。时序性数据1是指既关注不同事件的先后次序关系,又关注不同事件之间的时间间隔。强时序性数据即表明对不同事件的先后次序以及事件之间的间隔精确度有较高要求。多源数据是指数据来源多样化,数据维度多样化。复杂场景下无人机群作业时,往往涉及到多端、多源、多目标数据的情况,需
5、要处理的数据也随着日益丰富的载荷类型、链路类型、飞机类型等变得更加复杂,而每种设备的数据在整体系统中都一种面向多源高频强时序的数据集分析系统陈雪梅娄尚郗小鹏王泓淼(天津航天中为数据系统科技有限公司、天津市智能遥感信息处理技术企业重点实验室 天津市 330301)摘要:本文针对复杂场景下无人机群作业,涉及业务系统多,数据维度多,数据实时性强的特点,导致历史数据回放分析无法精准满足实际场景复盘的需求,进而提出一种基于 BCT 的数据集分析系统,包含自定义 BCT数据集定义、数据集交互、系统架构设计、数据处理流程。经过实际项目长时间的拷机测试,在数据全局性、数据复盘准确率、数据异常定位、数据时序拟合
6、性方面,均取得高精度的运行。关键词:高频;强时序;多源;BCT 数据;数据分析系统数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering251有其独特的强时序性,在将整个系统作为分析对象时,多源数据又具有全局强时序性。为了解决复杂场景下,多业务系统耦合交互,数据维度多,数据实时性强,难以高效的进行高质量历史数据回放的痛点。本文提出一种面向高频多源强时序性数据集的分析系统。经过实际项目长时间运行,极大提高整体系统的运行质量,极大缩短外场运维的时间,对项目的长时间稳定运行提供坚实保障。1 BC
7、T数据为了高效分析高频性、多源性、强时序性特点的数据集,本文着重考虑了历史数据回放的数据基础,对实际作业中的数据存储格式和机制进行深入分析和研究,提出了一种自定义的数据协议格式 BCT。BCT 数据协议采用三层次协议,即 B 层、C 层以及 T 层协议。其中B 层为纯字节形式存储的以帧为单位的实时数据流,并添加自定义帧头 0 xED、0 xDE 以及帧尾 0 xEE。C 层数据协议为帧级索引,采用字节的形式进行编码存储,每一帧数据的索引字段包括时间戳2、偏移量、数据标识符、帧计数、帧长度、数据类型、数据源。T 层数据协议为全局索引文件,采用字符的形式进行编码存储,主要包含分段存储信息,每一个分
8、段存储时跨文件的索引记录,其索引字段包括时间戳、数据标识符、开始时刻的帧计数、结束时刻的帧计数。采用 BCT 数据格式,B 层数据存储能满足高频数据存储的需求,C 层以及 T层数据在一定程度上满足了强时序性以及多源性数据在后续分析过程中的高匹配度要求。另外,在数据容错性方面,采用字节形式存储的实时数据,存储文件体积较小、数据存入和取出都是按字节形式,不容易出错,并且索引和字节两个文件能够互相验证。另外,两级索引文件能够在数据回放进度控制中提供强有力的速率控制精度,数据回放匹配度的保证。1.1 数据的基本定义1.1.1 B 层数据基本格式B 层数据存储时不需要区分数据源,均采用数据字段添加固定帧
9、头和帧尾的方式,进行数据流按序存储。B 层数据的基本格式如表 1 所示。B 层数据是对原始多源数据的记录,在存储过程中,对多源数据进行无差别存储,均采用 0XED 和 0XDE 这两个字节作为帧头,以 0XEE 作为帧尾进行存储。数据域存储实时的变长字节流数据。1.1.2 C 层数据基本格式C 层数据以帧为单位的索引文件,在存储模块中,对不同来源的数据进行帧级别的存储,作为帧数据的索引文件。综合考虑数据的强时序性、多源性,自定义如下的 C 层数据基本格式。表 2 C 层数据基本格式定义中,帧头 HEAD 使用 0XDD 和 0X70 这两个字段,同时也支持自定义。DATE 字段表示时间戳,设定
10、为长整型数据,主要是将QDataTime 转化为长整型数据,精确到 ms 级别。FLAG字段的设定充分考虑文件存储的粒度,来切片化数据存储,并进一步区分为索引帧数据和文件数据,0 表示存储每帧数据的信息,1 表示存储分段时刻的文件信息,需注意在分段时刻,需要同时写入最后一帧数据,以及分段时的文件信息。OFFS 字段为当前帧距离文件首位置的偏移量,主要是为后续快速回放提供帧级保障。表 1:B 层数据帧自定义表 2:C 层数据基本格式定义数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering2
11、52LENT 字段表示数据类型的帧长度,主要是确保进一步提高读取文件数据存入缓冲流的效率。STYL 字段和ORID 字段的设定能够快速匹配数据推送不同的数据池3以及将其推送到相应的通信线程池,并通过前台界面自定义设定进行联动,TAIL 字段使用 0XEE 字节作为帧尾,同样支持自定义。1.1.3 T 层数据基本格式T 层数据以文件为单位,为了响应高频数据的存储和回放分析速率,经过长时间拷机测试,得出最优化的文件存储粒度。本系统中,文件存储粒度为 200M,即以200M 为单位进行数据存储,将此数据纪录在 T 层数据文件中,每个文件信息独占一行,按字符编码,以字符流形式存储。T 层数据的格式定义
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 面向 高频 时序 数据 分析 系统 陈雪梅
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。