基于时空相关性的交通物联网缺失数据填补算法_梁庆.pdf
《基于时空相关性的交通物联网缺失数据填补算法_梁庆.pdf》由会员分享,可在线阅读,更多相关《基于时空相关性的交通物联网缺失数据填补算法_梁庆.pdf(6页珍藏版)》请在咨信网上搜索。
1、本栏目责任编辑:闻翔军本期推荐Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)基于时空相关性的交通物联网缺失数据填补算法梁庆1,付青坤2,田海安1,彭志浩1(1.中铁城市发展投资集团有限公司,四川 成都 610000;2.长安大学 信息工程学院,陕西 西安 710064)摘要:针对交通物联网中传感数据存在缺失问题,根据交通领域传感器空间布局具有线性分布的特征,以及感知数据在时间上的广义随机平稳特性,提出基于时空相关性的LIN_BP数据填补算法。当缺失数据个数为1时,利用空间相关性创建BP神经网络模型进行数据估计。当缺失数据为多个
2、时,首先,基于时域平稳性建立线性插值(Linear Interpolation,LIN)模型;随后将LIN模型的估计值与已知数据输入到BP神经网络模型,得到基于时空相关性的LIN_BP模型的估计数据。为了验证模型的有效性,对高速公路多个检测点的交通流量真实数据进行实验分析。实验结果表明,相比只使用单一属性的模型本算法的估计误差小、准确度更高、填补效果更好。关键词:交通物联网;缺失数据填补;时空相关性;线性插值;BP神经网络中图分类号:TP274 文献标识码:A文章编号:1009-3044(2023)18-0004-06开放科学(资源服务)标识码(OSID):0 引言随着以交通物联网为基础的智慧
3、高速的发展,通过全面感知道路基础设施、行驶车辆等交通参与方的数据,可有效开展面向安全和效率的主动智慧管控,为基于车路协同的无人驾驶提供技术支撑,提升交通运输的安全性、高效性和舒适性。然而在智能感知的过程中,一方面,由于智能网联汽车的数量快速增长,带来的海量数据传输和计算问题更加突出;另一方面,移动边缘计算的介入,车载移动端和路侧设备之间数据的无线传输占比增加,而由于车辆的移动性和传输环境的时变性,导致多径传输和多普勒效应也愈加突出。上述问题会使数据采集时存在缺失和误码的概率提高,然而由于部分业务具有严苛的实时性要求,不能采用出错重传机制,因此,在接收端对关键数据进行自主的前向纠错,重建缺失数据
4、将是必然选择。数据缺失主要来自两方面:一方面,传感器的故障会导致不定期的数据空白,这种缺失往往持续时间较长,很难用算法进行填补重建,不属于本文研究的范畴。另一方面,由于数据传输过程中的信道噪声,而导致的零星误码或缺失,可通过本文的方法进行数据填补重建,这是本文的研究内容。当前,数据重建技术分为时域、频域和空域三大类。对于时域重建技术,主要依据同一传感数据在时间序列上的相关性进行数据填补,文献1从已有数据中提取不同类型的数据基信号,并利用基于时间序列的线性关联映射重建缺失数据。文献2基于传感数据在一个嵌套滑动窗口内的相关性,提出一种数据流缺失恢复方法。文献3提出一种针对缺失数据的谱分析方法,通过
5、更新估算因子来修正时域重建算法,提高数据重建精度。文献1-3均利用了时域数据的随机平稳特性,适合数据变化不大的静态物联网领域。例如河道水位检测、交通基础设施的状态检测等。但对于车速、断面流量等和交通流密切相关的实时交通元素,数据虽然具有广义随机平稳特性,但时域变化剧烈,时域相干窗口较小,在此窗口内采集到的原始有效数据较少,提取的特征值往往离散度大,若加大插值窗口又会导致缓存数据过多,处理时延长,且数据的时域关联性呈时间选择性衰落,适用性难以保障。关于数据重建在空域中的研究,主要通过分析多个传感器在空间部署位置的相关性来提取传感数据的属性特征,进而估计缺失数据。文献4提出一种KNN算法,通过在特
6、征空间中寻找与缺失数据属于同一类的相邻K个样本,对其加权平均后估计并重建缺收稿日期:2023-04-06基金项目:陕西省地方标准项目(SDBXM 67-2020)交通运输物联网基本架构和技术要求;国家重点研发计划课题,高速公路车路协同系统架构与测试关键技术(No.2019YFB1600100)作者简介:梁庆(1981),男,湖南常德人,副高级工程师,本科,从事土木工程相关研究;付青坤(1998),男,山西吕梁人,研究生在读,从事交通物联网相关研究。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge
7、 and Technology 电脑知识与技术Vol.19,No.18,June 20234DOI:10.14004/ki.ckt.2023.0849本期推荐本栏目责任编辑:闻翔军Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)失数据。文献5将逻辑回归模型与多重插补算法相结合,但该方法仅适用于缺失率较低的情况。文献6则提出一种基于压缩感知的低秩数据重建算法,利用传感设备存在的空间相关性和数据的低秩特征,重建缺失数据,然而其低秩特征并不适合多类型混合接入的交通物联网采集系统。随着以机器学习为代表的人工智能算法的兴起,通过强大的计算
8、机算力,在交通大数据中提取非线性的时空属性特征,搭建多粒度的数据格式以及数学描述方法,重建缺失数据,已成为研究热点。文献7利用相邻传感节点的小波系数相关性,通过逆小波变换和时频回归模型来重建缺失数据,该方法精度高,但实现复杂度偏高。文献8利用逆向传播(Back Propagation,BP)神经网络对单一的交通流量进行预测,但并不适用于具有非结构化特征的交通物联网数据。在公路交通领域,机电设备的类型适中,空间部署呈线性分布,具有明显的空间相关特性,且感知对象聚焦于交通流、交通事件、气象等固定类型,但数据具有一定“定时漂移”特征,即“此时此处”的数据和“彼时彼处”的数据更具相关性。因此,本文通过
9、分析高速公路交通感知数据的特性,提出一种基于时空相关性的线性插值神经网络(LIN_BP)数据恢复算法,将时域和空域特征相结合来恢复缺失数据。1 基于时域平稳性的线性插值预处理目前,在公路交通领域中,在靠近传感器的感知接入层,仍然有较多非智能感知设备,例如输出电流信号的液位计,电压信号的压力传感器,这些设备有些部署无法进行有线传输的移动终端,有些是后装的感知设备,不具备有线传输条件,无奈采用无线传输方式。一旦数据接入路侧设备后,就会采用更加可靠的光纤有线传输。因此,本文重点针对因无线传输导致的数据缺失。由于无线传输环境的开放性和时变性,数据传输过程中经常会受到各种干扰和噪声的影响,例如车辆马达产
10、生的宽频干扰脉冲和毛刺噪声,这些干扰会导致信号传输出现连续的误码,而常用的卷积码加交织的信道编码技术,仅对零星的非连续误码有效,因此,有必要对数据进行预处理,将连续的缺失数据或异常数据位变为零星的单个孤立缺失数据位。对于多数输出模拟信号的传感器,在连续时间内采集到的非电量数值非常相近甚至相同。因此,可利用感知数据的时间相关性,构建线性函数来粗略估算缺失数据。该方法优势在于复杂度低,适合对时延敏感的实时性业务。线性插值的基本原理是:假设ti时刻的数据xi缺失,在其附近的tp和tq时刻的传感器数值为xp和xq,经过线性插值后的估计值为x?i=xp+xq-xptq-tp(ti-tp)(1)式(1)的
11、适用条件是仅有一个缺失数据,在多个缺失数据的场景中,就需要建立一个插值窗口,窗口尺寸为M,选取缺失数据ti时刻前后共M个时间点的数据 组 成 一 个 时 间 序 列 xi-M2,xi-m,xi,xi+m,xi+M2,其中xi是待求的缺失数值。将这些观测值从两端向中央,对称两两组合,形成M2对数据集 xi-M2,xi+M2 xi-m,xi+m xi-1,xi+1等,根据式(2)可得M2个插值组成的向量。x?i,m=xi+m+xi-m2(2)其中x?i,m是根据 xi-m,xi+m得到的插值,但由于该窗口内缺失数据不止一个,故实际得到的数据集小于M2对,此时,可根据“少数服从多数”的原则,设定初值
12、为0的Flag标志位,从最外侧的x?i,M2开始,和x?i,M2-1进行比较,若增加,Flag+1,反之,Flag-1,直到完成x?i,2和x?i,1的比较。最后,若Flag 0,x?i=arg maxm M2(x?i,m),反之,x?i=arg minm M2(x?i,m)。在上述算法中,Flag 0表示在本窗口内,数据变化的宏观规律近似为单调凸向上,反之,为单调凸向下。插值窗口尺寸M的选择至关重要,若取值太小,缺失数据点占比过高,容易受到周围噪声和毛刺的影响,影响插值的精度。若取值太大,计算复杂度升高,导致产生较大的处理时延。一般的经验原则是,在插值窗口内,缺失数据点占比不超10%,且与待
13、重建信号的中心频率成反比,频率越高,说明数据变化越快,时域相干窗口应越小。通过选择合适的窗口大小,对多个缺失数据进行预处理后,得到初步数据重建结果。在上述方法中,只是针对一个传感器在时域的时间相关性,同时由于选择窗口尺寸K时的两难顾虑,实际效果并不理想。因此,还应兼顾传感器在空间位置的相关性,进行时空二维联合处理。2 基于时空相关性的交通感知数据分析在交通物联网中,对同一物理量的检测通常采用多点布设传感器的方式,例如在一段公路上多个门架设备对车速,车流量的连续检测。这些传感器在同一时刻对各自负责的区域进行信号采集,由于部署在公路沿线的传感器位置存在空间相关性,数据也会呈现一定的相关性。若某个传
14、感器出现故障或受到强干扰,导致采集数据缺失,可通过相同时间不同点位的5本栏目责任编辑:闻翔军本期推荐Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)其他传感数据来估计缺失值。但这种相关性由于受到路面质量、交通流、交通信号控制等多方面的影响,交通流特征和环境参数并不是线性变化,很难用简单的线性解析数学模型来刻画,因此,需引入非线性的预测和分析手段。BP神经网络是一种智能算法,通过相当数量的训练找出模式与类别之间的内在联系,以隐性方式学习和存储输入-输出模式之间的非线性映射关系,因此,本文综合利用感知数据在时间和空间的相关性,建立基
15、于BP神经网络的数据重建模型,最后得到缺失数据的估计值。这里的时空相关性表现为两个方面:1)时域相关性。同一传感器在相邻时刻(相干时间内)采集到的数据之间存在的时间相关性,超出相干时间,数据之间的关联性明显下降。2)空域相关性。相邻传感器(相干距离内)在同一时刻采集到的数据之间存在的空间相关性,超出相干距离规定的空间范围,数据之间的关联性明显下降。图1为高速公路微波检测器的区间车流量的时空检测数据。横坐标表示采样时刻,也就是以该时刻为终点,过去一段时间内统计得到的车流量。纵坐标是检测点位,对应不同的空间位置,不同的几何外形表示不同的ABCDE传感器。观察矩阵图中数据发现,A检测点在时刻1的数据
16、(93),与B点在时刻2的数据(94)相关度更高。也就是说,沿对角线上的数据关联程度明显高于水平线和垂直线上的关联度。原因在于,不同传感器的部署位置不同,检测数据具有一定“定时漂移”特征,即“此时此处”的数据和“彼时彼处”的数据更相关,类似“绿波带”的交通流“流动”特性。时刻1DCBA检测点位80898396928685879593891029098969010712897948710413015923456E9384100125161156图1 时空二维车流量数据矩阵图2是同一路段内相邻5个检测点的车流量变化曲线,图中每一条折线对应一个检测点。这也是从另一个角度描述数据的时空关联性。对比图1
17、和图2,图1中对角线的斜率,图2中两条折线的平移间隔,都反映了该路段的平均车速。图2 相邻检测点车流量变化曲线图3是检测点车流量随时域统计窗口变化的曲线。可以看出,若统计窗口较小,此时段内通过的车流量不稳定,随机性更强,两个检测点检测到的车流量数据相差较大,但随着窗口的增大,数据趋于稳定,两个检测点的车流量数据差距越来越小,逐渐趋于相等。例如,在一天的统计窗口内,若两个检测点之间没有进出闸道,那么观察到的车流量几乎相同,此时的时域关联性对填补数据没有帮助。图3 基于时域统计窗口的车流量变化曲线图需要注意的是,数据的相关性不仅与车流量统计窗口大小有关,还与传感器的布设间隔有关。图4是在采样时间间
18、隔固定的条件下,不同的检测点采集的车流量随采样距离变化的曲线。图4 基于距离的车流量变化曲线图从图4可以看出,传感器布设间隔越大,车流量的相关性越小,当两个传感器的距离在2km以上时,A点和B点的车流量并没有明显的正相关。这是因为6本期推荐本栏目责任编辑:闻翔军Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)交通流量自身的弥散效应,随着检测点距离的增加,两处检测数据的关联程度会更低。3 基于时空相关性的数据填补算法由于数据之间不仅存在时间上的相关性,在空间上也存在一定的相关性,若使用单一的时域线性插值,对缺失多个数据或缺失较长时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 时空 相关性 交通 联网 缺失 数据 填补 算法 梁庆
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。