基于自监督学习的交通数据补全算法_周楚昊.pdf
《基于自监督学习的交通数据补全算法_周楚昊.pdf》由会员分享,可在线阅读,更多相关《基于自监督学习的交通数据补全算法_周楚昊.pdf(14页珍藏版)》请在咨信网上搜索。
1、第 51 卷 第 4 期2023 年 4 月华 南 理 工 大 学 学 报(自 然 科 学 版)Journal of South China University of Technology(Natural Science Edition)Vol.51 No.4April 2023基于自监督学习的交通数据补全算法周楚昊1 林培群1 闫明月2(1.华南理工大学 土木与交通学院,广东 广州 510640;2.交通运输部路网监测与应急处置中心,北京 100088)摘要:区域高速公路网收费站数量众多,每日产生海量收费数据,但由于设备、网络等因素,部分站点数据传输存在延迟现象,在此情况下已传输的数据往往
2、不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测,文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法,该方法采用了基于注意力机制的时间序列模型(Seq2Seq-Att);然后使用自监督学习方式对模型进行训练;最后,以广东省高速公路网的80个收费站为例,验证方法的可靠性。结果表明:文中的数据补全方法能够灵活捕捉交通数据中的缺失情况,并根据数据自身的内在关联性,给出合理的补全值;该方法总体优于其他方法,且在不同缺失率下都有较好表现,总体MAPE约为17.7%、WMAPE为12.8%;在高缺失率情况下,该方法相比于其他补全方法有明显的优势。交通量预测结果表
3、明,使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。关键词:数据补全;自监督学习;交通流预测;机器学习;高速公路中图分类号:U491文章编号:1000-565X(2023)04-0101-14交通领域数据采集方式由传统的交通调查等逐渐向电子化、信息化的发展,推动了交通大数据的应用与发展。自动化数据采集很大程度上节约了人力成本,并且具备非常高的准确度以及较好的实时性,数据覆盖面也更广。但是,由于通信系统并不能做到百分百可靠,因此,数据在传输过程中难免会发生一定概率的丢失或者延迟,导致数据实时性受损,所以,为了能更好地将数据应用于下游任务,需要对这些交通数据进行相应的补全。根据
4、缺失机制,可将数据缺失分为3类,分别为完全随机缺失、随机缺失以及非随机缺失。对于交通流数据的缺失,可认为是完全随机缺失。对于这种缺失方式,最简单的方法就是直接删除1。但是,简单删除的方式降低了数据集的多样性,并且会影响后续的交通分析,因此,对于交通缺失数据的处理主要采用修复的方式2。目前,能获取的数据量越来越全面;因此,可以通过观测数据的具体分布来对缺失部分进行估计,较为典型的是期望最大化算法(Expectation Maximation,EM)3。韩卫国等4利用路口线圈检测器获取交通流量,使用多种方法对其进行缺失补全,结果表明,EM算法能在异常情况(恶劣天气、交通事故等)下,获得更好的补全效
5、果;但是,该方法需要大量的迭代计算,并且容易陷入局部最doi:10.12141/j.issn.1000-565X.220237收稿日期:20220427基金项目:国家自然科学基金资助项目(52072130,U1811463);广东省自然科学基金资助项目(2020A1515010349);华南理工大学中央高校基本科研业务费专项资金资助项目(2020ZYGXZR085)Foundation items:Supported by the National Natural Science Foundation of China(52072130,U1811463)and the Natural Sci
6、ence Foundation of Guangdong Province(2020A1515010349)作者简介:周楚昊(1994-),男,博士,主要从事交通大数据、智能交通等研究。E-mail:通信作者:林培群(1980-),男,教授,博士生导师,主要从事交通大数据、智能交通等研究。E-mail:第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)优。另一个常用的算法是源于贝叶斯估计的多重插补法(Multiple Imputation,MI)5。Li等6构建了一种基于链式方程的多重插补法,并应用于交通事故数据的补全,进而能够更好地运用其他统计方法对事故数据进行分析;不过,该方
7、法需要创建大量插补集来进行分析,因此,实时性会有所折扣。对于具备时间特性的交通流数据来说,不同时段的数据往往具有一定的关联性,基于这一点来考虑,线性插值7也是可行的方法;不过,该方法仅仅只是考虑前后的数据特征,因此,对于多维度特征以及高缺失率的情况,适用性不高。而另一种能够考虑不同时段数据关联性的方法则是K-最近邻算法(K-Nearest Neighbor,KNN)。秦一菲等8提出了一种使用距离占比来作为近邻值权重的改进KNN算法,并将其应用于交通流异常数据的修复;但是,KNN的K值选择,以及距离度量方式都会影响补全精度。Kaur等9构建了一种基于统计原则的回归方法对线圈检测数据进行修复,能够
8、以较低的计算复杂度获取不错的补全精度;但这种方式还是难以利用额外信息,如时间信息。随着计算机性能的不断提升,越来越多的研究开始使用深度学习模型来实现数据补全10-12。王力等13利用生成对抗网络(Generative Adversarial Network,GAN)对交通路网中的流量缺失进行补全或重构,能够有效应对城市道路中路段检测器覆盖不全或者设备损坏的情况;Liang等14构建了一种记忆增强的动态图卷积神经网络来捕捉路网交通流的时空信息,以达到补全数据的目的。由于深度学习模型会使用大量参数,但大多数方法对于参数的利用存在冗余,并没有充分利用参数以达到对各种缺失状况进行补全的目的。综合文献来
9、看,虽然有不少关于交通数据补全的研究,但存在以下两个问题:(1)目前的研究基本都是对于历史数据的补全,即大样本中部分数据出现缺失,如何进行填充;少有研究针对一些延迟数据进行实时补全。(2)对于交通数据补全,往往都是需要完成一些下游任务(如交通流预测),但少有研究针对补全数据是否能够良好地应用于这些任务进行检验。为了解决上述两个问题,本研究提出了一种基于自监督学习的数据补全方法,并将其应用在高速公路交通量补全,然后使用补全数据进行流量预测。1基于自监督学习的数据补全模型1.1交通延迟数据目前,广东省有上千个高速公路收费站点,其中,经过高速公路的每辆车的行程都会被收费系统记录;但是,由于某些收费站
10、点的数据传输到数据中心有延迟,导致从数据中心获取到的一些时段的统计数据(如交通量)会有所缺失(这些数据都会在一定时间后传输完成)。图1详细展示了数据流动的过程。从该图可以看出,数据延迟是由于高速公路部分路段收费中心传输出现问题,导致省中心的数据短时间内不完整,而为了下游任务的顺利进行,需要对其进行补全。1.2高速公路交通量补全问题对于交通流量数据的补全,本质上可以看作是一种自监督学习15,即通过让模型理解未缺失部分的规律来补全缺失部分。自监督学习目前已在图像处理13以及自然语言处理14等方面取得了非常好的效果,通过该方式可以让模型很好地理解数据本身的规律,从而更好地将其应用于一些下游任务。交通
11、流量相比于图像、语言等数据,有更加明显的周省联网收费管理中心(省中心)路段收费中心路段收费中心路段收费中心收费站收费站收费站正常传输延迟传输正常传输.下游任务数据补全算法不完整数据完整数据交通流预测深度学习传统方法图卷积神经网络多层感知机长短时记忆网络KNNGBRTRandom Forest 图1实时交通量预测流程Fig.1Real-time traffic volume prediction process102第 4 期周楚昊 等:基于自监督学习的交通数据补全算法期规律以及空间关联性,不仅仅可以输入最近时段的数据,还可以输入之前未缺失时段的数据来表征其周期规律或者一些早晚高峰特性。设收费站
12、构成的集合为,且|=n。然后对这些站点的数据进行统计整理,将交通流量转换为以下格式。Xt=|x(t-l+1)1x(t-l+1)2x(t-l+1)nx(t-l+2)1x(t-l+2)2x(t-l+2)nxt1xt2xtn(1)Xt-l=|x(t-l-r+1)1x(t-l-r+1)2x(t-l-r+1)nx(t-l-r+2)1x(t-l-r+2)2x(t-l-r+2)nx(t-l)1x(t-l)2x(t-l)n(2)矩阵Xt中的每一个元素表示在当前t时段之前的l个历史时段的不同站点的交通流量,矩阵Xt-l的每个元素则是在t-l时段之前的r个历史时段的不同站点的流量。由于缺失基本只发生在最近的时段,
13、因此,这里假设数据的缺失仅发生在Xt当中。由于用于自监督学习的历史数据都是完整的,所以为了更好地描述缺失的情况,需要额外引入掩码Mt来表示Xt当中的数据缺失。Mt中的元素服从0-1分布B(m,p),其中p代表缺失概率,m表示Mt的大小,即二项分布的试验次数,Mt中的元素为1的位置表示该点有缺失。由于缺失部分不应该当作0来处理,因此,根据掩码对缺失部分填入噪声数据,用公式表达为X?t=Xt(1-Mt)+BtMt(3)式中,X?t表示受到干扰的输入数据,Bt是服从独立同分布的噪声变量,表示按位相乘。由于每一次发生缺失的数量并不一定相等,因此,为了能让模型更全面地理解数据自身规律,对于缺失概率p,使
14、之对于每一个样本都不同,即让p服从均匀分布U(0,pmax),pmax表示最大缺失概率。通过以上分析,可以将问题用式(4)表示:Xt=G(X?t,Xt-l|Mt)(4)式中,G表示模型的映射函数。该式的含义为:在已知数据缺失位置(Mt)的情况下,通过学习完整数据(Xt-l)的历史规律以及干扰数据(X?t)的前后关联和相似特征来还原出缺失数据的完整情况(Xt)。1.3模型架构及计算过程由于交通流量本身具备较强的时间关联性,因此,本研究采用带注意力机制的时间序列模型18(Sequence to Sequence with Attention Mechanism,Seq2Seq-Att)实现交通流量
15、的自监督学习,模型框架如图2所示。图 2 中的X?t表示经过模型补全后的结果。Seq2Seq-Att通过Encoder-Decoder的结构来实现对交通流量的动态分析,从而充分掌握自身规律。Encoder中采用的是双向LSTM(Bi-LSTM)19,Decoder中则是单向LSTM。由于Xt-l与X?t在时间段上是连续的,因此,这里将其一并输入到Encoder层当中。交通流量与时间有高度相关性,因此,通过在流量数据中加入相关的时间信息,能够很大程度上帮助判断该时段的流量情况,从而提高数据补全的精度。本研究采用独热(One-Hot)编码将时间标签离散化,然后选取了月、日、时、分、是否是节假日、是
16、否周末、星期这些时间信息。将所有信息编码后进行拼接,设拼接后的向量为初始值.BiLSTMBiLSTMLSTMLSTMLSTM.BiLSTMBiLSTM.时间注意力背景向量.InputEncoderDecoderOutputXt-lXtMt维度嵌入+时间编码vt-lvt-l+1vt-1St-l+1St-l+2Stxt-l-r+1xt-l-r+2xt-lxt-l-r+1xt-lxt-l+1xt-l+2xt?xt-l+1?xtct-l-r+1ct-lct-l+1ctxt-lxt-l+1xt-1xt-l+1xt-l+2xtXt 图 2交通量数据补全模型框架Fig.2Framework of traff
17、ic volume data imputation model103第 51 卷华 南 理 工 大 学 学 报(自 然 科 学 版)Tencodert R(l+r)dtime,dtime表示拼接后的编码长度。然后,使用正弦、余弦函数将时间标签的One-Hot编码映射到Encoder结构所在维度,并与隐层的输出向量相加,从而使之携带时间信息20。映射矩阵的计算公式为P(i,j)=|sin(i/10 000jdmodel),j为偶数cos(i/10 000jdmodel),j为奇数(5)式中,i 1,dtime表示时间标签的One-Hot编码中元素的位置,j 1,dmodel则表示映射到哪一个维度
18、,dmodel表示模型隐层的大小。通 过 上 述 公 式 可 生 成 维 度 转 换 矩 阵 为Aencodert Rdtime dmodel;因此,携带时间信息的输入矩阵的计算公式可表示为Zt=TencodertAencodert+XtWe(6)式中:Xt表示所有的输入,包括完整数据部分以及干扰数据部分;We Rn dmodel表示仿射变换矩阵;Zt则是加入时间信息后的隐向量。接下来,通过Encoder结构对Zt继续编码,计算公式为ck=g+(zk,c+k-1;+),g-(zk,c-k-1;-)(7)式 中:g+()表 示 正 向 LSTM,g-()则 表 示 逆 向LSTM,它们各自的参数
19、分别为+和-;c+k-1和c-k-1则分别表示g+()和g-()在k1时段的隐层向量,大小为dmodel;zk是Zt中的一个分量,k t-l-r+1,t。通过Encoder编码后,隐向量Ct完整携带了这段时间的流量演化规律以及时间信息,接下来则是通过注意力机制在Decoder中逐渐解码,还原出缺失数据的部分。对于 Decoder 在h t-l,t)时段的隐向量可表示为vh=f(x?h,vh-1;)(8)式中:f()表示单向LSTM;则是其参数;vh表示h时段f()输出的隐向量,为了保持跟Encoder中相同的隐向量大小,vh的大小设为2dmodel。然后就是计算背景向量以及注意力,相应计算公式
20、为uh=k=t-l-r+1thkck(9)hk=exp(dhk)k=t-l-r+1texp(dhk)(10)dhk=tanh(ck,vh w2)w1(11)式中,dhk表示ck与vh的关联程度,w1 R2dmodel 1,w2 R4dmodel 2dmodel。将各时段的dhk经过Softmax归一化之后即可得到h时段与k时段的注意力大小hk;接着,将编码向量ck按照注意力加权求和即可得到h时段的背景向量uh;最后,根据背景向量uh以及LSTM的输出隐向量vh可得到下一时段的信息,然后将信息进行转换输出即可得到下一时段补全后的结果。计算公式为 sh+1=tanh(uh,vh w3)(12)x?
21、h+1=sh+1w4(13)式中,sh+1表示h+1时段的信息,x?h+1则表示h+1时段的补全数据,w3 R4dmodel 2dmodel,w4 R2dmodel n。从式(8)可以看到,需要一个初始值来启动解码过程,这里选用最后一个时段的完整数据,即xt-l作为初始输入进行解码。1.4损失函数通过上述模型的计算得到了补全后的数据X?t,但是其中只有部分时段或站点的数据有缺失;因此,在计算误差时,主要考虑缺失部分的损失。损失计算公式为Sloss=i=12iL(X?tVi,XtVi)(14)式中:L表示均方误差;V1表示Mt中等于1的位置编号,即缺失部分的位置编号;V2表示Mt中等于0的位置编
22、号。因为在模型推断的过程中,对于未缺失的部分也进行了估计,所以为了保证模型完整地理解数据规律,采用加权求和的方式得出最终的误差,一般设置1 0.5,且1+2=1,即希望模型尽可能地保证数据缺失部分的准确性。1.5训练过程由前述可知,为了尽可能地学习到交通流量的自身规律,所以对不同样本采取了不同的缺失率,并且每次都会对缺失位置填入噪声数据。为了明确算法流程,给出计算的伪代码如下所示。1:初始化 Seq2Seq-Att 模型 G 的参数,最大缺失率pmax2:将训练数据划分为训练集Xtrain,验证集Xval3:初 始 化 用 于 模 型 收 敛 条 件 的 k 个 缺 失 率 p1,p2,pk4
23、:While True do5:从Xtrain中 随 机 抽 取 d 个 样 本(Xjt-l,Xjt),j 1,d 104第 4 期周楚昊 等:基于自监督学习的交通数据补全算法6:根据均匀分布U(0,pmax)随机生成缺失率p7:根 据 二 项 分 布B(m,p)生 成 d 个 掩 码Mjt,j 1,d 8:随 机 生 成 d 个 独 立 同 分 布 的 噪 声 样 本Bjt,j 1,d 9:For j=1,d do10:X?jt Xjt(1-Mjt)+ZjtMjt11:X?jt G(X?jt,Xjt-l;)12:Vj1 Mjt=1,Vj0 Mjt=013:End For14:loss 1dj
24、di=12iL(X?jtVji,XjtVji)15:根 据 loss 使 用 随 机 梯 度 下 降 法 修 正 G 的参数16:For i=1,k do17:在缺失率为pi的情况下,计算Xval中所有样本的损失li18:End For19:val_loss 1ki=1kli20:If val_loss连续超过一定次数不再降低21:break22:End If23:End While由于每一次训练的样本缺失情况都有所不同,所以训练集的误差波动可能较为明显,不方便判断收敛情况,并且,对于验证集不需要再考虑未缺失的部分,因此选取了固定的几个缺失率,在验证集上计算损失,以此作为收敛的判断依据,一般设
25、置0 p1 p2 pk=pmax。1.6数据补全评价指标文中实验使用4个指标对补全效果进行评价,分别是平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)以 及 加 权 平 均 绝 对 百 分 比 误 差(Weighted Mean Absolute Percentage Error,WMAPE)。计算表达式如下。EhMAPE=1nj=1nEh,jMAPE=1nj=1n1Njnum=1Nj|x?numhj-xnumhj|x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 监督 学习 交通 数据 算法 周楚昊
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。