分销赏收藏举报申诉 / 14

立即下载 VIP下载

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于自监督学习的交通数据补全算法_周楚昊.pdf

基于自监督学习的交通数据补全算法_周楚昊.pdf

上传人：自信****多点

文档编号：368580

上传时间：2023-09-06

格式：PDF

页数：14

大小：2.72MB

《基于自监督学习的交通数据补全算法_周楚昊.pdf》由会员分享，可在线阅读，更多相关《基于自监督学习的交通数据补全算法_周楚昊.pdf（14页珍藏版）》请在咨信网上搜索。

1、第 51 卷第 4 期2023 年 4 月华南理工大学学报（自然科学版）Journal of South China University of Technology（Natural Science Edition）Vol.51 No.4April 2023基于自监督学习的交通数据补全算法周楚昊1 林培群1 闫明月2（1.华南理工大学土木与交通学院，广东广州 510640；2.交通运输部路网监测与应急处置中心，北京 100088）摘要：区域高速公路网收费站数量众多，每日产生海量收费数据，但由于设备、网络等因素，部分站点数据传输存在延迟现象，在此情况下已传输的数据往往

2、不能满足实时流量预测的要求。为了实现实时交通数据补全和动态交通流量预测，文中首先提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法，该方法采用了基于注意力机制的时间序列模型（Seq2Seq-Att）；然后使用自监督学习方式对模型进行训练；最后，以广东省高速公路网的80个收费站为例，验证方法的可靠性。结果表明：文中的数据补全方法能够灵活捕捉交通数据中的缺失情况，并根据数据自身的内在关联性，给出合理的补全值；该方法总体优于其他方法，且在不同缺失率下都有较好表现，总体MAPE约为17.7%、WMAPE为12.8%；在高缺失率情况下，该方法相比于其他补全方法有明显的优势。交通量预测结果表

3、明，使用该方法补全的数据进行交通流预测的预测精度接近使用完整数据的情况。关键词：数据补全；自监督学习；交通流预测；机器学习；高速公路中图分类号：U491文章编号：1000-565X（2023）04-0101-14交通领域数据采集方式由传统的交通调查等逐渐向电子化、信息化的发展，推动了交通大数据的应用与发展。自动化数据采集很大程度上节约了人力成本，并且具备非常高的准确度以及较好的实时性，数据覆盖面也更广。但是，由于通信系统并不能做到百分百可靠，因此，数据在传输过程中难免会发生一定概率的丢失或者延迟，导致数据实时性受损，所以，为了能更好地将数据应用于下游任务，需要对这些交通数据进行相应的补全。根据

4、缺失机制，可将数据缺失分为3类，分别为完全随机缺失、随机缺失以及非随机缺失。对于交通流数据的缺失，可认为是完全随机缺失。对于这种缺失方式，最简单的方法就是直接删除1。但是，简单删除的方式降低了数据集的多样性，并且会影响后续的交通分析，因此，对于交通缺失数据的处理主要采用修复的方式2。目前，能获取的数据量越来越全面；因此，可以通过观测数据的具体分布来对缺失部分进行估计，较为典型的是期望最大化算法（Expectation Maximation，EM）3。韩卫国等4利用路口线圈检测器获取交通流量，使用多种方法对其进行缺失补全，结果表明，EM算法能在异常情况（恶劣天气、交通事故等）下，获得更好的补全效

5、果；但是，该方法需要大量的迭代计算，并且容易陷入局部最doi：10.12141/j.issn.1000-565X.220237收稿日期：20220427基金项目：国家自然科学基金资助项目（52072130，U1811463）；广东省自然科学基金资助项目（2020A1515010349）；华南理工大学中央高校基本科研业务费专项资金资助项目（2020ZYGXZR085）Foundation items：Supported by the National Natural Science Foundation of China（52072130，U1811463）and the Natural Sci

6、ence Foundation of Guangdong Province（2020A1515010349）作者简介：周楚昊（1994-），男，博士，主要从事交通大数据、智能交通等研究。E-mail：通信作者：林培群（1980-），男，教授，博士生导师，主要从事交通大数据、智能交通等研究。E-mail：第 51 卷华南理工大学学报（自然科学版）优。另一个常用的算法是源于贝叶斯估计的多重插补法（Multiple Imputation，MI）5。Li等6构建了一种基于链式方程的多重插补法，并应用于交通事故数据的补全，进而能够更好地运用其他统计方法对事故数据进行分析；不过，该方

7、法需要创建大量插补集来进行分析，因此，实时性会有所折扣。对于具备时间特性的交通流数据来说，不同时段的数据往往具有一定的关联性，基于这一点来考虑，线性插值7也是可行的方法；不过，该方法仅仅只是考虑前后的数据特征，因此，对于多维度特征以及高缺失率的情况，适用性不高。而另一种能够考虑不同时段数据关联性的方法则是K-最近邻算法（K-Nearest Neighbor，KNN）。秦一菲等8提出了一种使用距离占比来作为近邻值权重的改进KNN算法，并将其应用于交通流异常数据的修复；但是，KNN的K值选择，以及距离度量方式都会影响补全精度。Kaur等9构建了一种基于统计原则的回归方法对线圈检测数据进行修复，能够

8、以较低的计算复杂度获取不错的补全精度；但这种方式还是难以利用额外信息，如时间信息。随着计算机性能的不断提升，越来越多的研究开始使用深度学习模型来实现数据补全10-12。王力等13利用生成对抗网络（Generative Adversarial Network，GAN）对交通路网中的流量缺失进行补全或重构，能够有效应对城市道路中路段检测器覆盖不全或者设备损坏的情况；Liang等14构建了一种记忆增强的动态图卷积神经网络来捕捉路网交通流的时空信息，以达到补全数据的目的。由于深度学习模型会使用大量参数，但大多数方法对于参数的利用存在冗余，并没有充分利用参数以达到对各种缺失状况进行补全的目的。综合文献来

9、看，虽然有不少关于交通数据补全的研究，但存在以下两个问题：（1）目前的研究基本都是对于历史数据的补全，即大样本中部分数据出现缺失，如何进行填充；少有研究针对一些延迟数据进行实时补全。（2）对于交通数据补全，往往都是需要完成一些下游任务（如交通流预测），但少有研究针对补全数据是否能够良好地应用于这些任务进行检验。为了解决上述两个问题，本研究提出了一种基于自监督学习的数据补全方法，并将其应用在高速公路交通量补全，然后使用补全数据进行流量预测。1基于自监督学习的数据补全模型1.1交通延迟数据目前，广东省有上千个高速公路收费站点，其中，经过高速公路的每辆车的行程都会被收费系统记录；但是，由于某些收费站

10、点的数据传输到数据中心有延迟，导致从数据中心获取到的一些时段的统计数据（如交通量）会有所缺失（这些数据都会在一定时间后传输完成）。图1详细展示了数据流动的过程。从该图可以看出，数据延迟是由于高速公路部分路段收费中心传输出现问题，导致省中心的数据短时间内不完整，而为了下游任务的顺利进行，需要对其进行补全。1.2高速公路交通量补全问题对于交通流量数据的补全，本质上可以看作是一种自监督学习15，即通过让模型理解未缺失部分的规律来补全缺失部分。自监督学习目前已在图像处理13以及自然语言处理14等方面取得了非常好的效果，通过该方式可以让模型很好地理解数据本身的规律，从而更好地将其应用于一些下游任务。交通

11、流量相比于图像、语言等数据，有更加明显的周省联网收费管理中心(省中心)路段收费中心路段收费中心路段收费中心收费站收费站收费站正常传输延迟传输正常传输.下游任务数据补全算法不完整数据完整数据交通流预测深度学习传统方法图卷积神经网络多层感知机长短时记忆网络KNNGBRTRandom Forest 图1实时交通量预测流程Fig.1Real-time traffic volume prediction process102第 4 期周楚昊等：基于自监督学习的交通数据补全算法期规律以及空间关联性，不仅仅可以输入最近时段的数据，还可以输入之前未缺失时段的数据来表征其周期规律或者一些早晚高峰特性。设收费站

12、构成的集合为，且|=n。然后对这些站点的数据进行统计整理，将交通流量转换为以下格式。Xt=|x(t-l+1)1x(t-l+1)2x(t-l+1)nx(t-l+2)1x(t-l+2)2x(t-l+2)nxt1xt2xtn（1）Xt-l=|x(t-l-r+1)1x(t-l-r+1)2x(t-l-r+1)nx(t-l-r+2)1x(t-l-r+2)2x(t-l-r+2)nx(t-l)1x(t-l)2x(t-l)n（2）矩阵Xt中的每一个元素表示在当前t时段之前的l个历史时段的不同站点的交通流量，矩阵Xt-l的每个元素则是在t-l时段之前的r个历史时段的不同站点的流量。由于缺失基本只发生在最近的时段，

13、因此，这里假设数据的缺失仅发生在Xt当中。由于用于自监督学习的历史数据都是完整的，所以为了更好地描述缺失的情况，需要额外引入掩码Mt来表示Xt当中的数据缺失。Mt中的元素服从0-1分布B(m，p)，其中p代表缺失概率，m表示Mt的大小，即二项分布的试验次数，Mt中的元素为1的位置表示该点有缺失。由于缺失部分不应该当作0来处理，因此，根据掩码对缺失部分填入噪声数据，用公式表达为X?t=Xt(1-Mt)+BtMt（3）式中，X?t表示受到干扰的输入数据，Bt是服从独立同分布的噪声变量，表示按位相乘。由于每一次发生缺失的数量并不一定相等，因此，为了能让模型更全面地理解数据自身规律，对于缺失概率p，使

14、之对于每一个样本都不同，即让p服从均匀分布U(0，pmax)，pmax表示最大缺失概率。通过以上分析，可以将问题用式（4）表示：Xt=G(X?t，Xt-l|Mt)（4）式中，G表示模型的映射函数。该式的含义为：在已知数据缺失位置（Mt）的情况下，通过学习完整数据（Xt-l）的历史规律以及干扰数据（X?t）的前后关联和相似特征来还原出缺失数据的完整情况（Xt）。1.3模型架构及计算过程由于交通流量本身具备较强的时间关联性，因此，本研究采用带注意力机制的时间序列模型18（Sequence to Sequence with Attention Mechanism，Seq2Seq-Att）实现交通流量

15、的自监督学习，模型框架如图2所示。图 2 中的X?t表示经过模型补全后的结果。Seq2Seq-Att通过Encoder-Decoder的结构来实现对交通流量的动态分析，从而充分掌握自身规律。Encoder中采用的是双向LSTM（Bi-LSTM）19，Decoder中则是单向LSTM。由于Xt-l与X?t在时间段上是连续的，因此，这里将其一并输入到Encoder层当中。交通流量与时间有高度相关性，因此，通过在流量数据中加入相关的时间信息，能够很大程度上帮助判断该时段的流量情况，从而提高数据补全的精度。本研究采用独热（One-Hot）编码将时间标签离散化，然后选取了月、日、时、分、是否是节假日、是

16、否周末、星期这些时间信息。将所有信息编码后进行拼接，设拼接后的向量为初始值.BiLSTMBiLSTMLSTMLSTMLSTM.BiLSTMBiLSTM.时间注意力背景向量.InputEncoderDecoderOutputXt-lXtMt维度嵌入+时间编码vt-lvt-l+1vt-1St-l+1St-l+2Stxt-l-r+1xt-l-r+2xt-lxt-l-r+1xt-lxt-l+1xt-l+2xt?xt-l+1?xtct-l-r+1ct-lct-l+1ctxt-lxt-l+1xt-1xt-l+1xt-l+2xtXt 图 2交通量数据补全模型框架Fig.2Framework of traff

17、ic volume data imputation model103第 51 卷华南理工大学学报（自然科学版）Tencodert R(l+r)dtime，dtime表示拼接后的编码长度。然后，使用正弦、余弦函数将时间标签的One-Hot编码映射到Encoder结构所在维度，并与隐层的输出向量相加，从而使之携带时间信息20。映射矩阵的计算公式为P(i，j)=|sin(i/10 000jdmodel)，j为偶数cos(i/10 000jdmodel)，j为奇数（5）式中，i 1，dtime表示时间标签的One-Hot编码中元素的位置，j 1，dmodel则表示映射到哪一个维度

18、，dmodel表示模型隐层的大小。通过上述公式可生成维度转换矩阵为Aencodert Rdtime dmodel；因此，携带时间信息的输入矩阵的计算公式可表示为Zt=TencodertAencodert+XtWe（6）式中：Xt表示所有的输入，包括完整数据部分以及干扰数据部分；We Rn dmodel表示仿射变换矩阵；Zt则是加入时间信息后的隐向量。接下来，通过Encoder结构对Zt继续编码，计算公式为ck=g+(zk，c+k-1；+)，g-(zk，c-k-1；-)（7）式中：g+()表示正向 LSTM，g-()则表示逆向LSTM，它们各自的参数

19、分别为+和-；c+k-1和c-k-1则分别表示g+()和g-()在k1时段的隐层向量，大小为dmodel；zk是Zt中的一个分量，k t-l-r+1，t。通过Encoder编码后，隐向量Ct完整携带了这段时间的流量演化规律以及时间信息，接下来则是通过注意力机制在Decoder中逐渐解码，还原出缺失数据的部分。对于 Decoder 在h t-l，t)时段的隐向量可表示为vh=f(x?h，vh-1；)（8）式中：f()表示单向LSTM；则是其参数；vh表示h时段f()输出的隐向量，为了保持跟Encoder中相同的隐向量大小，vh的大小设为2dmodel。然后就是计算背景向量以及注意力，相应计算公式

20、为uh=k=t-l-r+1thkck（9）hk=exp(dhk)k=t-l-r+1texp(dhk)（10）dhk=tanh(ck，vh w2)w1（11）式中，dhk表示ck与vh的关联程度，w1 R2dmodel 1，w2 R4dmodel 2dmodel。将各时段的dhk经过Softmax归一化之后即可得到h时段与k时段的注意力大小hk；接着，将编码向量ck按照注意力加权求和即可得到h时段的背景向量uh；最后，根据背景向量uh以及LSTM的输出隐向量vh可得到下一时段的信息，然后将信息进行转换输出即可得到下一时段补全后的结果。计算公式为 sh+1=tanh(uh，vh w3)（12）x?

21、h+1=sh+1w4（13）式中，sh+1表示h+1时段的信息，x?h+1则表示h+1时段的补全数据，w3 R4dmodel 2dmodel，w4 R2dmodel n。从式（8）可以看到，需要一个初始值来启动解码过程，这里选用最后一个时段的完整数据，即xt-l作为初始输入进行解码。1.4损失函数通过上述模型的计算得到了补全后的数据X?t，但是其中只有部分时段或站点的数据有缺失；因此，在计算误差时，主要考虑缺失部分的损失。损失计算公式为Sloss=i=12iL(X?tVi，XtVi)（14）式中：L表示均方误差；V1表示Mt中等于1的位置编号，即缺失部分的位置编号；V2表示Mt中等于0的位置编

22、号。因为在模型推断的过程中，对于未缺失的部分也进行了估计，所以为了保证模型完整地理解数据规律，采用加权求和的方式得出最终的误差，一般设置1 0.5，且1+2=1，即希望模型尽可能地保证数据缺失部分的准确性。1.5训练过程由前述可知，为了尽可能地学习到交通流量的自身规律，所以对不同样本采取了不同的缺失率，并且每次都会对缺失位置填入噪声数据。为了明确算法流程，给出计算的伪代码如下所示。1：初始化 Seq2Seq-Att 模型 G 的参数，最大缺失率pmax2：将训练数据划分为训练集Xtrain，验证集Xval3：初始化用于模型收敛条件的 k 个缺失率 p1，p2，pk4

23、：While True do5：从Xtrain中随机抽取 d 个样本(Xjt-l，Xjt)，j 1，d 104第 4 期周楚昊等：基于自监督学习的交通数据补全算法6：根据均匀分布U(0，pmax)随机生成缺失率p7：根据二项分布B(m，p)生成 d 个掩码Mjt，j 1，d 8：随机生成 d 个独立同分布的噪声样本Bjt，j 1，d 9：For j=1，d do10：X?jt Xjt(1-Mjt)+ZjtMjt11：X?jt G(X?jt，Xjt-l；)12：Vj1 Mjt=1，Vj0 Mjt=013：End For14：loss 1dj

24、di=12iL(X?jtVji，XjtVji)15：根据 loss 使用随机梯度下降法修正 G 的参数16：For i=1，k do17：在缺失率为pi的情况下，计算Xval中所有样本的损失li18：End For19：val_loss 1ki=1kli20：If val_loss连续超过一定次数不再降低21：break22：End If23：End While由于每一次训练的样本缺失情况都有所不同，所以训练集的误差波动可能较为明显，不方便判断收敛情况，并且，对于验证集不需要再考虑未缺失的部分，因此选取了固定的几个缺失率，在验证集上计算损失，以此作为收敛的判断依据，一般设

25、置0 p1 p2 pk=pmax。1.6数据补全评价指标文中实验使用4个指标对补全效果进行评价，分别是平均绝对百分比误差（Mean Absolute Percentage Error，MAPE）、平均绝对误差（Mean Absolute Error，MAE）、均方根误差（Root Mean Square Error，RMSE）以及加权平均绝对百分比误差（Weighted Mean Absolute Percentage Error，WMAPE）。计算表达式如下。EhMAPE=1nj=1nEh，jMAPE=1nj=1n1Njnum=1Nj|x?numhj-xnumhj|x

26、numhj（15）EhMAE=1nj=1nEh，jMAE=1nj=1n1Njnum=1Nj|x?numhj-xnumhj|（16）EhRMSE=1nj=1n(Eh，jRMSE)2=1nj=1n1Njnum=1Nj(x?numhj-xnumhj)2（17）EWMAPE，h=j=1nnum=1Nj|x?numhj-xnumhj|j=1nnum=1Njxnumhj（18）其中，n表示收费站点数量，h表示需要补全的时段，Nj表示测试集中站点j流量有缺失的样本数，x?numhj表示在时段h的站点j的流量补全值，xnumhj表示相应的实际值。由于每一个站的规律以及缺失情况都会不同，所以这里计算误差时，不仅

27、仅只是计算总体误差，还包括了各个站点自身的误差计算。因为不同站点的流量大小有差异，所以使用WMAPE来平衡不同站点的误差。2实验2.1数据补全实验2.1.1实验数据及参数设置本研究使用的数据来自广东省高速公路收费系统，实验选取了80个收费站作为研究范围，位置如图3所示。然后，统计了这些站点的入口流量作为实验数据来验证算法的有效性。将收费数据按15 min进行统计得到入口流量。整个数据集的时间范围从2019年4月1日至9月30日，然后取70%的数据作为训练集，10%作为验证图 3收费站位置Fig.3Location of toll stations105第 51 卷华南理工大学学报

28、（自然科学版）集，剩下的20%作为测试集。为了避免训练过程中出现数据溢出而导致训练失败，这里采用最大-最小值归一化方法对不同站点的流量进行处理。文中实验的参数设置如表1所示。本研究选取带动量的随机梯度下降法21（Stochastic Gradient Descent）对网络参数进行优化，表达式为wk+1=wk-E(wk)+(wk-wk-1)（19）式中：wk表示第k次训练时的参数；表示学习率；E表示损失函数；是动量因子，用于减少随机梯度下降造成的振荡，文中设置=0.6。考虑到模型在开始训练阶段误差下降较快，因此，本研究采用指数衰减方式的动态学习率加快网络参数收敛，公式为ri=i（20）

29、i=round()eglobaldstep（21）其中：ri表示第i次下降后的学习率；为初始学习率，设为 0.1；表示衰减因子，设为 0.99；eglobal是已经训练的次数；dstep是衰减步长，即每训练多少次进行一次衰减，文中设为500；round函数表示向下取整。2.1.2补全效果分析模型的整体补全效果如图 4 所示；图中站点编号的排序方式同样是按照流量大小进行排序，1号站点流量最大，80号则最小。因为即便是同一缺失率，也可能由于缺失位置不同导致误差不同，所以该图是在重复 20 次试验后，取平均的结果。从图 4 可以看出，即便在缺失率 80%的情况下，模型基本上都能计算出合理的补全值。从

30、不同时段的补全误差来看，有的站点在t6这样中间时段的补全效果比较好，而有的站点则是 t 或者t11这样最近或最远的时段，这反映出不同站点流量的规律有所不同。但是，总体而言，在t11这个非常靠近完整数据部分的时段，误差基本都处于较低水平，说明完整数据很大程度上能够帮助判断合理的补全值，而在t这个最近的时段，误差相对来说会增加不少，也反映出其能够利用的表 1交通流量数据补全实验参数设置Table 1Parameter setting of the experiment of the traffic volume data imputation参数lrnpmaxdtimedmodelp1，p2，p8

31、1Batch sizeEpochStop Condition取值1212800.8821920.1，0.2，0.80.95125 000200说明数据会发生缺失的最大时段数用于提取历史规律的时段数入口站点数量最大缺失率时间标签one-hot编码后的向量大小LSTM的隐层大小用于计算验证集损失的缺失率缺失数据的误差权重每次训练多少个样本完整训练的最大轮次连续200轮的验证集误差不再降低则停止训练106第 4 期周楚昊等：基于自监督学习的交通数据补全算法信息有所减少，即t-11时段之前的数据对该点的影响减弱，更多的是依靠缺失数据中的规律特征。从图 4 也可以看出，MAE 或 RMSE 偏大的站点

32、，MAPE则相对偏小。缺失率40%、80%的条件下部分站点的实际补全效果如图5、图6所示。从图5和图6可以看出，补全值基本处于合理范围，并且发现对于流量一直处于上升或下降的部分来说，补全值非常贴合，而对于一些陡增或陡降来说，模型很难给出完全接近的值，只能够保证前后连续的趋势。交通流量本身有一定的随机性，而这种随机性也会随着统计粒度的增加而逐渐消失，不过，在15 min的统计粒度下，随机性还是较为明显，所以模型不去拟合这种随机性也是保证了模型图5部分站点实际补全效果展示（缺失率40%）Fig.5Display of the imputation effect of some toll stati

33、ons（missing rate 40%）图4不同时段以及不同站点的流量补全误差（缺失率80%）Fig.4Errors of the traffic volume imputation at different time periods and at different toll stations（missing rate 80%）107第 51 卷华南理工大学学报（自然科学版）的泛化能力，能够更好地去应对各种情况。模型补全结果误差随缺失率（1%80%）的变化如图7所示，缺失率从1%开始，每次增加1%，直到80%，每个缺失率下都重复5次试验。基于图7所示结果，总体而言，误

34、差随着缺失率的增加而不断增加；但是，从图7（a）、7（c）可以看出，部分曲线会先出现轻微的下降，然后再上升，这可能是由于在缺失率较低的情况，用于计算误差的样本较少，导致误差计算结果波动更加明显。另外，由图7可以看出，t时段的误差曲线明显相隔其他，3个时段较远，即便4条曲线从时段上说是等距的，也就是说，对于t时段而言，由于没有之后时段的数据，这导致其相对于其他时段更难以补全，这也反映流量大多数时候是连续变化，所以如果有前后相邻时段的数据，补全结果会有较高的准确度。除此之外，也可看出缺失率在40%以下时，t-6时段的误差要低于t-9时段，这也与前面的分析相吻合。对比7（a）和7（d）可以发现，WM

35、APE远低于MAPE，说明加权之后，低流量站点的百分比误差对整体的影响被较大程度地削弱。一般来说，拥堵的发生很多时候是因为流量增大，需要进行管控，因此，高流量的站会受到更多的关注，相对地，低流量的站关注度较低，所以使用WMAPE来对整体误差进行评价更加客观。2.1.3模型分析由于文中模型使用了注意力机制，因此，可以通过了解注意力分布来观察该模型如何应对不同缺失率以及不同时段的数据补全；注意力分布热力图如图8所示。由于不同缺失率下的注意力大小会有所不同，图6部分站点实际补全效果展示（缺失率80%）Fig.6Display of the imputation effect of some toll

36、 stations（missing rate 80%）108第 4 期周楚昊等：基于自监督学习的交通数据补全算法因此，为了更好地进行对比，将图8中的所有子图的色柱范围设为相同，所以不同子图中相同颜色代表注意力大小相同。从图8可以看出，不同缺失率下基本都有相似的注意力分布模式；对于t-5时段以前，模型更多的是关注t-11时段以前的数据，即完整数据部分，特别是t-11时段，基本不关注之后图7不同缺失率下的误差变化曲线Fig.7Error change curve under different missing rates109第 51 卷华南理工大学学报（自然科学版）的情况

37、，也就是说模型能够理解之后的数据存在干扰，相信之前的数据准确度更高；而到了t-4之后的时段，明显看出，模型很大程度地削弱了对完整数据部分的关注，这说明太久远的数据对于最近的时段帮助较小，虽然t-11至t-4时段受到了干扰，但还是能够利用未缺失部分的规律进行补全，这部分数据相对于久远数据可能帮助更大。在图8（a）中，可以看到红圈部分相对较暗，而图8（h）中的红圈部分则更加明亮，也就是说，低缺失率的情况下，不需要将注意力进行分散，可以集中利用较近时段的数据进行补全，而缺失率较大时，附近时段的数据可能都有缺失，因此必须扩大注意力的范围，以此获取更高的补全精度。除此之外，随着缺失率的增加，可以看到t-

38、6时段以前对于完整数据部分的关注也逐渐增加（黑圈），这也反映出模型能够通过注意力灵活地区分缺失情况，从而更好地补全数据。2.1.4不同方法对比分析这一节使用不同的数据补全方法与文中方法进行对比。文中方法（无时间信息）：去除添加到模型当中的时间信息，其余部分与文中方法一致。LSTM-AutoEncoder：使用LSTM结构的AutoEncoder模型，隐向量大小为256。生成对抗网络（GAN）：生成器与判别器均采用LSTM结构，生成器负责产生缺失位置的数据，判别器则用于判断缺失位置数据的真假，生成器与判别器隐向量大小都为256。长短时记忆网络（LSTM）：原始的 LSTM 结构，隐向量大小为25

39、6。均值填充（Mean）：根据缺失数据所在列（共24个时段，下同）的未缺失部分的均值作为缺失数据的填充值。中值填充（Median）：方式与均值填充类似，不过使用的是所在列的中位数。众数填充（Mode）：方式与均值填充类似，但使用众数进行填充。前值填充（Ffill）：从缺失点位所在列向前寻找第一个有效值作为填充值。K近邻填充（KNN）22：通过距离测量来识别相邻点，并使用相邻观测值的完整值来估计缺失值。线性插值（Interpolate）23：根据缺失位置所在列前后最近的有效值的平均值作为缺失点位的填充值。为了较公平地比较各个方法的误差，在不同缺失率下各自重复10次实验，然后取平均值作为最终误差。

40、各方法的具体误差见表2。图8注意力分布热力图Fig.8Heatmap of attention distribution110第 4 期周楚昊等：基于自监督学习的交通数据补全算法从表2可以看出，使用均值、中位数以及众数的方式进行补全效果非常不理想，一方面由于这几种方式忽略了数据本身的分布情况，另一方面则是这几种方法并不能理解时间序列数据的特性。而对于Ffill、KNN和Interpolate方法，在缺失率不超过40%以前，这3种方法能保持一定的精度，但是在高缺失率下，特别是80%缺失率的情况下，这3种方法的误差比较明显。这也说明这些方法并没能很好地理解数据规律，在高缺失率下，不能够最大限度地

41、利用已有的特征。此外，可以看到文中方法与Interpolate的MAPE总体差距较为明显，而WMAPE更相近，这表明Interpolate对低流量站点数据进行补全时，百分比误差较大，这也说明它不能够灵活地根据不同站点情况进行调整。而在模型加入时间信息后，对于高缺失率下的补全有明显的提高，说明时间信息在一些连续缺失的情况下，能够辅助模型判断出流量的变化规律。从GAN的补全精度来看，它可能并不是很适用于交通流量这样带有一定随机性的数据，相比于计算交叉熵，直接计算均方误差能够使模型达到更优的状态。2.2使用补全数据的交通量预测2.2.1实验数据及参数设置在数据补全实验中，使用的是高速公路收费站的入口

42、流量，根据文献 23，能够使用入口流量对出口流量进行预测；因此，本研究使用80个收费站前12个时段的入口流量数据作为输入对某一收费站2 h后（第8个时段）的出口流量进行预测。数据的时间范围是2019年8月25日至9月30日，即补全实验中测试集的范围，然后取80%的数据作为训练集，剩下的作为测试集。文中使用的交通量预测方法以及方法的基本参数设置如下。KNN近邻个数设为4，近邻权重由向量的欧氏距离决定，距离近，权重大。表 2不同缺失率下各数据补全方法补全结果的误差Table 2Errors for different data imputation methods under different

43、missing rates方法ProposedProposed（无时间）LSTM-AutoEncoderGANLSTMInterpolateKNNFfillMeanMedianMode方法ProposedProposed（无时间）LSTM-AutoEncoderGANLSTMInterpolateKNNFfillMeanMedianModeMAPE缺失率20%0.1720.1790.1820.2130.2050.1660.1740.2020.5110.480.449RMSE缺失率20%20.3721.0721.3320.9720.6118.7920.0923.4942.9947.4164.19

44、缺失率40%0.1740.1830.1870.2290.2250.1740.1850.2180.5510.540.488缺失率40%20.621.3221.5221.8321.5119.8221.5325.446.2751.866.72缺失率60%0.1770.1880.1930.2420.2420.1930.2090.2450.6020.6050.531缺失率60%21.0621.9221.9922.9622.7022.1524.2928.850.5156.368.94缺失率80%0.1840.2050.2080.2580.2620.250.2770.3060.670.6750.575缺失率

45、80%21.8422.9323.3524.5224.4028.8831.6835.3356.1360.8470.73平均值0.1770.1890.1930.2350.2340.1960.2110.2430.5830.5750.51平均值20.9721.8122.0522.5722.3122.4124.428.2548.9854.0967.65WMAPE缺失率20%0.1250.1290.1310.1320.1290.1120.120.1410.2870.30.373MAE缺失率20%13.6114.0914.2614.4114.0812.3413.2315.5331.5132.9240.98缺

46、失率40%0.1260.1310.1330.1390.1360.1180.1290.1520.3090.3310.395缺失率40%13.7314.2814.4415.1114.8712.9514.1916.7233.9636.3543.42缺失率60%0.1280.1350.1350.1460.1450.130.1450.1720.3380.3640.417缺失率60%14.0014.6814.7715.9715.7914.3215.9618.8837.1640.0145.77缺失率80%0.1330.1420.1440.1570.1560.1680.1890.2130.3770.3990.

47、436缺失率80%14.5615.4515.7417.1117.0618.4820.7823.3541.4443.8647.85平均值0.1280.1340.1360.1440.1420.1320.1460.170.3280.3490.405平均值13.9714.6314.8015.6515.4514.5216.0418.6236.0238.2844.5111第 51 卷华南理工大学学报（自然科学版）GBR弱学习器的最大迭代次数为100，学习率设为0.1。RF 决策树的个数为 100，决策树最大深度为15。预测实验使用3个指标对其效果进行评价，分别是平均绝对百分比误差（M

48、APE）、平均绝对误差（MAE）、均方根误差（RMSE），计算公式分别为EMAPE=1Nnum=1N|y?num-ynum|ynum（22）EMAE=1Nnum=1N|y?num-ynum|（23）ERMSE=1Nnum=1N(y?num-ynum)2（24）式中，N表示样本大小，ynum表示实际值，y?num表示预测值。2.2.2预测实验分析从表3可以看出，随着缺失率的增加，使用补全数据进行交通量预测的误差也会随之增加，不过也有个别例外，这可能是由于缺失位置不同导致。此外，可以很明显地看出，使用缺失数据直接进行预测，会造成极大的误差，如80%缺失率下，KNN的MAPE误差甚至达到了1.699

49、，这对于实际应用来说，几乎无法使用，这也说明了补全数据的必要性。总体而言，使用补全数据与使用完整数据的预测效果相差不大。有意思的是，GBRT和RF的完整数据预测效果甚至不如补全数据，这说明这两种方法对于交通流量的随机性很敏感，很容易造成偏差，反映出通过文中方法补全的数据更能挖掘出一些本质规律，去除了随机性的干扰。而KNN则是使用完整数据精度更高，这可能是由于该方法对于数据变化的不敏感。缺失率 80%的条件下 KNN 预测效果对比如图9所示。从图9可以明显地看出，使用补全数据（红色虚线）与使用完整数据（蓝色虚线）的预测效果相差不大，在峰值预测上也并不弱，说明补全数据并没有丢失数据本身的规律，能够

50、应对交通量预测任务。3结语文中提出了一种基于自监督学习的用于高速公路交通流量数据缺失补全的方法；该方法的提出主要是为了解决由数据传输延迟，导致部分时段的流量有缺失，造成难以直接应用于下游任务的问题。该方法采用了基于注意力机制的时间序列模型（Seq2Seq-Att）；为了使模型能够全面理解交通流量的自身规律，在模型训练过程中，随机产生不同缺失情况的数据进行训练，并且使用不同的权重来平表 3不同缺失率下使用补全数据的交通量预测误差对比Table 3Errors comparison of traffic volume prediction using imputation data under d

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于监督学习交通数据算法周楚昊

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。