基于CNN-BiLSTM-AM模型的交通流量预测

时间：2023-12-17 17:45:02 来源：网友投稿

孙加新，惠飞，张凯望，冯耀，张师源

(长安大学信息工程学院，陕西西安 710064)

近年来，随着国内的经济产业、制造业快速发展，汽车保有量正逐步攀升，这对许多城市的道路承载能力产生了极大的冲击。许多城市正面临着交通拥堵问题，严重的甚至影响到居民的日常工作生活。如何缓解交通系统压力，提升路网结构的承载能力及运行效率等一系列问题正在迫使交通管理部门采取积极的应对措施。当前，解决交通拥堵问题主要通过以下几个途径：一是对城市公路网进行改造，如拓宽道路，修建新路线分流缓解关键道路压力，但是此类方法无论从时间和空间上考虑均有较大成本，难以在短期内取得成效，且考虑交通参与者成本如绕路的时间及油耗成本，未必能从根本上解决交通堵塞问题；
二是对车辆实施限行政策以削弱一部分出行流量，这种方式可以在一定程度上控制路面车辆数量，但对公共交通的承载能力有着较高要求；
三是通过交通管制、诱导手段来控制路网结构的使用，优化道路运载效率，对于此种方式，一个可靠实时的交通流量信息就成了交管部门和交通参与者重要参考指标。基于此，近年来对交通流量的预测研究逐渐引起了研究人员的兴趣。利用预测出来的结果，可以分析交通系统所具有的周期性规律，从时间和空间上为交通管制、诱导提供了可靠的数据支撑。

交通流量作为一种典型的复杂模型，受到天气状况、道路拓扑结构、出行规律、节假日、道路运载能力等一系列因素影响，这些因素普遍具有非线性特点。在这些因素的影响下，对交通流量的预测在实际应用中往往难以达到很高的准确性，且由于城市规划、路网结构的不同，预测模型也很难具有高度泛化的能力。数学及统计学模型的运用是早期研究人员对于交通流量预测这一问题的主要选择。例如，以自回归滑动平均模型(ARMA)[1]为代表的均值算法以及以广义自回归条件异方差(GARCH)为代表的区间预测算法。但交通流量具有周期性、季节性、不稳定性等特点，传统的统计模型难以提供准确度高、稳定性好的预测结果。考虑到机器学习对于非线性系统的良好适应能力，已有学者将其引入该问题的研究之中，例如K邻域[2](KNN)、支持向量机[3](SVM)、随机森林[4]等方法。此外，也有一些研究通过算法提升机器学习的表现，Hu等[5]提出了结合粒子群优化方法(PSO)的支持向量回归方法(SVR)；
徐健锋等[6]提出的多机器学习竞争的模型获得了最优结果；
徐磊等[7]提出了利用奇异谱分解方法(SSA)对数据进行分解，再利用LightGBM模型对随机项进行预测。王博文等[8]将自回归滑动平均模型与支持向量回归方法进行组合，提出了一种残差优化组合预测模型。祁朵等[9]在KNN的基础上，将单日流量情况划分为多种交通模式，根据不同模式对参数进行优化来提升预测精度。研究表明，机器学习能够很好地探究交通流量数据的非线性化这一特点，但在使用此类方法前需要对数据进行细致有效的特征工程，这对研究人员的数据处理能力提出了很高的要求，并且在面对高维度多特征的数据时，预测的精度也会大幅下降。

随着深度学习技术在自然语言处理、图像识别等领域的广泛应用，已有许多研究人员将深度学习引入时序数据的预测之中，例如股价预测、天气预测[10]等方面。深度学习技术也被研究人员广泛应用于交通流量预测领域，用以解决传统预测方式中难以充分结合的时空特性，提升预测结果的准确性。Shao H等[11]将长短时记忆网络模型引入交通流量预测问题，在时间序列数据中捕获长期依赖关系的内在特征，以此提高预测精度；
刘明宇等[12]提出了利用门控循环单元(GRU)神经网络预测交通流量，利用交叉验证方法探究GRU的最佳单元个数；
晏臻等[13]提出了基于CNN-LSTM的预测模型，挖掘交通流量数据的时序特征，实现短期流量预测；
曹堉等[14]提出了一种利用遗传算法对时空节点进行选择后训练的反向传播网络(BPNN)用来进行短时交通流量预测；
李佩钰等[15]利用小波分析对数据进行处理，提升了BPNN的预测表现；
赵刚等[16]利用聚类方法将LSTM的历史误差与当前数据结合，以提升LSTM的表现；
蒋杰等[17]提出了利用改进ACO算法的全局优化能力改善BP神经网络在交通流量预测时易受局部极值影响的情况。

为了充分提取交通流量数据中的时空序列特征，基于上述研究，利用CNN的特征提取能力、BiLSTM的前后向数据关联性发掘能力以及注意力机制对重要信息的关注能力，该文构建了一种CNN-BiLSTM-AM组合模型。模型的主要思路可以概括为：首先，利用卷积神经网络对数据进行特征提取；
其次，引入BiLSTM网络来挖掘数据中所包含的时序性、周期性特征；
最后，引入点积注意力和全连接神经网络来输出预测结果。在本次研究中，采用了美国明尼苏达州I-94号公路每小时西行交通流量数据进行预测实验，最终预测结果的各项指标表明，所提出的模型较之其他基准预测方法在准确性、稳定性等方面表现更佳。

1.1 交通流量预测任务

交通流量[18]是指针对某个时间范围内，某一处交通系统所流动的交通实体数。交通流量预测任务从本质上来说，即是对交通流量、通行速度、车道占有率等参数在未来一段时刻进行预测。

交通流量数据作为一种常见的时序数据，其周期性、规律性较强，主要具有以下几个特点：

(1)交通流量数据具有很强的时间特性。在一个特定的观测点上，收集到的数据是一个随时间变化的连续型序列。其原因在于，交通实体的积聚和流失是一个连续的过程，反映到数据上则可以得出前后数据的关联性。

(2)交通流量对比其他时序数据表现出更强的周期性。交通出行往往与人们工作生活息息相关。对于一个特定的观测点而言，观测的数据往往以工作日为周期表现出时、日、周时间单位上的相似规律。在节假日之间同样存在着相似性的表现。

(3)交通流量还受到天气、气候、交通设施运转情况等因素影响。对于具有周期性的数据而言，还要考虑到不同特征影响下的变化规律，这在一定程度上也使得对交通流量的预测复杂度进一步上升。

基于上述特点不难得出，对于交通流量的预测的关键点在于如何充分利用数据的时序特性、周期特性以及复杂多样的外部因素。这也使得许多预测工作难以在复杂的系统上具有高精度、高适应性表现。

1.2 模型设计

1.2.1 基于卷积神经网络的特征提取

交通流量具有较强的时序性特点，同时又受到多种因素影响使复杂性进一步上升，因此预测起来存在一定的难度。已有研究表明，在时序数据处理上，一维CNN具有较强的特征提取能力[19]。考虑到交通流量内部存在的复杂特征，引入一维CNN网络可以提升整体预测模型的表现。一维CNN结构如图1所示。其中卷积核ω作用在第t个时间步输入数据xt∈Rs×f上，提取出特征矩阵Ct={Ct,1,Ct,2,…,Ct,s-1}∈Rτ×d。s表示时间步长的长度；
f为特征维度；
τ表示输出特征的长度；
d表示输出特征的维度，其大小由过滤器设置决定。

图1 一维卷积神经网络结构

1.2.2 BiLSTM神经网络

RNN在处理较远节点之间联系时易出现梯度消失或梯度膨胀问题[20]，而长短时记忆网络LSTM能够更好地保留距离较远节点提供的信息，提升了在更长时序数据上的表现。每个LSTM单元拥有遗忘门、输入门和输出门共三个门控结构[21]。LSTM单元各门控结构、隐藏层输出、细胞状态传递过程如公式(1)至公式(6)：

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ot*tanh(Ct)

(6)

不过，LSTM只将前向序列的信息输入神经网络预测结果，在训练模型时难以感知后向数据内容。双向长短时记忆网络(BiLSTM)的出现解决了对后向信息缺乏关注这一问题。所谓双向是指，在BiLSTM中包含一个前向LSTM单元和一个后向LSTM单元，每个LSTM单元与前文提及的LSTM结构一致，前向、后向两个单元之间相互独立。在图2中给出了BiLSTM网络的结构。现有研究表明，BiLSTM在时序数据上的预测结果优于LSTM[22]。

图2 BiLSTM网络结构

1.2.3 注意力机制

在二十世纪八十年代，Treisman等[23]提出了注意力机制(Attention Mechanism，AM)，其作用原理在于对不同特征给予不同的关注度，即使用不同的权重提升或降低特征对于整体数据的重要性[24]。注意力机制已被广泛应用于文本识别、计算机视觉[25]等领域。

在交通流量预测中，作为多特征的时序数据，可能存在部分特征与实际预测结果关联性较小，以及异常值对预测结果的影响巨大等情况，如果直接使用神经网络进行预测可能会使结果的准确度大幅降低。对于上述存在的问题，在整体模型中融合注意力机制，使之更加关注有效的数据特征，最终获取准确的预测结果。

1.2.4 CNN-BiLSTM-AM模型

基于上述结构，该文提出了基于CNN-BiLSTM-AM的组合模型，模型结构如图3所示。模型由几个层级构成：输入层、一维CNN层、Dropout层、BiLSTM层、注意力层、Flatten层及全连接层。

对于交通流量的预测，提出的模型主要通过如下步骤实现：

(1)对于处理过的时序数据X={x0,x1,…,xt}，其中xi∈Rs×f,i∈(0,t)，s表示每个数据的时间窗口长度，f为数据的特征维度，利用一维CNN对数据进行特征提取，并且使用填充方法来确保一维CNN提取特征后的数据保持原有的时间窗口长度。

(2)对于提取后的数据c={c0,c1,…,ct}，ci∈Rs×d,i∈(0,t)，d表示卷积神经网络的过滤器大小。添加Dropout层可以保证在不影响输出维度大小的情况下，随机屏蔽部分隐藏层神经元，以此达到增强模型适应能力的目的。

图3 CNN-BiLSTM-AM组合模型

(3)BiLSTM包含两个LSTM单元，用于接收前后向信息。BiLSTM传递过程如公式(7)～公式(9)。

hf,t=f(Wf[xt,hf,t-1])

(7)

hb,t=f(Wb[xt,hb,t+1])

(8)

ot=Wo[hf,t,hb,t]+bo

(9)

其中，Wf、Wb分别表示前向、后向单元的权重矩阵；
t为时刻信息；
hf,t、hb,t分别对应前向单元、后向单元的隐藏层输出；
ot表示BiLSTM的输出；
Wo表示权重矩阵，bo为偏置单元。BiLSTM层接收Dropout层输出的数据，挖掘交通流量中存在的周期性和时序性。

(4)将BiLSTM的输出作为注意力机制的输入，通过点乘注意力进一步提升预测数据的权重大小，使整体模型对于关键信息的感知能力进一步增强。采用点乘注意力方法，其公式为：

(10)

Attention(Q,K,V)=Softmax(Q·KT)V

(11)

z是一个K维向量，在计算后，使得元素范围在(0,1)之间；
Q、K、V分别表示Query、Key、Value[26]，其实质是对输入矩阵进行线性变换。变换过程如图4所示，其中X为BiLSTM输出矩阵，WQ、WK、WV分别表示Q、K、V的权重矩阵；
权重矩阵在反向传播中进行更新。

(5)在经过注意力机制处理后，加入Flatten层完成到全连接层的过渡，最后使用全连接神经网络输出预测结果。

图4 注意力机制线性变换过程

2.1 数据集

实验采用美国明尼苏达州I-94号公路每小时西行交通流量数据，数据采集时间由2012年至2018年。数据集采样时间为每小时采集一次，数据包含节假日信息、降雨量、降雪量、时间、交通流量等特征信息。

由于数据集中存在各特征数据之间差异过大问题，采用了最值归一化将原始数据映射到0～1之间，在一定程度上规避因量纲引起的预测模型表现不佳的情况。最值归一化公式如下：

(12)

2.2 模型训练

从归一化后的数据集中选取了29 808个小时的数据用于组合模型的训练，训练集和验证集的比例为8∶2；
取数据集中连续72小时交通流量数据用作测试实验。CNN-BiLSTM-AM模型的各类超参数设置如下：损失函数选用在收敛速度上有较好表现的MSE；
优化器选用对大规模数据及多特征维度有较好适应能力的Adam；
迭代器、批尺寸的大小将会影响到模型的拟合情况和训练速度，实验中分别设置为50、40；
学习率对收敛过程影响较大，其大小设置为0.001；
一维CNN网络卷积核大小设置为2，卷积步长为1，填充方式选择SAME来保持特征维度；
Dropout层比例设置为20%；
BiLSTM单元数共64个，激活函数为sigmoid。

2.3 评价指标

该文对于各个模型的预测效果使用MSE、RMSE以及MAE三种指标进行评价比较。并且通过判定系数R2来衡量预测结果的拟合程度。各指标公式如式(13)至式(16)：

(13)

(14)

(15)

(16)

2.4 实验结果与对比

将CNN-BiLSTM-AM组合模型与CNN-BiLSTM、LSTM、CNN三种基准模型进行平行对照实验。对于各个模型的预测结果分别使用MSE、RMSE以及MAE进行对比。用R2衡量所提模型的拟合程度。

模型利用前文提及的测试集进行预测。对预测的结果及真实数据进行反归一化后，提出的CNN-BiLSTM-AM模型的预测结果及三种基准模型的预测情况如图5所示。CNN-BiLSTM-AM模型训练时的损失如图6所示。各模型的预测表现均利用上述评价指标，其结果见表1。

表1 各模型预测结果评价指标

图5 不同模型预测结果对比

图6 CNN-BiLSTM-AM训练损失

结合图5和表1，在单独使用CNN网络时，可以在一定程度上完成交通流量的预测工作，这得益于CNN网络具有对特征较好的提取能力，能够使得外部因素特征对于交通流量的影响在模型中更好地体现出来，但模型对数据中包含的时序性感知不强，在各个指标上的表现较差，预测结果误差较大。LSTM网络由于其结构特征在时序数据处理上有着不错的表现，但在多特征因素的影响下，预测结果并不理想。相比之下，BiLSTM具有的前后向数据感知能力，能够使得前后向数据之间表现出更强的因果性。因此，该文将CNN与BiLSTM网络进行组合，使得模型对特征因素及时序性的挖掘能力进一步提升，最终预测结果中该模型的MSE、RMSE、MAE分别为0.002 97、0.054 54、0.032 55，相较于单独使用CNN网络或LSTM网络有了一定的提升，但该组合模型在关键点上的预测出入仍然较大，反映出模型在泛化能力上的不足。因此，在上述模型的基础上，该文提出了CNN-BiLSTM-AM组合模型，在该模型中，点积注意力提升了整体模型对于重要信息的关注能力，抑制了非关键信息对于模型的影响，增强了模型的泛化能力。

结合表5中信息可得，CNN-BiLSTM-AM组合模型在各指标表现上均优于其他三种基准模型，相比于CNN-BiLSTM模型，本模型的MSE降低了11.11%，RMSE降低了5.85%，MAE降低了27.13%，可以看出，引入注意力机制对于整体模型的提升效果明显。利用判定系数R2来进一步评估CNN-BiLSTM-AM模型输出结果对真实值的拟合情况。最终得R2值为0.970 01，表明提出的组合模型给出的预测数值与实际交通流量值之间差距较小，拟合程度高。由此可见，与其他三种基准模型相比，CNN-BiLSTM-AM组合模型的算法结构较为合理，预测准确度更高，稳定性更好。

考虑到交通流量数据所具有的时序特性和外部因素特征，该文提出了一种融合一维CNN网络、BiLSTM网络以及点积注意力机制的CNN-BiLSTM-AM的组合预测模型。该模型利用一维CNN的特征提取优势、BiLSTM对于时序数据前后向的感知能力以及点积注意力机制对重要特征的关注能力，充分地挖掘原始数据中所包含的时间、天气、温度等关键信息，使得模型具有更好的特征感知能力。通过实验对比表明，对比其他基准模型，提出的预测模型在各指标上有更好的表现，预测结果的准确度以及稳定性较高。

但该方法也存在着不足：模型层级增加的必然结果就是加重了运算负担，不可避免地出现训练速度下降问题；
点乘注意力机制对于重要因素的关注度不够；
对于突变的数据点预测存在一定误差。这些问题应在后续的研究中予以解决。

猜你喜欢交通流量时序注意力让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于Sentinel-2时序NDVI的麦冬识别研究中国农业信息(2021年3期)2021-11-22基于XGBOOST算法的拥堵路段短时交通流量预测建材发展导向(2019年11期)2019-08-24基于GA-BP神经网络的衡大高速公路日交通流量预测中国交通信息化(2018年7期)2018-09-14基于FPGA 的时序信号光纤传输系统电子制作(2017年13期)2017-12-15“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13一种毫米波放大器时序直流电源的设计电子制作(2016年15期)2017-01-15A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21基于复合卡和ETC的交通流量采集研究中国交通信息化(2014年11期)2014-06-05MLFF系统在交通流量控制中的应用中国交通信息化(2014年8期)2014-06-05