您好, 访客   登录/注册

基于时空建模的视频帧预测模型

来源:用户上传      作者:

  摘 要:视频帧预测是计算机视觉领域一个重要的研究领域,并且拥有广泛的应用。目前,常用的视频帧预测模型虽然取得了一定的效果,但由于这类模型并不能在时空信息上同时建模,因此难以在更加复杂度的现实场景下应用。针对此问题,文中提出一种深度时空建模神经络。该网络通过预测未来光流,并利用该光流对前一帧图像进行采用的方法来预测未来图像,此外分别加入卷积LSTM与自注意力机制进行时空信息的建模。文章在Caltech行人数据集上进行了充分的实验,并取得了较好的实验结果。
  关键词:视频帧;深度学习;光流预测;自注意力机制;深度时空建模;计算机视觉
  中图分类号:TP391.4 文献标识码:A 文章编号:2095-1302(2020)02-00-04
  0 引 言
  随着深度学习的快速发展,视频帧预测已经成为一个研究的热点方向,并且在智能驾驶领域拥有广泛的应用前景。例如,研究人员可以利用历史帧的图像信息,分析车外行人和车辆的运动轨迹信息,从而来预测未来车外物体的位置,提前对车辆进行控制,在辅助驾驶中可以避免交通事故的发生,此外,也可提升无人驾驶的安全性。
  目前,对于视频帧预测问题,大部分模型都是通过直接生成的方法来对未来的图像进行预测。Srivastava等人利用LSTM解决时间信息的传递,并通过编码器到解码器的方法進行未来帧的生成[1-2]。此外,Lotter等人以CNN-LSTM-deCNN为基础,利用对抗学习的思想进行视频序列的预测[3]。但是LSTM并不能学习图像的空间信息。因此,Lotter等人利用卷积LSTM进行图像空间信息的学习,并通过减小向前预测误差的方式提高未来帧预测的效果[4-5]。然而由于现实场景的复杂性,直接生成的方法难以保证所有像素都生成得准确,往往造成模糊的预测。
  此外,通过利用两帧之间光流进行采样的方法[6-7]常用于图像的生成,可以避免生成图像模糊的。例如,Liu等人通过预测历史帧和未来帧之间的光流[8],并利用该光流在历史帧上采样的方法(光流采样法)来预测未来图像,并取得了较好的效果。
  因此,本文针对于直接生成方法预测视频帧会产生模糊的情况,提出了一种利用预测光流采样法来生成未来图像的模型。不同于常见的光流采样法,该模型利用共享编码网络进行连续帧的特征提取,并加入由卷积LSTM[5]组成的时空信息模块进行连续特征图的信息传递,以保证时空信息的一整性。此外,还加入自注意力机制[9],在生成的特征图上进行空间信息学习。在完成时空信息建模后,对得到的特征图进行反卷积生成未来光流,并通过采样的方法得到最终预测的未来该模型分别使用两大模块进行时空信息的建模,经试验证明该模型具有较好的结果。
  1 模型结构
  图1展示了本文模型的主要结构,包括编码网络、时空信息学习模块、自注意力学习模块以及解码网络。
  1.1 编码网络
  在深度学习领域,卷积神经网络(CNN)如AlexNet[10],VGG[11]和ResNet[12]常用于提取图像的特征,以用于后续的检测、跟踪等任务。本文在降低模型复杂度的前提下构建编码网络,以提取连续帧的图像信息。如图1所示,输入连续4帧图像I14={I1, I2, I3, I4},并通过共享编码网络E得到连续4幅特征图Z14={Z1, Z2, Z3, Z4},其中每一个特征图的计算公式如下所示:
  该编码网络E主要由卷积(convolution layer)、最大池化层(max pooling layer)、批量归一化层(batchnormalization layer)以及线性整流激活函数层(ReLU layer),其中采用5×5,5×5,3×3和3×3的卷积核。
  1.2 时空信息学习模块
  这里将编码网络E得到的4组特征图Z14输入到由卷积LSTM组成的时空信息学习模块S,进行时空信息的建模。
  不同于传统的LSTM,卷积LSTM既可以像LSTM一样进行时间建模,同时也可以在空间维度上建模。每一个时间结点上输入对应的特征图,输出对应的隐藏信息和细胞状态。因此,每个时间结点的卷积LSTM计算公式如下所示,
  式中:t=1, 2, 3, 4;h0和c0初始化为0;“*”和“”分别代表卷积操作和元素对位相乘操作。因此,这里将4个时间结点的卷积LSTM操作组成时空信息学习模块S,并输入Z14,最终得到特征h4,其计算流程如公式(3)所示:
  1.3 自注意力学习模块
  在卷积神经网络当中,由于卷积核的尺寸大小是有限的,因此卷积操作只能覆盖像素点周围的临近区域,无法获得较远区域的特征,造成了特征信息的损失。为避免此类问题,研究人员经常用图像的多尺度方法来解决此问题,然而这样却造成了模型过于复杂。因此,自注意力学习机制被提出。它的计算流程如图2所示。
  自注意力机制通过计算图像中任意两个像素点之间的关系进而获取整幅图像的全局几何特征。在图像预测过程中,需要根据特征图中各特征点之间的关系,生成未来特征图中各位置上的特征值。因此,在模型中利用自注意力模块A进行空间建模,其计算过程如下所示:
  在我们的模型当中,通过利用时空信息模块S和自注意力学习模块A可以充分对编码后的特征图进行时空建模,学习特征图之间的时空信息以得到最终的特征图M。
  1.4 解码网络
  解码网络D通过解码特征图M生成最终的光流F,其计算流程下所示:
  解码网络D由三个反卷积层和一个卷积层组成。其中,每个反卷积层包括双线性插值上采样函数(bilinearsampling)、卷积层(convolution)批量归一化层(batch normalization layer)以及线性整流激活函数层(ReLU layer)。卷积层相比较于反卷积层去掉了双线性插值上采样函数。解码网络D中每个卷积核分别为3×3,3×3,5×5和5×5。   1.5 訓练学习
  对于模型的训练,在此采用l1重构误差。对应的最小化目标函数为:
  此外,采用Adam优化器,其中参数β1=0.9,β2=0.999。训练过程中的学习率为0.001。模型的权重初始化方法为Xaviers normalized,并且卷积LSTM的细胞状态初始化为0。本文的实验基于Pytorch深度学习框架下实现,并在单个英伟达1080ti GPU上训练。
  2 实 验
  2.1 数据预处理
  实验在Caltech行人数据集[13]上进行了训练及测试,并与其他算法进行了对比。该数据集是由安装在汽车上的摄像头在城市道路上进行采集,视频时长约10 h,且大小为640×480。其中:训练集有71个视频序列;测试集有66个视频序列。
  在实验前,首先进行分帧处理,然后将每一帧图像的大小重新调整为256×256,并且其中每个像素点的值归一化到-1~1。在训练过程中采样4帧去预测下一帧。一共训练大约100轮。在测试阶段,同样使用连续4帧去预测下一帧图像。实验中,通过使用MSE和SSIM两个指标去评价预测图像的质量,其中,MSE越小、SSIM越大代表预测效果越好。
  2.2 单帧预测
  本文利用前四帧图像预测下一帧图像并与目前效果最好的三种算法进行了对比,见表1所列。通过对比发现,Dual Motion GAN[14]算法的MSE最低,能达到0.002 41;其次,它的SSIM最高,能达到0.899。BeyondMSE[15]的效果在所有算法中最差MSE有0.003 26,SSIM为0.881。本文模型的SSIM值要高于其他所有算法,可以达到0.930。
  通过图3预测图像和真实图像的对比可知,无论途中的车辆以何种方向运动,本文模型能够准确预测运动目标在下一帧的位置,并且当图像中运动目标较多时,本文模型依旧能够准确预测所有目标的位置。因此,本文算法有较好的图像预测能力,可以将未来图像进行重构。
  2.3 多帧预测
  在视频帧预测领域中,长时间的预测也是一个重点考虑的问题。因此,同样在Caltech数据集上测试了模型的多帧预测能力。在此仍然使用输入4帧预测1帧的模型进行测试,每次将预测帧图像加入到输入序列当中,并把输入序列的最后4帧做为输入再次进行下一帧预测。见表2所列,将本文算法与BeyondMSE[15]和Dual Motion GAN[14]进行多帧效果对比,并用SSIM做为评价指标。
  由表2可知,本文模型在未来2帧帧的SSIM值要远大于其他算法,但是在第3帧预测效果却要差于其他两种算法,这是因为其他两种算法都输入10帧的图像,而本文算法的图像仅输入4帧,因此在长时间预测方面满意保持较好的结果。同时,也对多帧预测的输出结果做了可视化,如图4所示,在此预测了未来连续5帧的图像。通过和真实图像比较可以发现,尽管图中的运动物体较多,但是本文的模型能够准确预测未来运动目标的位置,并且能够生成十分逼真的图像。因此,本文模型完全能够应用到预测未来多帧的情况。
  2.4 光流预测
  在预测未来图像的同时,本文模型有预测未来光流的能力。因此,对模型采样前得到的未来光流图进行了可视化,如图5所示。
  通过观察图5可以发现,本文模型能够精准的预测图中汽车的运动趋势,可见该模型可以准确的预测未来光流。
  3 结 语
  本文提出的基于时空建模的视频帧预测模型通过预测未来光流的方法来预测未来图像。其中编码模块能够对输入图像进行特征的提取。然后,嵌入的时空信息模块和自注意力学习模块可以进行时空信息建模。其次,通过解码网络可以准去预测未来光流,进而通过采样的方法预测未来图像。大量的实验也证明了本文模型有较强的单帧预测能力和多帧预测能力。在接下来的工作中,主要解决多输入帧数情况下的预测,以及提高多帧预测的性能。
  参 考 文 献
  [1] SRIVASTAVA N,MANSIMOV E,SALAKHUTDINOV R. Unsupervised learning of video representations using LSTMs [C]// Proceedings of international conference on machine learning. 2015:843-852.
  [2] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J]. Neural computation,1997,9(8):1735-1780.
  [3] LOTTER W,KREIMAN G,COX D. Unsupervised learning of visual structure using predictive generative networks [J]. arXiv preprintarXiv:1511.06380,2015.
  [4] LOTTER W,KREIMAN G,COX D. Deep predictive coding networks for video prediction and unsupervised learning [J]. arXiv preprint arXiv:1605.08104,2016.
  [5] SHI Xingjian,CHEN Z,WANG H,et al. Convolutional LSTM network: a machine learning approach for precipitation now casting [C]// Advances in Neural Information Processing Systems. 2015:802-810.   [6] RANJAN A,BLACK M J. Optical flow estimation using a spatial pyramid network [C]// IEEE Conference on Computer Vision and Pattern Recognition. 2017:2720-2729.
  [7] JADERBERG M,SIMONYAN K,ZISSERMAN A. Spatial transformer networks [C]// Advances in Neural Information Processing Systems. 2015:2017-2025.
  [8] LIU Z,YEH R A,TANG X,et al. Video frame synthesis using deep voxel flow [C]// Proceedings of the IEEE International Conference on Computer Vision. 2017:4463-4471.
  [9] ZHANG H,GOODFELLOW I,METAXAS D,et al. Self-attention generative adversarial networks [J]. arXiv preprint arXiv:1805.08318,2018.
  [10] KRIZHEVSKY A,SUTSKEVER I,HINTON G. Imagenet classification with deep convolutional neural networks [C]// NIPS. Curran Associates Inc. 2012.
  [11] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:1409.1556,2014.
  [12] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.
  [13] DOLLAR P,WOJEK C,SCHIELE B,et al. Pedestrian detection: a benchmark. computer vision and pattern recognition,CVPR 2009 [C]// IEEE Conference on. 2009:304-311.
  [14] LIANG X,LEE L,DAI W,et al. Dual motion gan for future-flow embedded video prediction [C]// Proceedings of the IEEE International Conference on Computer Vision. 2017:1744-1752.
  [15] MATHIEU M,COUPRIE C,LECUN Y. Deep multi-scale video prediction beyond mean square error [J]. arXiv preprint arXiv:1511.05440,2015.
转载注明来源:https://www.xzbu.com/8/view-15153678.htm