您好, 访客   登录/注册

基于关注度网络的行为识别

来源:用户上传      作者:

  摘要:行为识别是计算机视觉领域的一个重要研究课题,具有广泛的应用前景。针对现实中对视频整体序列结构建模会增加大量的冗余信息,提出了一种基于时空关注度长短期记忆网络(spatial-Temporal Attention Long-Short Term Memory.STA-LSTM)的行为识别框架,提高了行为识别效率。利用GoogLeNet逐层卷积视频帧,自动聚合蕴含边、角和线等底层特征以生成具有显著结构性的高层语义特征。在LSTM中引入关注度网络来学习关注度权重,利用光流掩膜分割有效的运动前景区域,从而优化关注度权重,将其与卷积特征相结合作为STA-LSTM模型的输入特征,从而进行行为识别。在UCF101数据集上的实验结果表明,本文方法优于当前的一些先进方法。
  关键词:行为识别;长短期记忆网络;关注度;光流掩膜
  0引言
  识别视频中的行为动作是计算机视觉重要任务之一,其目的是从视频中提取、分析和表达行为动作信息。该技术正被广泛应用于视频监控、人机交互、医疗看护等领域。随着深度学习技术在计算机视觉中越来越多的应用,也为研究行为识别开拓了新的方向。然而深度学习本身由于需要大数据量和网络参数数目过多等局限性,使得模型在计算方面付出了较大的代价。对此,本文重点研究如何挖掘视频中的有效信息,设计泛华能力强的深度神经网络,识别视频中的行为动作。
  早期的一些研究主要是利用卷积神经网络来学习视频中行为的深度表达。Karpathy等人介绍了一种多规模Sports-1M视频数据集,来训练深度卷积神经网络。Simonyan等人提出一种双流卷积神经网络,通过分别处理RGB图像和光流图中的外观和运动信息达到了比较好的行为识别效果。然而,使用卷积神经网络仅能捕捉极少的时序信息。对此,循环神经网络能够较好地解决这个问题,尤其是LSMe.在视频序列建模方面效果显著。然而现实场景中,由于视频时长以及视频中动作所发生的区域不同,对视频整体序列结构建模会增加大量的冗余信息。对此,本文在循环神经网络中引入关注度机制,其能够模拟人类视觉注意力转移机制,将有限的认知资源聚集于场景中重要的刺激,而抑制那些不重要的信息。具体来说,利用GoogLeNet逐层卷积视频帧,自动聚合蕴含边、角和线等底层特征,以生成具有显著结构性的高层语义特征。在LSTM模型中引入关注度机制,来学习关注度权重系数矩阵。由于视频中的背景噪声和相机移动等因素的影响,利用卷积神经网络作用于RGB图像得到的特征不能准确地捕捉视频中的行為动作信息。针对这个问题,本文利用光流掩膜对视频中的运动前景区域进行分割,以此来校正网络所学习到的关注度权重。将关注度系数和卷积特征相结合,生成新的特征激活图序列。其中高值表示显著性区域,即得到STA-LSTM网络的显著性输入特征,然后对特征进行学习,从而识别视频中的行为。本文主要贡献是:
  (1)提出了一种新颖的深度学习框架——STA-LSTM用于视频中的行为识别,在端到端的处理过程中,本文方法可以准确地捕捉行为的外观信息和动作信息。
  (2)提出的STA-LSTM模型能够有效地去除冗余信息,提取行为发生的有效区域,提高模型识别效率。
  (3)将本文方法应用于UCF101数据集取得了良好的识别效果,与当前一些优秀的研究工作相比,在识别性能方面得到了显著地提升。
  1相关工作
  行为识别的目的是从未知视频或图像序列中自动识别其中进行的行为动作,行为本身是相关联的一系列二维空间图像在时间方向上的连接。因此,行为本身具有空间和时间上的结构关联特性。行为特有的空间和时间结构特性,为许多研究者指明了行为识别的正确方向。
  早期行为识别主要使用一些传统算法,Vemulapalli等人在Lie群组中用曲线表示每个动作并且使用SVM分类器来识别行为,Zanfir等人提出了一种移动姿态框架,结合修改后的kNN分类器进行低延迟行为识别。Carlsson等人通过从动作视频中提取到的关键帧以及保存的动作原型之间做模板来完成行为,其中,形状信息是用Canny边缘检测器得到的边缘数据来表示的。这种方法能够容忍图像和样本之间一定程度的形变,且能够准确识别不同人体姿态形成的相似的形状。Tang等人采用隐马尔科夫(HMM)模型建模行为的隐状态变化过程。Pei等人将行为分解为具有语义原子动作集合并定义原子为行为体与目标交互关系的集合,通过与或图学习原子动作的时序关系,能够有效剔除时序错误的与或图行为解释,提升了识别及预测行为的性能。
  后来深度学习技术在计算机视觉中得到广泛应用,Heilbron等人)使用序列编码器(即LSTM),可以模拟随着时间推移的C3D特征的演变,使用定位模块生成整个输入视频中不同时间长度的候选提议的开始和结束时间,以进行行为提议。Simonyan等人通过在光流上训练一个神经网络来整合运动信息。利用外观和光流特性,动作识别的准确性显著提高。Lin等人尝试使用序列过程提取时空特征,即提取一维时间信息到二维空间信息。该端到端系统考虑长短运动模式,并实现良好的性能。NC等人运用深度神经网络模型,结合帧序列分析视频的长期依赖信息用于行为识别。Srivastava等人提出了一种基于兴趣点LSTM的无监督训练方法,使用编码器LSTM将输入序列映射成固定长度表示;然后使用单个或多个解码器LSTm.对其进行解码以执行输入序列的重构或预测未来序列:最后对这个无监督的预训练LSTM进行微调,以适应人类行为识别任务。
  融入注意力机制的循环网络模型可以提取行为发生的时空有效区域,有效剔除视频中的冗余信息。Yao等人介绍了一种时序注意力机制用于视频标题生成。Bazzani等人提出一种关注度模型学习视频中的重要区域,对每一帧使用高斯混合进行视觉关注度建模。Sharma等人使用三层LSTM网络,引人注意力机制,在网络中加入关注区域的移动、缩放机制,连续部分信息的序列化输入,学习视频的关键运动部位。受这些研究工作的启发,本文使用光流掩膜对视频中的运动前景区域进行分割,在不增加模型复杂度的情况下,还能利用重要的运动信息,能够有效提取场景中显著性区域,实验结果表明本文方法取得了良好的识别正确率。   2 模型框架
  本文的模型架构如图1所示。首先利用GoogLeNet对视频帧序列进行卷积,提取最后一层卷积层特征:在LSTM中引入关注度机制,作用于卷积层特征的每一个区域;利用光流掩膜提取每一帧的运动前景区域作用于关注度网络,得到新的关注度权重矩阵,将之与卷积层特征相结合。作为STA-LSTM模型的输入特征,通过对特征的学习,进而对视频中的行为进行识别。
  2.1 特征提取
  本文使用在ImageNet数据集上预训练好的GoogLeNet模型,逐层卷积已重新调节大小为224×224的视频帧序列,提取最后一层卷积层特征。此卷积层包含1024个特征图,包含了输入视频帧的空间外观信息,其形状为7x7×1024大小的特征立方体。因此,在每一个时间步长t.提取的向量维度是49x 1024。将这些特征立方体分解为特征片段:Gt=[Gt.1,Gt.2,…Gt.49],这49个特征片段对应于输入视频帧的不同区域,本文的关注度模型就是选择性地关注这49个区域。
  2.2 时空关注度的表达
  使用GoogLeNet得到最后一层卷积层特征之后,在LSTM中引入关注度机制,作用于卷积层特征的每一个区域。同时,利用光流掩膜分割有效的运动前景,从而修正行为发生的有效区域,即本文提出的STA-LSTM模型,如图2所示。图中左侧蓝色框内为初始化记忆单元和隐单元。为了达到快速收敛的效果,使用两个三层感知器来初始化STA-LSTM模型的记忆单元和隐单元,以此来计算初始的关注度得分公式如下:
  行为识别中,视频帧中仅有一部分区域和行为发生相关。显然,为视频帧中不同的区域分配不同的关注度权重,只需要关注这些行为发生的区域。如图1所示,针对打网球这一行为而言,主要关注点为手臂、球拍和网球本身。由于视频帧本身是连续的,相邻帧之间存在强烈的时序依赖关系,所以可以利用t-1时刻的编码特征来预测t时刻的关注度权重,然后用此权重来精炼模型的输入特征,t时刻单个STA-LSTM单元结构如图2所示。使用关注度模型作用于视频帧中的7x7个区域来预测49个区域的关注度权重,其得分lt.i可以表示为:
  其中,Wl.i表示softmax函数对应于第i个位置的权重,i=1.2.…,49.t=1.2.…,T;T为序列化帧数的长度;lt.i表示第‘帧的第i个区域的关注度权重。
  由于场景中存在背景噪声的干扰,而且同种行为可以发生在不同的场景中,因此,人们利用光流掩膜对运动前景和后景进行分割,对行为的发生区域进行初始划分,表示为mt.i,当分割后的第i个区域为运动前景时,mt.i为1;当分割后的第i个区域为背景噪声时,mt.i为0。对视频帧的前景和后景进行分割可以对关注度模型扫描区域加以有效地限制。提取出前景区域后,对前景区域中的关注度得分进行统计求和。此处,设置和的阈值为Th.定义新的时空关注度得分St.i,如下所示:
  2.3 STA-LSTM模型
  使用光流掩膜对行为前景和后景进行分割,有效地限制了关注度模型的关注范围,而不是利用光流特征和外观特征分别计算關注度得分。在利用外观和动作特征的同时还降低了网络复杂度,减少了计算量。得到上述关注度得分后,如图2所示,STA-LSTM模型的输入可以表示为:
  其中,W和b表示LSTM参数。公式(5)、(6)和(8)中的ft真是忘记门,it是输入门,ot是输出门。gt如公式(7)计算所得,表示t时刻候选记忆单元状态。公式(9)和(10)中的ct和ht表示t时刻记忆单元状态和隐单元状态,xt代表t时刻的输入特征。σ(·)和tanh(·)表示sigmoid和tanh激活函数,⊙表示哈达马积。
  STA-LSTM模型的核心就是忘记门和输入门,忘记门根据当前的输入xt、上一时刻状态ct-1和上一时刻输出ht-1,共同决定哪一部分记忆需要被遗忘。输入门根据xt,Ct-1和ht-1决定哪些部分将进入当前时刻的状态Ct。STA-LSTM结构在计算得到新的状态Ct后,通过输出门根据最新的状态Ct、上一时刻的输出ht-1和当前的输入xt来决定该时刻的输出ht。
  最后,使用sofimax函数作用于最后一个隐单元得到最终结果:
  yd=softmax(WshT+bs),(11)
  其中,yd代表模型预测值;d表示子序列的样本编号;Ws和bs为softmax函数的参数。
  2.4 损失函数
  本文的样本损失函数如下:
  其中,第一项表示交叉熵损失函数,第二项表示模型其它参数的正则化约束。
  3 实验
  3.1数据集
  本文方法所用的数据集为UCFl01.其中包含13320个视频,分为101种行为类别,选取每个类别视频总数的三分之二作为训练集,剩下的作为测试集。所有视频均采集于现实场景,在相机移动、物体外观、人物姿态等方面变化多样,因此广泛应用于各种行为分析的研究。   3.2 实验细节及评价标准
  将所有视频分解为视频帧序列,并将分辨率重新调整为224×224大小,将视频帧序列输入在ImageNet数据集预训练好的GoogLeNet模型中。本实验取其最后一层卷积层特征作为STA-LSTM模型的输入,STA-LSTM结构隐单元的数量为1024.权值衰减系数人设为10-5,优化算法使用Adadelta.深度学习框架为了heano。模型在训练和测试时序列化输入帧的数量均为了(T=16)帧,将视频帧按照步长为1分成多个T帧的子序列。在测试阶段,针对每个视频预测其所有子序列的所属类别,并和标签值相比较统计正确的类别数,作为该视频的识别正确率,最后对所有视频的正确率求均值作为最终的识別正确率。
  3.3 实验结果及分析
  首先,通过表1来验证本文的时空关注度对识别效果产生的影响。其次,通过设置前景区域中时空关注度得分和不同阈值(Th),观察模型在UCF101数据集上的识别效果,见表2。最后将本文方法和当前一些优秀方法进行比较,比较结果见表3。由表1可明显看出,在引人时空关注度后,本文所提出的新模型所取得的效果显著,从而证实了本文方法可以应用于行为识别。
  由表2可知,不同的Th值对实验结果有很大的影响。当Th较小时,不能提供有效的参考区域,当Th较大时,由于背景噪声、相机移动、光照条件等影响,造成前景分割的不准确,容易对关注度模型矫正过度。经实验验证,当Th值为0.7时,识别效果最佳。
  表3表明,与当前一些优秀方法相比,本文方法所达到的识别正确率更高。而且,相比于其它关注度方法而言,本文通过光流掩膜分割运动前景区域后,模型能够更有效地关注视频中显著区域,提高识别效率的同时并没有增加模型复杂度。如图3所示,图中(a)、(b)、(c)分别表示原始视频帧、本文方法所学习到的显著性区域、Soft Attention Model学习到的显著性区域,可以看出本文方法能够更准确地学习显著性区域。为了进一步论证本文关注度网络的效果,如图4所示,在“颠球”这一行为中,本文方法可以准确地捕捉足球、膝盖和脚等显著性区域。
  为了更详细地观察本文方法的细节效果,逐帧定位单个视频的具体识别情况。这里以该帧为首的子序列的识别正确率作为该帧的识别正确率。抽取一个行为类别为“扣篮(Basketball Dunk)”的视频,如图5所示,观察该视频全部帧的识别情况。为了便于观察,本图只选取识别正确率排名前三的类别,如图6所示,分别为“扣篮”、“投篮(BasketballShooting)”和“扣球(Volleyball Spiking)”。显然,本文方法将该视频正确地识别为“扣篮”,因为“投篮”和“扣篮”的相同点就是这两种行为都需要篮球,“扣球”和“扣篮”相似之处在于“扣”这一动作特性,在不影响判别准确性的前提下,本文方法也将“扣篮”这一行为以微小的概率预测成“投篮”或者“扣球”这两种行为。
  4 结束语
  本文提出一种循环时空关注度网络,用于视频中的行为识别。通过外观等特征学习视频中的显著性区域,同时利用光流掩膜分割运动前景区域对关注度网络学习到的显著性区域进行校准划分,使得模型能够更准确地关注视频中的显著性区域从而捕捉更重要的信息,提高行为识别效率。实验结果表明,与当前一些优秀方法相比,本文方法所达到的识别正确率更高。相对于UCF101的行为类别较为简单易理解。未来,希望本文的方法可以应用于更加复杂的视频场景中,如大型监控场景下的视频理解、异常检测等,将有助于维护公共安全等领域。
转载注明来源:https://www.xzbu.com/8/view-15125612.htm