基于局部描述子的人体行为识别-AET-电子技术应用

基于局部描述子的人体行为识别

来源：电子技术应用2012年第7期

齐美彬1,2，朱启兵1，蒋建国1,2

1. 合肥工业大学计算机与信息学院, 安徽合肥 230009； 2. 合肥工业大学安全关键工业测控技术教育部工程研究中心, 安徽合肥 230009

摘要： 提出一种新的局部时空特征描述方法对视频序列进行识别和分类。结合SURF和光流检测图像中的时空兴趣点，并利用相应的描述子表示兴趣点。用词袋模型表示视频数据，结合SVM对包含不同行为的视频进行训练和分类。为了检测这种时空特征的有效性，通过UCF YouTube数据集进行了测试。实验结果表明，提出的算法能够有效识别各种场景下的人体行为。

关键词： 行为识别光流词袋时空特征兴趣点

中图分类号： TP391.41
文献标识码： A
文章编号： 0258-7998(2012)07-0123-03

Human actions recognition based on local descriptor

Qi Meibin1,2, Zhu Qibing1， Jiang Jianguo1,2

1. School of Computer and Information, Hefei University of Technology, Hefei 230009, China; 2. Engineering Research Center of Safety Critical Industrial Measurement and Control Technology, Ministry of Education, Hefei University of Technology，Hefei 230009, China

Abstract： This paper presents a new local spatial-temporal feature for identifying and classifying video sequences. Spatial-temporal interest points are detected by combining SURF and optical flow. Corresponding descriptors are used to describe the interest points. Video data is represented by famous bag-of-words model. SVM is used to train and classify videos contained various human actions. To verify the efficiency of our descriptor, we test it on UCF YouTube datasheet. Experimental results show that proposed method can efficiently recognize human actions under different scenes.

Key words : actions recognition; optical flow; bag-of-words; spatial-temporal feature; interest point

视频监控系统存储了大量数据，但是大部分情况下需要人工来对监控场景中的目标行为和事件做出分析和判断。随着监控技术的发展，人们开始要求计算机能够自动识别监控场景中不同类型的行为。

   人体行为识别面临诸多困难和挑战。首先，同一种行为表现各异，没有固定的运动模式;此外，由于背景和光照等环境的不断变化，目标之间经常发生遮挡，使得行为识别非常困难。人体行为识别的本质是三维时空数据的分类问题，即将待识别的行为序列与预先标记好的代表典型行为的参考序列进行匹配。本文首先检测图像中的SURF兴趣点，再根据一定的运动量准则选取能够代表人体运动的兴趣点来描述人体行为。
1 相关工作
   人体行为识别通常包括两个步骤：(1)特征提取和图像表示；(2)行为建模和识别。目前流行的特征提取和图像表示方法是局部方法。
    局部方法通过许多相互独立的斑块集合来描述观察结果，在计算时采用自下而上的方式，首先检测时空兴趣点，再计算兴趣点周围的局部斑块，最后按照一定规则将斑块组合起来表示人体的行为。局部方法对噪声和部分遮挡的敏感性较小，也不要求严格的背景减法和跟踪。
    参考文献[1]将描述图像的方向梯度直方图（HOG）扩展到3D。将积分图像的思想应用到视频数据，计算任意尺度下的3D梯度，并基于规则正多面体对3D方向进行量化。采用这种类似于HOG的3D描述子对人体行为进行建模和分类。参考文献[2]采用称为方向矩形直方图（HOR）的描述子表示和识别人体行为。参考文献[3]用局部运动特征的分布以及特征的时空排列表示视频序列的帧。首先检测当前帧的运动特征，再检测该帧的相邻帧的运动特征，并根据相邻帧到当前帧的时间距离对相邻帧的运动特征进行加权。
2 局部时空特征描述
2.1 兴趣点检测方法
   图像配准领域使用的SURF描述子[4]对图像旋转、平移、缩放具有不变性，本文基于SURF提出一种新的局部特征检测方法以及特征描述子。局部特征通常是指时空范围内具有某种典型特性的兴趣点。本文检测时空兴趣点的方法包括两个步骤：(1)用SURF算法寻找多尺度空间的极值点，以获得候选兴趣点；(2)计算连续两帧图像的光流，只有超过最小运动量的候选兴趣点才是最终的时空兴趣点。
   SURF算法使用快速海森检测器来寻找空间极值点。图像I在像素点x=(x,y)处的海森矩阵为：

     SURF算法检测到的兴趣点代表了图像中的典型特征，称为候选兴趣点。视频中杂乱的静止背景图像包含大量的候选兴趣点，但这些候选兴趣点对于描述图像中的运动没有任何作用。为了描述图像中的运动模式，必须根据一定准则剔除代表背景的候选兴趣点。对于视频中的第n帧图像In(n=1…N-1)(N是视频的帧长度),利用SURF算法检测到的兴趣点集合为S。结合下一帧图像In+1可以计算出集合S中每个候选兴趣点的光流矢量。如果光流矢量的幅度值小于某个确定的阈值，则认为这样的候选点为背景像素或者近似于背景的像素，从集合S中剔除代表背景的兴趣点之后，就获得了最终的时空兴趣点。本文提取的时空兴趣点与其他方法提取的兴趣点的对比如图1所示。

2.2 特征描述子
为了达到图像旋转不变性，SURF描述子首先计算每个兴趣点的主方向。以检测到的兴趣点为圆心，在6δ(δ是检测兴趣点时确定的尺度)半径范围内计算所有像素的harr小波响应，并把响应分为沿横坐标的水平响应和沿纵坐标的垂直响应。用一个覆盖60°的滑动扇形窗口不断移动，在其覆盖的范围内计算水平响应和垂直响应的和。这两个响应和就产生了一个新的矢量，将其中最长的矢量作为兴趣点的主方向。

3 行为建模和分类
    本文采用著名的词袋模型BoW来表示人体行为。词袋模型把一篇文档表示为一些无序词汇的集合，不考虑词汇之间的顺序，也不考虑句子中的语法关系。
    词袋模型基于词典对文本进行建模，将每个文本看作是一个装满了词的袋子，文本中的词来自于词典。和文本处理的方法类似，可以将一个视频看作一个文本，将视频图像中提取的局部时空特征映射到词，而局部时空特征就是2.2节阐述的描述子矢量。假设有M个包含人体行为的视频，采用本文的方法检测所有视频帧中的兴趣点，并用描述子对兴趣点进行描述，再对所有描述子矢量进行K均值聚类，聚类中心就是词，所有的词合并在一起就形成了词典。考虑单个视频，根据视频中出现的词以及每个词出现的次数可以建立一个反映词频分布的直方图。
   对词袋模型进行学习和分类的典型方法是支持向量机(SVM)。训练时将训练视频的词频直方图以及视频的类别标签输入SVM，通过训练建立每种行为的模型；测试时将测试视频的词频直方图输入SVM，就会输出测试视频的行为类别。
4 实验结果分析
    本文选择更为复杂的UCF YouTube体育活动数据集[6]来进行行为识别和分类。该数据集有如下特点：(1)摄像机运动；(2)环境复杂、场景变化；(3)目标尺度不断变化；(4)视角变化；(5)光照变化。该数据集包含11种行为，每种行为在25种不同的场景下完成。其样例图像如图3所示。

根据2.1节所述，需要确定一个光流矢量的幅度阈值。在实验中，水平方向和垂直方向的光流阈值分别为图像宽度和高度的0.2%。在进行人体行为的训练和分类时，对数据集中的视频采用10折交叉验证：将所有视频分成10组，其中9组作为训练集，剩余1组作为测试集，重复这种过程10次，取10次的平均值作为最终的行为分类精度。本文的算法对行为分类的混淆矩阵如图4所示。

从混淆矩阵中发现，分类精度最高的行为是tennis-swing，分类精度最低的行为是biking，它与diving、horse-riding、walking、swinging都发生了混淆。导致混淆的原因是词袋模型的假设没有考虑文本中词的顺序。
本文结合SURF和光流提出一种新的局部时空特征检测和描述方法。检测出的时空兴趣点既代表了空间上的显著特征，也代表了人体运动的模式。在UCF YouTube数据集上进行了测试。实验结果表明，本文的描述子能够有效地表征人体运动模式，对背景变化、光照变化、视角变化具有一定的鲁棒性。行为分类精度相比高于当前最好的分类方法。
参考文献
[1] KL SER A, MARSZALEK M, SCHMID C. A spatio-temporal descriptor based on 3d-gradients[C]. Proceedings of the British Machine Vision Conference (BMVC), 2008, 995-1004.
[2] IKIZLER N, DUYGULU P. Histogram of oriented rectangles:a new pose descriptor for human action recognition[J]. Image and Vision Computing, 2009,27(10):1515-1526.
[3] ZHAO Z P, ELGAMMAL A. Human activity recognition from frame’s spatiotemporal representation[C]. Proceedings of the International Conference on Pattern Recognition(ICPR), 2008.
[4] BAY H, TUYTELAARS T, VAN Gl L. Surf: speeded up robust features[C]. European Conference on Computer Vision, 2006.
[5] LAPTEV I, LINDEBERG T. Space-time interest points[C]. Proceedings of the International Conference on Computer Vision(ICCV), 2003.
[6] LIU J, LUO J, SHAH M. Recognizing realistic actions from videos "in the wild"[C]. Proceedings of the Computer Vision and Pattern Recognition(CVPR),2009.

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容