文献标识码: A
DOI:10.16157/j.issn.0258-7998.174976
中文引用格式: 陈凡健. 面向特殊人群行为识别的主动学习与预测方法[J].电子技术应用,2018,44(11):116-120.
英文引用格式: Chen Fanjian. Active learning and prediction method for activity recognition of special populations[J]. Application of Electronic Technique,2018,44(11):116-120.
0 引言
空巢老人的护理问题是目前社会的焦点问题之一,针对这类特殊群体的智能看护系统需求迫切。基于计算机视觉的人体行为识别技术可以实现人体行为的智能识别,对于特殊群体的智能看护有着重要意义。鉴于此,特殊人群的智能护理成为目前人体行为识别研究的新方向。人体行为识别是计算机视觉学科的研究热点,在视频监控、电影分级、人工智能领域已有广泛应用[1]。人体行为常用一个特定的时间和空间模型来描述,行为识别需要获取充分的时空信息来区分不同的行为类别,同时还需要处理复杂的外界环境因素干扰。然而,人体行为本身极其复杂,环境干扰也复杂多变,因此从视频中自动识别人体行为还面临着很大挑战[2]。目前的人体行为识别方法主要依据低层和中层的行为特征来区分不同行为,譬如全局时空特征[3-4]、局部时空特征[5-6]、深度感兴趣点特征[7]和梯度直方图特征[8-9]等。这些方法在KTH、WEIZANN等简单行为数据集上可以达到较高的识别率,然而对特殊群体行为的区分能力有限[10]。Action Bank[10]是一种高层的行为特征表示方法,该方法采用许多独立的行为检测子进行行为检测,然后再将检测输出转化为特征向量,采用支持向量机(Support Vector Machines,SVM)对其进行分类,可以有效提高行为识别性能。但是,此方法的识别性能依赖于构建的行为模型,而模型构建需要人工标记大量样本,人工标记难度和工作量很大。词袋模型(Bag-of-Words,BoW)[11]是目前比较流行的行为识别方法之一,该方法的主要优点是鲁棒性强,计算效率高。但是,该模型只关注行为的局部特征,难以区分局部行为类似而整体行为差异巨大的人体行为,譬如采用手部向外用力的特征难以区分用手推门的动作和用手推人的动作。
为了提高行为识别算法对特殊群体行为识别的识别率,同时降低人工标记样本的难度和工作量,本文提出一种主动学习与预测的特殊群体行为识别方法。在现有采用局部时空特征描述行为的基础上,构建包含行为类别、行为属性、目标属性、帧内特征和帧间特征的行为图模型及各条边的势能函数,结合信任传播算法进行行为的类标签预测,依据行为顶点的熵和各行为顶点之间的互信息量进行主动学习,可以有效提高行为识别率和降低人工标记样本的工作量。
1 主动学习与预测方法
本文提出一种面向特殊群体行为识别的主动学习与预测方法,采用无向图模型作为行为描述子,依据信任传播方法进行类标签预测,依据信息熵和互信息量构建目标函数,主动学习行为样本集,自动生成需要人工标记的样本子集,详细描述如下。
1.1 行为描述子
图模型(Graph Model,GM)[12]是采用图的形式来描述条件独立的概率分布,这样可以将概率分布表示成多个因子的乘积形式,从而简化概率分布的计算。图模型包含有向图和无向图两类,有向图模型中各个节点的连接是有方向的,而无向图模型中各个节点的连接没有方向。在描述行为时,行为各种特征构成的节点之间的连接并没有明确的方向,故本文采用无图模型来描述行为,记为G=(V,E)。其中,V表示图的顶点集合,E表示图的边的集合[13]。
在本文中,图模型的顶点分为五类:
(1)行为类别顶点:简记为C,用于描述行为的类别,如奔跑行为、行走行为;
(2)行为属性顶点:简记为A,用于描述行为的属性,可以由行为分类器的分类得分表示;
(3)目标属性顶点:简记为O,用于描述目标的属性,可以由目标分类器的分类得分表示;
(4)帧内特征顶点:简记为X,用于描述行为的单帧特征,如方向梯度直方图(Histogram of Oriented Gradient,HOG)特征;
(5)帧间特征顶点:简记为Y,用于描述行为的视频相关性特征,如光流直方图(Histogram of Optical Flow,HOF)特征。
这样,图模型的顶点集合可以表示为V={C,A,O,X,Y},如图1所示。
E表示图的边的集合。本文的设计思想是,帧内特征输入分类器Px后得到目标属性信息,故帧内特征顶点X与目标属性顶点O相连接;帧间特征输入分类器Py得到行为属性信息,故帧间特征顶点Y与行为属性顶点A相连接;行为分类时需要参考目标属性信息和行为属性信息,故行为类别顶点C与目标属性顶点O和行为属性顶点A相连接;另外,考虑到不同行为之间可能存在相关性,故不同的行为类别顶点C也可以相互连接。于是,行为图模型边的集合可以表示为E={C-C,C-A,C-O,A-Y,O-X},如图1所示。
对于一个视频片段vi,本文提取每一帧图像中时空兴趣点的HOG特征作为帧内特征,提取HOF特征作为帧间特征,具体特征提取过程详见文献[6]。特征的训练与分类采用SVM方法,详见文献[10],这里不再赘述。本文主要阐述如何采用图模型对行为和目标属性之间的内在关系进行建模,目的是在判定行为类别时既利用视频的相关性信息,又利用目标的属性信息,这样可以降低各种干扰目标的运动对行为判决的影响,从而降低行为识别的虚警率。譬如,在利用光流的激烈变化属性确定了可疑的斗殴行为后,如果发现可疑斗殴区域中有多个人体目标出现,那么此处发生斗殴行为的可信度很大;但如果在可疑斗殴区域内未发现人体目标出现(譬如只有车辆等其他非人体目标),那么该区域发生斗殴行为的可信度就降低了,此处的激烈光流变化可能是由车辆、树叶等其他运动目标的激烈运动引起的,故可以判定该区域未发生斗殴行为。
无向图模型常采用各条边的势能函数来描述,对于本文的行为图模型G=(V,E),下面定义各条边的势能函数。
(1)边O-X的势
对于一个目标属性顶点oi,对应的HOG特征向量记为xi,HOG特征的SVM分类器记为Px。这样,目标属性顶点O的势可以用相应特征分类器的分类得分代替,表示为:
(3)边C-O的势
边C-O的势用于描述行为类别和目标属性的内在关系,可以用行为类别与目标属性同时出现的频率(简记为同现频率)来表示,为:
其中,α为权重。为便于计算,同现频率可以简单地用行为类别与目标属性同时出现的次数代替,此时α取值为0.01,且φ(ci,oi)的最大值为1,也即当φ(ci,oi)大于1时将其置为1。同现频率越高,表明行为类别与目标属性的关联度越大。譬如,对于骑马行为常伴随着人和马两类目标,也即这两类目标与骑马行为的同现频率很高。这样,对于一个未知的行为,如果行为分类为骑马行为的得分较高,同时又伴随有人和马两类目标,那么该行为为骑马行为的可信度很高。
(4)边C-A的势
边C-A的势用于描述行为类别和行为属性的内在关系,也可以用行为类别与行为属性的同现频率来表示,为:
其中,β为权重。同现频率也用行为类别与行为属性同时出现的次数代替,此时β取值为0.02,同样地,φ(ci,ai)的最大值也为1。需要说明的是,此处权重β的取值大于权重α的取值,主要是考虑到与目标属性相比,行为属性对行为分类的贡献更大。
(5)边C-C的势
边C-C的势用于描述两个行为类别顶点之间的连通性。假设在一个时空距离上的行为是相互关联的,行为类别顶点之间的势主要由时间和空间上的距离来描述,表示为:
1.2 类标签预测
信任传播(Belief Propagation,BP)算法采用局部消息传递来扩散信任度,可以很好地解决标签离散情况下的样本标记问题。本文采用BP算法计算行为类别顶点C的后验概率,预测类标签。具体地,在每一次迭代过程中,信任顶点依据其邻居顶点收到的消息进行更新。对于任一顶点ci∈C,其邻居顶点集合记为CN(ci),从顶点ci到其邻居顶点的消息可以表示为:
其中:
选择边缘概率最大的类标签作为顶点ci预测的类标签。
1.3 主动学习与预测
考虑到特殊群体行为的多样性和场景的多变性,在训练阶段人工标记行为类别是非常困难的。本文采用主动学习策略来降低人工标记的难度。
给定一组已标记的样本集L和一组未标记的样本集U,以及行为类别数N。为降低人工标记难度,已标记样本集中的元素数量远远小于未标记样本集中元素数量。对于未标记样本集中的元素,结合图模型和主动学习策略从中主动选取需要人工标记的样本子集S*。基本思路是:首先,按照前述方法构建图模型G,并计算任一ci∈U的边缘分布p(ci);然后,计算ci的熵,表示为:
在信息论中,熵越大说明信息的不确定性越大,对应的信息量越丰富。很明显,信息量越丰富的样本越需要专家进行标记。因此,本文将熵最大作为选取需人工标记的子集S*的依据之一。
另外,考虑到在许多应用中,各行为样本可能相互关联,这样,ci的边缘分布可能受邻居顶点集合中的其他顶点影响。本文采用互信息量来描述两个顶点之间的相互影响,表示为:
互信息量越大,说明两个顶点之间的相互影响越大。这样情况下,如果知道其中一个顶点的标签,另一个顶点的标签受其影响很大,可以依据其标签在图模型上进行可靠的预测。换言之,不需要同时人工标记两个相互影响的顶点。因此,本文将互信息量最小作为选取需人工标记的子集S*的另一依据。
综合所述,本文依据熵最大和互信息量最小两个准则选取需人工标记的子集S*。基本步骤为:
(1)给定拟选取的S*的元素个数K,S*初始为空;
(2)对任一ci∈U,计算熵H(ci),并按由大到小的顺序进行排序,排序后的集合记为As;
(3)如果S*中元素个数小于K,选取As中第一位数据对应的顶点cx,加入集合S*;否则,结束S*的搜索过程,输出S*;
(4)计算cx与其所有相邻顶点的互信息量M(cx,cy),选取信息量最小的顶点cy,加入集合S*。
对于得到的最优子集S*,需要专家进行标记。标记之后,再针对S*上的顶点进行类别预测,这样与这些顶点相邻的顶点得到的标签可信度更高。
2 实验结果与分析
本节对本文方法和目前主流的行为识别方法进行对比分析,首先介绍实验数据集和对比算法,然后展示和分析实验结果。
2.1 实验数据集与对比算法
目前公开的行为识别数据集中,与特殊群体智能看护相关的行为识别数据集只有一个,是ADL数据集[13]。该数据集是由Rirsiavash建立的人体日常行为数据集,主要用于研究特殊人群的智能辅助系统。该数据集包含10个类别的日常行为,详见表1。其中,每类行为都由5个不同的人体完成,且每个行为重复进行3次。部分行为示例如图2所示。
目前在该数据集下测试结果排名靠前的算法见文献[13]-[17]。本文直接引用相应文献中的识别率指标进行对比分析。
2.2 实验结果与分析
本文采用该领域常用的识别率和分类混淆矩阵来评价算法性能。表2展示了ADL数据集下不同算法的识别率指标,图3展示了ADL数据集下本文算法的分类混淆矩阵。其中,对比算法的性能指标取自相应文献。
需要指出的是,本文算法在训练时,每类行为选择4个视频片段进行学习,主动学习阶段的参数K取值为2,也即每类行为只选择2个视频片段进行人工标记,其余视频片段采用本文的主动学习方法进行训练。
分析以上实验结果,可以得出以下结论:
(1)从表2可以看出,本文算法在ADL行为数据集下的识别率都是最高的,比相应数据集下现有测试算法高出一个百分点以上。可见,本文方法提高了特殊群体行为识别的识别率指标。
(2)从图3可以看出,在ADL数据集下的10个行为类别中,本文方法仅在2个行为类别上存在错分现象,低于识别率次高的文献[16]所述方法。可见,本文方法区分不同行为的能力强,对群体复杂行为的混淆率低。
(3)对于ADL行为数据集,本文方法在识别率高于其他对比算法的情况下,人工标记的样本数量小于其他对比算法,如识别率次高的文献[16]中每类行为需要标记16个样本。这样在实际应用过程中,本文方法可以从海量视频中主动学习行为类别,大幅降低人工标记样本的难度和工作量。
综上所述,本文方法不仅提高了特殊群体行为识别的识别率,而且增强了不同行为的区分能力,同时需要人工标记的样本数量少。
3 结束语
本文提出了一种基于主动学习与预测的特殊群体行为识别方法,主要设计思路包括两个方面:(1)在行为描述方面,将视频的帧内特征、帧间特征、目标属性、行为属性和行为类别组合在一起,构建成行为的无向图模型,这样在行为识别时可以综合利用多层次的关联性特征,减少了单纯依靠部分特征引起的虚警现象,增强了特征的区分能力,提高了行为识别算法对特殊群体行为识别的识别率;(2)在学习过程中采用主动学习方法,以行为类别顶点的熵最大和行为类别顶点之间的互信息量最小为准则进行主动学习,降低了人工标记样本的数量和难度。通过在国际上通用的ADL行为数据集上进行对比实验,证实本文方法可以提高行为识别算法对特殊群体行为识别的识别率,降低不同行为间的分类混淆现象,同时降低了需人工标记的样本数量。
参考文献
[1] 杨帅,于忠清,苏博群,等.基于轨迹分割的老人行为识别方法[J].青岛大学学报(自然科学版),2017(1):103-107.
[2] 李瑞峰,王亮亮,王珂.人体动作行为识别研究综述[J].模式识别与人工智能,2014(1):35-48.
[3] KIHL O,PICARD D,GOSSELIN P H.Local polynomial space-time descriptors for action classification[J].Machine Vision & Applications,2016,27(3):351-361.
[4] MA S,ZHANG J,IKIZLER-CINBIS N,et al.Action recognition and localization by hierarchical space-time segments[C].IEEE International Conference on Computer Vision.IEEE,2014:2744-2751.
[5] 王泰青,王生进.基于中层时空特征的人体行为识别[J].中国图象图形学报,2015,20(4):520-526.
[6] EVERTS I,GEMERT J C V,GEVERS T.Evaluation of color spatio-temporal interest points for human action recognition[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(4):1569-1580.
[7] Wang Yangyang,Li Yibo,Ji Xiaofei.Human action recognition based on normalized interest points and super-interest points[J].International Journal of Humanoid Robotics,2014,11(1):145005.
[8] LI Y,YE J,WANG T,et al.Augmenting bag-of-words:a robust contextual representation of spatiotemporal interest points for action recognition[J].Visual Computer,2015,31(10):1383-1394.
[9] WANG P,LI W,GAO Z,et al.Action recognition from depth maps using deep convolutional neural networks[J].IEEE Transactions on Human-Machine Systems,2016,46(4):498-509.
[10] SADANAND S.Action bank:a high-level representation of activity in video[C].IEEE Conference on Computer Vision & Pattern Recognition,2012:1234-1241.
[11] AGUSTI P,TRAVER V J,PLA F.Bag-of-words with aggregated temporal pair-wise word co-occurrence for human action recognition[J].Pattern Recognition Letters,2014,49(49):224-230.
[12] Pu Songtao,Zha Hongbin.Video object segmentation via two-frame graph model[J].Beijing Daxue Xuebao Ziran Kexue Ban/acta Scientiarum Naturalium Universitatis Pekinensis,2015,51(3):409-417.
[13] FEICHTENHOFER C,PINZ A,ZISSERMAN A.Convolutional two-stream network fusion for video action recognition[C].Computer Vision and Pattern Recognition.IEEE,2016:1933-1941.
[14] FERNANDO B,GAVVES E,ORAMAS M J,et al.Modeling video evolution for action recognition[C].Computer Vision and Pattern Recognition.IEEE,2015:5378-5387.
[15] WANG H,DAN O,VERBEEK J,et al.A robust and efficient video representation for action recognition[J].International Journal of Computer Vision,2016,119(3):219-238.
[16] SINGH S,VELASTIN S A,RAGHEB H.MuHAVi:a multicamera human action video dataset for the evaluation of action recognition methods[C].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance.IEEE,2010:48-55.
[17] GUO K,ISHWAR P,KONRAD J.Action recognition from video using feature covariance matrices[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2013,22(6):2479-2494.
作者信息:
陈凡健
(茂名职业技术学院 计算机工程系,广东 茂名525000)