文献标识码: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 冯雨威,吴丽君. 基于时空注意力金字塔卷积的动作识别[J].网络安全与数据治理,2023,42(2):76-82,88.
0 引言
动作识别是从视频片段中提取有效的空间和时间特征以分辨人的动作类型,在视频检索、异常检测、智能监控、人机交互和自动驾驶等领域逐渐兴起。早期算法主要依赖人工提取人体关节点和时空兴趣点特征。近年来,基于深度学习的算法可有效提取特征、实现端到端训练,极大提升了动作识别精度和速度。根据提取特征的方式不同,动作识别算法大致可归纳为基于3D CNN、双/多流网络、CNN(2D或3D)与时间特征聚合模块的组合三种类型。3D CNN[1-2]可直接提取时空特征,但是其采用固定大小的3D卷积核,不能充分挖掘时间粒度特征,并且相比2D卷积核含有更多参数。双流网络[3]的输入通常为RGB帧和光流图像,提取光流较为繁琐且易造成延迟。基于CNN与时间特征聚合模块[4-5]组合的算法通常使用CNN从单帧或视频片段提取空间特征,然后使用LSTM或时间池化从多个帧或片段间提取时间特征。LSTM随着时间跨度增大、网络深度增加,计算成本将急剧增加。
基于2D CNN与时间池化的S-TPNet[6]提出了空间金字塔模块,利用CNN固有的平移和尺度不变性充分提取空间特征,并使用不同尺寸的时间池重复利用片段级数据以获得时间粒度特征。相比于3D CNN的算法,S-TPNet网络参数大大减少,但在动作识别精度上相对较低。因此,本文在S-TPNet基础上引入轻量级的时空注意力模型,以提高算法精度。
除网络结构外,视频采样策略也会影响动作识别精度。为减少输入信息的冗余数量,降低运算量,一般会提取原视频的部分帧来作为输入。视频采样策略主要分为密集[7]和稀疏采样两种。密集采样对设备的计算和存储要求都很高。最近,微软在视频和语言学习任务研究[8]中提出“少即是多”的稀疏采样。在每次训练中仅使用单个或几个稀疏采样片段,获得了不输于密集采样训练所得的网络性能。稀疏采样包含随机采样和预定义间隔采样。随机采样易导致采样后的相邻帧之间具有不稳定的差异,无法有效表达原始视频的语义内容。预定义间隔采样不适合数据集中视频段持续时间差距较大的情况。因此,本文提出了一种自适应等间隔采样策略,根据每段视频的总帧数和指定的最小采样数动态调整采样间隔,使采样后序列可以更好地表示原视频。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005217
作者信息:
冯雨威,吴丽君
(福州大学 物理与信息工程学院,福建 福州350108)