文献标识码: A
DOI: 10.19358/j.issn.2097-1788.2023.02.011
引用格式: 何啸林,吴丽君. 基于三维时空注意的密集连接视频超分算法[J].网络安全与数据治理,2023,42(2):70-75.
0 引言
视频超分辨(Video Super-Resolution,VSR)算法是一项具有挑战性的课题,倍受人们的关注。相较于单图像的超分辨率重建,视频超分辨率重建可以利用帧之间的相关性和连续帧间的时间信息。视频超分的目标是在相邻的低分辨率帧(Low Resolution,LR)的帮助下,重建出高分辨率帧(High Resolution,HR)。早期的研究[1-3]将视频超分视为图像重建的简单扩展,并没有考虑到物体运动,性能较差。对此,人们开始研究一些显式运动补偿的方法,最为广泛的是使用光流来估计帧之间的运动并执行变形。然而,对光流进行准确的预测是比较困难的,尤其是在存在遮挡或大运动时,当对光流量的不准确预测时可能会引入伪影[4]。为了解决这个问题,研究人员开始研究隐式运动补偿方法。在隐式补偿方法中,可变形卷积较为常用[5]。时序可变形对齐视频超分网络(Temporally Deformable Alignment Network,TDAN)[4]首次将可变形卷积引入视频超分任务中;增强型可变形卷积视频超分网络(Video Restoration with Enhanced Deformable Convolutional Networks,EDVR)[6]将跨帧信息与可变形网络和注意力机制融合在一起。相比光流法,可变形卷积的方法解决了伪影问题,但注意力机制的设计仍有改进空间。对于连续帧的视频任务,视频的序列信息是至关重要的。由于在时间注意力模块中仅仅采用二维卷积,无法提取时间序列维度的信息,以往方法中的时空注意力模块仅仅只是在两帧之间进行自注意力加权。
本文设计了一种具有三维空间顺序注意机制的密集可变形视频超分辨率重建网络。在视频帧对齐模块之后引入空间时序注意力模块,利用三维卷积操作来捕获帧间序列信息。在超分任务中,引入空间注意力中金字塔结构使得网络能够获得更大的感受野,但也带来了冗余参数。本文通过几个卷积层和池化层的组合来重新设计空间注意模块,利用更少的参数保持一个大的感受野。此外,为了在特征重建阶段充分利用分层特征,设计了一个由密集连接和残差组成的密集连接重建模块。
综上所述,本文设计了一种三维空间时序注意力机制。应用三维卷积来获取时间注意模块中的帧间序列信息。在空间注意力模块中,修改卷积的步长,使用卷积组结合池化来实现轻量化。同时设计密集连接重建模块,通过密集连接充分利用分层特征信息,更好地完成特征重建。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005216
作者信息:
何啸林,吴丽君
(福州大学 物理与信息工程学院,福建 福州350116)