中文引用格式: 王立喜,刘云平,汤琴琴,等. 基于Transformer残差网络的事件重建算法[J]. 电子技术应用,2024,50(11):28-34.
英文引用格式: Wang Lixi,Liu Yunping,Tang Qinqin,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,2024,50(11):28-34.
引言
在过去的十年里,由于现代深度学习方法和神经体系结构优化,计算机视觉领域在许多不同的任务中取得了惊人的进步。但与生物系统相比,目前的人工视觉系统仍然无法处理一些涉及高速运动场景和高动态范围的真实世界场景。这是因为传统的基于帧的传感器存在诸如运动模糊和低动态范围等问题。事件相机具有消除上述问题的能力。它输出异步像素且彼此独立工作[1]。每个像素对局部相对光强度变化很敏感,当这种变化超过阈值时,它们会连续产生称为事件的信号。因其高动态范围、高时间分辨率和低延迟的优势,事件数据已越来越多地被纳入各种识别任务中,包括目标检测[2]、语义分割[3]等。此外,事件数据还被用于需要高速感知的挑战性机器人应用中,例如能够捕捉对象的四足机器人[4]和能够避开动态障碍物的扑翼机器人[5]。
尽管事件相机具有令人满意的特性,但不能像处理强度图像那样直接处理事件流,而高质量的强度图像是理解视觉数据的最自然的方式。因此,从事件中重建强度图像一直是基于事件的视觉研究的基石。重建高质量强度图像的另一个好处是可以立即将成功的基于帧的计算机视觉方法应用于重建结果,以解决各种任务。
目前基于事件相机的图像重建分为两类:基于滤波的传统方法和基于深度学习的方法。基于滤波的方法是通过对事件数据进行滤波处理来还原图像序列,包括中值滤波和高斯滤波[6],但这些方法在处理复杂或动态场景的图像时易失效。最近,基于深度学习的方法在基于事件的视频重建任务中取得了显著成果,为行人检测和行人动作识别[7]等工作做出贡献。Rebecq等[8]提出了一种新颖的递归网络(E2VID)用于从大量事件中重建视频,这是一种直接处理事件的端到端网络。Cadena等[9]提出了一种基于条件生成对抗网络的重建方法,将事件流数据用不同的表达方式来生成不同的灰度图像。由于仅当像素的强度发生变化时才会异步生成事件,因此生成的事件体素栅格是稀疏张量,仅包含场景中变化部分的信息。这些体素栅格的稀疏性也非常不同。这使得神经网络很难适应新的数据,并导致包含模糊、低对比度或涂抹伪影的问题。同时这些算法有初始化时间,此过程需要20到30帧,且第一帧的质量很差。
综上所述,本文提出了一种基于Transformer残差模块的自监督重建算法,将光流估计与事件重建结合共同训练学习实现自监督重建。本文的创新在于使用联合训练获取高质量的初始帧并提高对特征的长期相关性学习能力,有效捕捉视频上下帧的时空关联特征。同时设计去噪预处理与亚像素上采样操作模块,抑制噪声,减少信息损失,共同提高重建质量。实验结果表明,在公开数据集上本文方法可以有效提高事件流的重建效果。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006206
作者信息:
王立喜1,刘云平1,汤琴琴2,李家豪1
(1.南京信息工程大学 自动化学院,江苏 南京 210016;
2.无锡学院 轨道交通学院, 江苏 无锡 214015)