基于Transformer残差网络的事件重建算法-AET-电子技术应用

基于Transformer残差网络的事件重建算法

电子技术应用

王立喜1，刘云平1，汤琴琴2，李家豪1

1.南京信息工程大学自动化学院；2.无锡学院轨道交通学院

摘要： 目前的人工视觉系统仍然无法处理一些涉及高速运动场景和高动态范围的真实世界场景。事件相机因其低延迟和高动态范围捕捉高速运动的优势具有消除上述问题的能力。然而，由于事件数据的高度稀疏和变化性质，在保证其快速性的同时将事件重建为视频仍然具有挑战性。因此提出了一种基于Transformer残差网络和光流估计的事件流重建算法，通过光流估计和事件重建的联合训练，实现自监督的重建过程，并引入去模糊预处理和亚像素上采样模块来提高重建质量。实验结果表明，在公开数据集上，提出的方法可以有效提高事件流的重建效果。

关键词： 事件相机视频重建深度学习光流估计

中图分类号：TP193.41 文献标志码：A DOI: 10.16157/j.issn.0258-7998.245292
中文引用格式： 王立喜，刘云平，汤琴琴，等. 基于Transformer残差网络的事件重建算法[J]. 电子技术应用，2024，50(11)：28-34.
英文引用格式： Wang Lixi，Liu Yunping，Tang Qinqin，et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique，2024，50(11)：28-34.

Event reconstruction algorithm based on Transformer residual network

Wang Lixi1，Liu Yunping1，Tang Qinqin2，Li Jiahao1

(1.School of Automation， Nanjing University of Information Science & Technology； 2.School of Rail Transportation， Wuxi University

Abstract： Current artificial visual systems still struggle to handle real-world scenarios involving high-speed motion and high dynamic range scenes. Event cameras have the capability to address these challenges due to their low latency and high dynamic range for capturing fast-moving objects. However, reconstructing events into videos while maintaining their speed presents a challenge due to the highly sparse and dynamic nature of event data. Therefore, this paper proposes an event stream reconstruction algorithm based on Transformer residual networks and optical flow estimation. By jointly training optical flow estimation and event reconstruction, a self-supervised reconstruction process has been achieved. Additionally, deblurring preprocessing and subpixel upsampling modules are introduced to enhance the quality of reconstruction. Experimental results demonstrate that the proposed approach effectively improves the reconstruction quality of event streams on public datasets.

Key words : event camera；video reconstruction；deep learning；optical flow estimation

引言

在过去的十年里，由于现代深度学习方法和神经体系结构优化，计算机视觉领域在许多不同的任务中取得了惊人的进步。但与生物系统相比，目前的人工视觉系统仍然无法处理一些涉及高速运动场景和高动态范围的真实世界场景。这是因为传统的基于帧的传感器存在诸如运动模糊和低动态范围等问题。事件相机具有消除上述问题的能力。它输出异步像素且彼此独立工作[1]。每个像素对局部相对光强度变化很敏感，当这种变化超过阈值时，它们会连续产生称为事件的信号。因其高动态范围、高时间分辨率和低延迟的优势，事件数据已越来越多地被纳入各种识别任务中，包括目标检测[2]、语义分割[3]等。此外，事件数据还被用于需要高速感知的挑战性机器人应用中，例如能够捕捉对象的四足机器人[4]和能够避开动态障碍物的扑翼机器人[5]。

尽管事件相机具有令人满意的特性，但不能像处理强度图像那样直接处理事件流，而高质量的强度图像是理解视觉数据的最自然的方式。因此，从事件中重建强度图像一直是基于事件的视觉研究的基石。重建高质量强度图像的另一个好处是可以立即将成功的基于帧的计算机视觉方法应用于重建结果，以解决各种任务。

目前基于事件相机的图像重建分为两类：基于滤波的传统方法和基于深度学习的方法。基于滤波的方法是通过对事件数据进行滤波处理来还原图像序列，包括中值滤波和高斯滤波[6]，但这些方法在处理复杂或动态场景的图像时易失效。最近，基于深度学习的方法在基于事件的视频重建任务中取得了显著成果，为行人检测和行人动作识别[7]等工作做出贡献。Rebecq等[8]提出了一种新颖的递归网络(E2VID)用于从大量事件中重建视频，这是一种直接处理事件的端到端网络。Cadena等[9]提出了一种基于条件生成对抗网络的重建方法，将事件流数据用不同的表达方式来生成不同的灰度图像。由于仅当像素的强度发生变化时才会异步生成事件，因此生成的事件体素栅格是稀疏张量，仅包含场景中变化部分的信息。这些体素栅格的稀疏性也非常不同。这使得神经网络很难适应新的数据，并导致包含模糊、低对比度或涂抹伪影的问题。同时这些算法有初始化时间，此过程需要20到30帧，且第一帧的质量很差。

综上所述，本文提出了一种基于Transformer残差模块的自监督重建算法，将光流估计与事件重建结合共同训练学习实现自监督重建。本文的创新在于使用联合训练获取高质量的初始帧并提高对特征的长期相关性学习能力，有效捕捉视频上下帧的时空关联特征。同时设计去噪预处理与亚像素上采样操作模块，抑制噪声，减少信息损失，共同提高重建质量。实验结果表明，在公开数据集上本文方法可以有效提高事件流的重建效果。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000006206

作者信息：

王立喜1，刘云平1，汤琴琴2，李家豪1

（1.南京信息工程大学自动化学院，江苏南京 210016；

2.无锡学院轨道交通学院，江苏无锡 214015）

Magazine.Subscription.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容