中文引用格式: 安鹤男,管聪,邓武才,等. 基于YOLOX融合自注意力机制的FSA-FPN重构方法[J]. 电子技术应用,2023,49(3):61-66.
英文引用格式: An Henan,Guan Cong,Deng Wucai,et al. FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX[J]. Application of Electronic Technique,2023,49(3):61-66.
0 引言
目标检测是致力于解决确定图像中所需物体类别并标识出物体具体位置的一类任务。自从以卷积神经网络(Convolutional Neural Networks,CNN)为代表的深度学习技术在多个领域取得突破性成功后,基于CNN的目标检测方法也凭着卷积运算的特性做到对图像特征信息的深层次提取,从而达到较为优秀的检测性能。目前主流目标检测任务大多还是分为两类,分别是以Faster-RCNN[1]为代表的双阶段检测与以YOLO和SSD为代表的单阶段检测算法,它们都以CNN作为特征提取核心。FPN(Feature Pyramid Network)是自顶向下的一种特征融合方式,通过将不同尺寸的特征信息进行融合,对不同尺寸的物体检测均有较为出色的适应性。整体来说,CNN受制于其卷积层的大小,感受野有限,所以更多地是对局部特征的提取。
Transformer开创了自注意力机制(Self-attention)的先河,在全局特征的提取上有着CNN无法比拟的优势。而现在的目标检测算法大部分还是以CNN为主要特征提取手段,虽然也有以ViT、Swin-Transformer等以Self-attention为特征提取核心的目标检测算法,但是其计算量巨大,且实际落地受到硬件设施、计算资源的限制,通用性不如Faster-RCNN和YOLOv3、SSD等以CNN为特征提取核心的目标检测算法。
本文对Conformer提出的一种CNN分支与Transformer分支互相弥补语义差距、 消除特征错位的方法做出改进,并结合Darknet-53的结构,在其FPN的特征融合过程中引入自注意力机制,设计了SAU(Self-Attention Upsample)模块,通过对特征图进行重新编码以对齐自注意力输入的特征维度,同时设计多次的自注意力计算与上下层之间的联动结合,提出的FSA-FPN在融合不同尺寸物体的特征时同时也注重了自身全局信息的特征提取以提升其整体检测效果,在需要更高精度的检测场景下有更大的使用价值。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005230
作者信息:
安鹤男1,管聪2,邓武才1,杨佳洲2,马超2
(1.深圳大学 电子与信息工程学院,广东 深圳 518000;2.深圳大学 微纳光电子学研究院,广东 深圳 518000)