中文引用格式: 杨国荣,李鹏辉,赵皓阳,等. 基于自适应卷积和动态Transformer的红外与可见光图像融合[J]. 电子技术应用,2026,52(3):121-131.
英文引用格式: Yang Guorong,Li Penghui,Zhao Haoyang,et al. Infrared and visible image fusion based on adaptive convolution and dynamic Transformer[J]. Application of Electronic Technique,2026,52(3):121-131.
引言
图像融合(Image Fusion)属于图像增强的一种方法,其目标是在多图像中提取互补信息,获得更完整的信息和语义的图像,用于后续目标检测、夜间监控、智能驾驶等任务[1]。在红外与可见光图像融合中,红外图像提供热辐射图像,可见光图像提供丰富的纹理和细节信息,两者融合可以获得清晰的目标和背景信息,在复杂背景下具有重要的应用价值。
早期的红外与可见光图像融合研究主要在传统方法上,例如多尺度变换[2]、稀疏表示[3]、子空间方法[4]以及混合模型[5]等,这类方法通过人工选择分解方法和融合方法实现跨模态图像信息的融合,存在特征利用率低、边缘信息模糊、计算复杂、耗时高等缺点,不适合大规模应用。
伴随着深度学习的兴起,基于数据驱动的融合方法逐渐火热。卷积神经网络(CNN)[6]是一种充分利用局部特征信息的深度学习方法,但固定感受野无法建模全局信息;生成对抗网络(GAN)[7]能够有效提升融合图像的视觉效果,但训练不稳定,且融合结果缺乏可解释性;自编码器(AE)与Transformer可建模全局信息,但Transformer对局部细节保留不足[8]。因此,针对多尺度特征利用、损失函数设计、噪声敏感、局部全局特征权衡等问题仍然面临诸多挑战。
研究多从融合的质量和稳定性方面做出努力。2020年Ma等[9]提出通过双路径限制来对内容和纹理进行联合优化的双鉴别器条件生成对抗网络(DDcGAN);2022年Yi等[10]利用CNN和Transformer的互补优势,提出并行混合融合结构,在细节信息和全局依赖方面都取得了较好的表现;2023年Zhao等[11]提出将去噪扩散概率模型(DDPM)与融合任务相结合,将融合建模为条件生成任务,提高了融合的稳定性和质量;Liu[12]等提出基于注意力引导的特征交互网络(AWFGAN),提升跨模态特征对齐和选择性融合的性能;Di等[13]提出多尺度残差学习策略构建FDNet,在提高推理性能的同时不损失细节纹理;Li等[14]利用图神经网络(GNN)建模跨模态关系,为图像融合提供新的图形结构特征。
尽管上述方法取得一定的进展,但仍然存在许多问题未解决,2022年Rao等[15]发现基于卷积的网络对远距离依赖关系的学习能力差,在复杂的环境中无法保证语义一致性;2023年Ma等[16]的研究中发现不同模态特征间的对齐程度有限,难以充分利用跨模态互补信息。2025年Zhao等[17]发现Transformer虽全局建模能力强,但会丢失纹理和边缘结构,容易出现产生细节丢失的问题。这些问题在一定程度上影响了融合结果的视觉质量与信息保真度。
在此背景下,本文提出了一种基于自适应卷积与多尺度动态Transformer(Adaptive Convolution and Multi-scale Dynamic Transformer, AMDTF)的红外与可见光图像融合方法。单一神经网络可以实现较好的融合效果,但是容易在训练中丢失不同尺度的特征。因此,本文采用多尺度网络结构,具有更强的特征提取能力和对跨尺度特征挖掘的能力。本文使用自适应卷积(AC)和动态变换器(DTF)相结合的结构,使用CNN从源图像中提取浅层特征,并使用DTF进行长期互补建模,采用无监督训练,利用三个部分损失(像素损失、梯度损失和结构损失)来进一步改进融合图像。融合方法为端到端模型,无需人工设定活动程度和融合策略,模型即能够自动生成目标明确、背景纯净的融合图像,实现快速获取融合图像,提高融合效率的目的。文中对AMDTF与其他先进方法进行定量定性对比分析,证明了AMDTF优于传统方法。本文贡献如下:
(1)提出自适应卷积模块(Adaptive Convolution,AC):采用全局上下文自适应卷积模块拟合红外-可见光图像,使得特征间能够互相映射,降低特征不相似度带来的图像融合误差。
(2)设计多尺度动态Transformer结构(Dynamic Transformer Fusion, DTF):逐层进行全局建模和局部特征互补,兼顾全局的语义统一性和局部的保真性,提升融合图像的质量、稳定性。
(3)多尺度互补信息机制与三元组损失优化:充分利用不同尺度间的互补信息特性,同时以像素损失和梯度、结构损失来改进融合后的结果,细节、纹理和结构均优于已有方法。
(4)模型在TNO和RoadScene数据集上实验表明,最大化红外目标与保留可见光纹理是可行的,同时在效率与推理稳定性方面表现突出。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000007015
作者信息:
杨国荣,李鹏辉,赵皓阳,赵文彬
(石家庄铁道大学 信息科学与技术学院,河北 石家庄 050043)

