基于自适应卷积和动态Transformer的红外与可见光图像融合-AET-电子技术应用

基于自适应卷积和动态Transformer的红外与可见光图像融合

电子技术应用

杨国荣，李鹏辉，赵皓阳，赵文彬

石家庄铁道大学信息科学与技术学院

摘要： 在红外与可见光图像融合任务中，传统卷积网络多依赖固定卷积核，难以根据场景差异自适应提取跨模态特征，也难以兼顾局部纹理与全局语义关系。因此，提出一种结合自适应卷积和多尺度动态Transformer的融合方法。自适应卷积用于提升不同模态特征的空间对齐与互补信息交互能力；动态Transformer在此基础上强化远程依赖建模，同时抑制局部细节的退化，多尺度结构设计进一步广泛捕获多层次关键信息。解码器端到端生成融合图像，并结合像素、梯度与结构三元组损失进行优化。实验在TNO与RoadScene数据集上开展，对比六种主流方法，结果表明本方法在图像质量、信息保持与细节增强方面均取得优越性能，并在推理效率与性能稳定性方面取得良好平衡，能够有效兼顾红外目标的显著性与可见光纹理的保真。

关键词： 红外光与可见光图像自适应卷积动态Transformer 图像融合多尺度

中图分类号：TP391.4 文献标志码：A DOI: 10.16157/j.issn.0258-7998.257628
中文引用格式： 杨国荣，李鹏辉，赵皓阳，等. 基于自适应卷积和动态Transformer的红外与可见光图像融合[J]. 电子技术应用，2026，52(3)：121-131.
英文引用格式： Yang Guorong，Li Penghui，Zhao Haoyang，et al. Infrared and visible image fusion based on adaptive convolution and dynamic Transformer[J]. Application of Electronic Technique，2026，52(3)：121-131.

Infrared and visible image fusion based on adaptive convolution and dynamic Transformer

Yang Guorong，Li Penghui，Zhao Haoyang，Zhao Wenbin

School of Information Science and Technology， Shijiazhuang Tiedao University

Abstract： In infrared and visible image fusion, conventional convolutional networks typically rely on fixed convolution kernels, which restrict their ability to adaptively extract complementary cross-modal features and simultaneously model local textures and global semantic relationships. To address these limitations, we propose a fusion framework that integrates adaptive convolution with a multi-scale dynamic Transformer. Adaptive convolution enhances spatial alignment and interaction between heterogeneous modal features, while the dynamic Transformer further strengthens long-range dependency modeling and mitigates local detail degradation. In addition, the multi-scale architecture enables comprehensive extraction of critical information across hierarchical feature spaces. The decoder reconstructs the fused image in an end-to-end manner, optimized by a triplet loss comprising pixel consistency, gradient preservation, and structural maintenance. Extensive experiments conducted on the TNO and RoadScene datasets demonstrate that the proposed method achieves superior performance in visual quality, information retention, and detail enhancement compared with six representative approaches. Moreover, it provides a good balance between inference efficiency and performance stability, effectively preserving salient targets in infrared imagery while maintaining fine textures from visible images.

Key words : infrared and visible image fusion；adaptive convolution；dynamic Transformer；image fusion；multi-scale

引言

图像融合(Image Fusion)属于图像增强的一种方法，其目标是在多图像中提取互补信息，获得更完整的信息和语义的图像，用于后续目标检测、夜间监控、智能驾驶等任务[1]。在红外与可见光图像融合中，红外图像提供热辐射图像，可见光图像提供丰富的纹理和细节信息，两者融合可以获得清晰的目标和背景信息，在复杂背景下具有重要的应用价值。

早期的红外与可见光图像融合研究主要在传统方法上，例如多尺度变换[2]、稀疏表示[3]、子空间方法[4]以及混合模型[5]等，这类方法通过人工选择分解方法和融合方法实现跨模态图像信息的融合，存在特征利用率低、边缘信息模糊、计算复杂、耗时高等缺点，不适合大规模应用。

伴随着深度学习的兴起，基于数据驱动的融合方法逐渐火热。卷积神经网络（CNN）[6]是一种充分利用局部特征信息的深度学习方法，但固定感受野无法建模全局信息；生成对抗网络（GAN）[7]能够有效提升融合图像的视觉效果，但训练不稳定，且融合结果缺乏可解释性；自编码器（AE）与Transformer可建模全局信息，但Transformer对局部细节保留不足[8]。因此，针对多尺度特征利用、损失函数设计、噪声敏感、局部全局特征权衡等问题仍然面临诸多挑战。

研究多从融合的质量和稳定性方面做出努力。2020年Ma等[9]提出通过双路径限制来对内容和纹理进行联合优化的双鉴别器条件生成对抗网络(DDcGAN)；2022年Yi等[10]利用CNN和Transformer的互补优势，提出并行混合融合结构，在细节信息和全局依赖方面都取得了较好的表现；2023年Zhao等[11]提出将去噪扩散概率模型(DDPM)与融合任务相结合，将融合建模为条件生成任务，提高了融合的稳定性和质量；Liu[12]等提出基于注意力引导的特征交互网络(AWFGAN)，提升跨模态特征对齐和选择性融合的性能；Di等[13]提出多尺度残差学习策略构建FDNet，在提高推理性能的同时不损失细节纹理；Li等[14]利用图神经网络(GNN)建模跨模态关系，为图像融合提供新的图形结构特征。

尽管上述方法取得一定的进展，但仍然存在许多问题未解决，2022年Rao等[15]发现基于卷积的网络对远距离依赖关系的学习能力差，在复杂的环境中无法保证语义一致性；2023年Ma等[16]的研究中发现不同模态特征间的对齐程度有限，难以充分利用跨模态互补信息。2025年Zhao等[17]发现Transformer虽全局建模能力强，但会丢失纹理和边缘结构，容易出现产生细节丢失的问题。这些问题在一定程度上影响了融合结果的视觉质量与信息保真度。

在此背景下，本文提出了一种基于自适应卷积与多尺度动态Transformer（Adaptive Convolution and Multi-scale Dynamic Transformer, AMDTF）的红外与可见光图像融合方法。单一神经网络可以实现较好的融合效果，但是容易在训练中丢失不同尺度的特征。因此，本文采用多尺度网络结构，具有更强的特征提取能力和对跨尺度特征挖掘的能力。本文使用自适应卷积（AC）和动态变换器（DTF）相结合的结构，使用CNN从源图像中提取浅层特征，并使用DTF进行长期互补建模，采用无监督训练，利用三个部分损失（像素损失、梯度损失和结构损失）来进一步改进融合图像。融合方法为端到端模型，无需人工设定活动程度和融合策略，模型即能够自动生成目标明确、背景纯净的融合图像，实现快速获取融合图像，提高融合效率的目的。文中对AMDTF与其他先进方法进行定量定性对比分析，证明了AMDTF优于传统方法。本文贡献如下：

（1）提出自适应卷积模块（Adaptive Convolution，AC）：采用全局上下文自适应卷积模块拟合红外-可见光图像，使得特征间能够互相映射，降低特征不相似度带来的图像融合误差。

（2）设计多尺度动态Transformer结构（Dynamic Transformer Fusion, DTF）：逐层进行全局建模和局部特征互补，兼顾全局的语义统一性和局部的保真性，提升融合图像的质量、稳定性。

（3）多尺度互补信息机制与三元组损失优化：充分利用不同尺度间的互补信息特性，同时以像素损失和梯度、结构损失来改进融合后的结果，细节、纹理和结构均优于已有方法。

（4）模型在TNO和RoadScene数据集上实验表明，最大化红外目标与保留可见光纹理是可行的，同时在效率与推理稳定性方面表现突出。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000007015

作者信息：

杨国荣，李鹏辉，赵皓阳，赵文彬

（石家庄铁道大学信息科学与技术学院，河北石家庄 050043）

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容