中文引用格式: 李家鑫,王韵涵,潘果,等. Lite-VAFNet:面向无人机边缘计算的多模态3D目标检测[J]. 电子技术应用,2026,52(4):10-17.
英文引用格式: Li Jiaxin,Wang Yunhan,Pan Guo,et al. Lite-VAFNet: efficient multi-modal 3D object detection for UAV edge computing[J]. Application of Electronic Technique,2026,52(4):10-17.
引言
随着无人机在低空经济中的广泛部署,融合LiDAR几何精确性与Camera语义丰富性的多模态感知技术已成为克服单一传感器环境适应性差、实现全天候鲁棒感知的关键范式[1-3]。在此背景下,以VAF-Net[4]为代表的高性能融合模型,凭借其深度特征交互机制显著提升了检测精度,确立了当前无人机三维目标检测的性能基准[5]。
尽管多模态融合模型在服务器端表现卓越,但迁移至NVIDIA Jetson等机载平台时面临严峻的资源失配挑战。边缘模组通常受限于15 W~60 W功耗,FP32算力不足桌面级1/10,且共享内存带宽低于200 GB/s[6-7]。实测表明,SOTA模型VAF-Net[4]参数量高达39.99 M,单帧延迟超300 ms,具体痛点如下。
(1)存储资源与限制:VAF-Net近40 M的参数规模严重挤占机载存储资源。在依赖低带宽通信的场景下,其庞大的权重文件显著增加了传输时延,制约了空中下载(Over-the-Air, OTA)的远程更新效率[8]。
(2)显存容量与计算瓶颈:边缘端显存带宽有限,标准Transformer融合模块的复杂度极易引发显存溢出[9]。同时,稀疏卷积网络在嵌入式GPU上受限于访存带宽,导致常规通道剪枝陷入减参不提速的效率悖论[10-12]。
针对上述挑战,本文提出了一种面向边缘计算环境的轻量化多模态 3D 检测网络——Lite-VAFNet。本文致力于在极低的计算预算下实现检测精度与推理速度的最佳平衡,主要贡献如下。
(1)提出基于网格降维的参数解耦设计。对检测头(ROI Head)的参数冗余,提出网格降维策略。该策略通过解耦特征粒度与全连接层维度,在物理层引入低通滤波抑制高频噪声,成功将模型参数量压缩约63%,显著降低了边缘端的存储开销与OTA更新成本。设计面向资源受限的Linear-Bottleneck融合模块。
(2)针对标准Transformer的显存瓶颈,提出线性瓶颈注意力机制。通过通道压缩与核函数近似,将计算复杂度由二次方降低至线性,在保持多模态全局特征交互能力的同时,消除显存溢出风险。
(3)构建“重采样-蒸馏”协同加速框架。揭示并解决了稀疏卷积的访存效率问题,提出空间重采样策略以减少非空体素索引开销,突破物理计算瓶颈。同时,结合Logit知识蒸馏技术,有效补偿了因粗粒度量化带来的几何信息损失,实现了在边缘设备上推理速度与检测精度的双重突破。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000007032
作者信息:
李家鑫1,王韵涵1,2,潘果1,张熙雨1
(1.华北计算机系统工程研究所,北京 100000;2.山东大学 网络空间安全学院,山东 青岛 266237)

