《电子技术应用》
您所在的位置:首页 > 人工智能 > 设计应用 > Lite-VAFNet:面向无人机边缘计算的多模态3D目标检测
Lite-VAFNet:面向无人机边缘计算的多模态3D目标检测
电子技术应用
李家鑫1,王韵涵1,2,潘果1,张熙雨1
1.华北计算机系统工程研究所;2.山东大学 网络空间安全学院
摘要: 针对无人机边缘算力受限与多模态3D检测高精度需求间的矛盾,基于VAF-Net提出一种面向机载平台的轻量化检测网络Lite-VAFNet。该网络首先通过构建网格降维检测头压缩约63%的参数量,以缓解设备存储压力;其次,设计Linear-Bottleneck融合模块实现线性复杂度的特征交互,消除显存峰值瓶颈;最后,引入空间重采样与Logit蒸馏协同加速框架,在突破访存限制的同时有效补偿量化带来的精度损失。KITTI基准实验表明,Lite-VAFNet仅以14.60 M的参数量即取得85.24%的3D AP(Mod.),性能显著优于BEVFusion等前沿模型。该研究在大幅降低资源消耗的同时实现了精度与效率的最佳平衡,极具边缘端部署潜力。
中图分类号:TP391.41 文献标志码:A DOI: 10.16157/j.issn.0258-7998.267951
中文引用格式: 李家鑫,王韵涵,潘果,等. Lite-VAFNet:面向无人机边缘计算的多模态3D目标检测[J]. 电子技术应用,2026,52(4):10-17.
英文引用格式: Li Jiaxin,Wang Yunhan,Pan Guo,et al. Lite-VAFNet: efficient multi-modal 3D object detection for UAV edge computing[J]. Application of Electronic Technique,2026,52(4):10-17.
Lite-VAFNet: efficient multi-modal 3D object detection for UAV edge computing
Li Jiaxin1,Wang Yunhan1,2,Pan Guo1,Zhang Xiyu1
1.National Computer System Enginering Research Institute of China;2.School of Cyber Science and Technology,Shandong University
Abstract: To address the conflict between the limited edge computing capacity of Unmanned Aerial Vehicles (UAVs) and the demand for high-precision multi-modal 3D detection, this paper proposes a lightweight detection network tailored for airborne platforms, termed Lite-VAFNet, building upon VAF-Net. A grid dimensionality-reduction detection head is constructed to compress the parameter volume by approximately 63%, thereby alleviating device storage constraints. A Linear-Bottleneck fusion module is designed to execute feature interaction with linear complexity, effectively eliminating the peak memory bottleneck. Furthermore, a collaborative acceleration framework integrating spatial resampling and logit distillation is introduced to overcome memory access limitations while compensating for the accuracy degradation induced by quantization. Experiments on the KITTI benchmark demonstrate that Lite-VAFNet achieves a 3D AP (Mod.) of 85.24% with merely 14.60 M parameters, significantly outperforming state-of-the-art models such as BEVFusion. This research strikes an optimal balance between accuracy and efficiency while substantially reducing resource consumption, exhibiting exceptional potential for edge deployment.
Key words : drone perception;multimodal 3D object detection;model lightweighting;knowledge distillation;edge computing

引言

随着无人机在低空经济中的广泛部署,融合LiDAR几何精确性与Camera语义丰富性的多模态感知技术已成为克服单一传感器环境适应性差、实现全天候鲁棒感知的关键范式[1-3]。在此背景下,以VAF-Net[4]为代表的高性能融合模型,凭借其深度特征交互机制显著提升了检测精度,确立了当前无人机三维目标检测的性能基准[5]。

尽管多模态融合模型在服务器端表现卓越,但迁移至NVIDIA Jetson等机载平台时面临严峻的资源失配挑战。边缘模组通常受限于15 W~60 W功耗,FP32算力不足桌面级1/10,且共享内存带宽低于200 GB/s[6-7]。实测表明,SOTA模型VAF-Net[4]参数量高达39.99 M,单帧延迟超300 ms,具体痛点如下。

(1)存储资源与限制:VAF-Net近40 M的参数规模严重挤占机载存储资源。在依赖低带宽通信的场景下,其庞大的权重文件显著增加了传输时延,制约了空中下载(Over-the-Air, OTA)的远程更新效率[8]。

(2)显存容量与计算瓶颈:边缘端显存带宽有限,标准Transformer融合模块的复杂度极易引发显存溢出[9]。同时,稀疏卷积网络在嵌入式GPU上受限于访存带宽,导致常规通道剪枝陷入减参不提速的效率悖论[10-12]。

针对上述挑战,本文提出了一种面向边缘计算环境的轻量化多模态 3D 检测网络——Lite-VAFNet。本文致力于在极低的计算预算下实现检测精度与推理速度的最佳平衡,主要贡献如下。

(1)提出基于网格降维的参数解耦设计。对检测头(ROI Head)的参数冗余,提出网格降维策略。该策略通过解耦特征粒度与全连接层维度,在物理层引入低通滤波抑制高频噪声,成功将模型参数量压缩约63%,显著降低了边缘端的存储开销与OTA更新成本。设计面向资源受限的Linear-Bottleneck融合模块。

(2)针对标准Transformer的显存瓶颈,提出线性瓶颈注意力机制。通过通道压缩与核函数近似,将计算复杂度由二次方降低至线性,在保持多模态全局特征交互能力的同时,消除显存溢出风险。

(3)构建“重采样-蒸馏”协同加速框架。揭示并解决了稀疏卷积的访存效率问题,提出空间重采样策略以减少非空体素索引开销,突破物理计算瓶颈。同时,结合Logit知识蒸馏技术,有效补偿了因粗粒度量化带来的几何信息损失,实现了在边缘设备上推理速度与检测精度的双重突破。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000007032


作者信息:

李家鑫1,王韵涵1,2,潘果1,张熙雨1

(1.华北计算机系统工程研究所,北京 100000;2.山东大学 网络空间安全学院,山东 青岛 266237)

2.jpg

此内容为AET网站原创,未经授权禁止转载。