自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
2021-12-24
来源:机器之心Pro
鉴智机器人的下一代纯视觉自动驾驶 3D 目标检测框架 BEVDet,为解决视觉为主自动驾驶解决方案中视觉雷达、4D 感知、实时局部地图等关键问题提供了更多可能性。
日前,在自动驾驶权威评测集 nuScenes 上,鉴智机器人凭借提出的纯视觉自动驾驶 3D 感知新范式 BEVDet,以绝对优势获得纯视觉 3D 目标检测世界第一的成绩。BEVDet 是首个公开的同时兼具高性能、扩展性和实用性的 BEV 空间 3D 感知范式,以 BEVDet 为核心的系列技术将有希望解决视觉为主自动驾驶解决方案中视觉雷达、4D 感知、实时局部地图等关键问题,未来将应用于鉴智机器人以视觉雷达为核心的高级别自动驾驶等产品和解决方案中,为自动驾驶的大规模量产发挥关键的作用。
BEVDet技术报告链接:https://arxiv.org/abs/2112.11790
nuScenes 数据集是自动驾驶领域使用最广泛的公开数据集之一,也是目前最权威的自动驾驶纯视觉 3D 目标检测评测集。在传感器方面,nuScenes 一共配置了 6 个相机、1 个 LiDAR、5 个 RADAR,值得注意的是,和 KITTI 和 Waymo 等仅提供部分视角的数据集不同,nuScenes 提供了 360 度的相机视野,可以对周围环境进行全方位的感知。数据方面,nuScenes 提供了包含二维、三维物体标注、点云分割、高精地图等丰富的标注信息,共包含 1000 个场景、140 万帧图像、39 万帧激光雷达点云数据、23 个物体类别、140 万个三维标注框,数据规模和难度远超自动驾驶数据集 KITTI。此前参与 nuScenes 纯视觉 3D 目标检测评测的厂商包括丰田研究院(TRI)、华为、理想汽车、商汤科技、MIT、清华大学、香港中文大学、CMU、加州大学伯克利分校等国内外知名企业和研究机构。
高级别自动驾驶需要时刻对周围的环境进行感知以进行决策规划,而基于纯视觉输入进行 3D 空间中的目标检测是其中最具挑战的任务之一。由 2D 图像感知 3D 空间的目标,是利用低维度的输入预测高维度信息,维度缺失使得任务的难度远大于 2D 目标检测,需要设计合理的范式充分利用输入图像信息对高维度信息进行建模推理。目前业界基于纯视觉的 3D 感知框架,主要在图像空间进行目标检测。此类范式不仅依赖极高的算力资源,另外也无法与语义分割等任务进行并行推理,可扩展性较差。
针对该问题,鉴智机器人提出了下一代纯视觉自动驾驶 3D 目标检测框架 BEVDet。BEVDet 遵循模块化设计的理念,包含以下四个分工明确的模块:图像编码模块用于在二维图像空间提取高纬度的特征;视角变换模块用于把图像空间的特征转换到鸟瞰视角空间(Bird-Eye-View, BEV)的特征;鸟瞰视角的编码模块用于在鸟瞰视角下进一步提取特征;以及一个三维目标预测模块(Head)用于在鸟瞰视角空间对三维目标的定位、尺度、朝向、速度和类别的预测。BEVDet 通过上述的四个模块简洁的解决纯视觉自动驾驶 3D 目标检测的问题。
最后的性能也充分证明了该算法的有效性,在自动驾驶权威数据集 nuScenes 上,BEVDet 在计算量和精度等指标上都具有绝对的优势。相比于之前的算法,BEVDet 通过更小的 1/8 输入分辨率,更低的 1/4 的计算量,可以达到相近的精度指标。在使用相似分辨率输入的情况下,BEVDet 拥有明显的精度优势。此外,BEVDet 在预测目标的定位、尺度、方向等方面皆表现出超越已有范式的性能。
从自动驾驶技术发展角度看,BEVDet 具有以下的优势:
BEVDet 框架具有较强的扩展性,鉴智机器人正基于 BEVDet 进行扩展,实现视觉雷达、4D 感知、实时局部地图等自动驾驶关键模块;
BEVDet 基于相机模型构建 view-transformer ,可有效降低视觉变换模块的学习难度,相比特斯拉所使用的不带先验的 attention-based-view-transformer,此方案可大幅度减少模型对数据量需求,使模型在数据量有限情况下的具备更强的泛化性能;
BEVDet 利用更低的算力达到同样或者更好的算法效果,将有助于自动驾驶系统的算力利用效率的提升。
当前自动驾驶技术的发展已经进入下半场,一方面需要解决关键性问题(成像问题、3D 问题)推动自动驾驶等级的提升,另一方面需要构建更优的范式充分利用规模化的数据并进行持续升级迭代。
鉴智机器人以 “基于软硬协同优化,构建机器人传感器计算与智能大脑” 为目标,专注自动驾驶传感器计算与下一代自动驾驶方案的研发。目前已建立起覆盖算法、算力、软件、硬件的 100 余人的全栈自动驾驶研发团队,核心成员均来自国内一流 AI 算法、算力设计和自动驾驶公司。将基于视觉为主的传感器输入,通过摄像头 + 算法 + 算力的传感器计算模式,打造视觉雷达标准产品,并构建以视觉雷达为核心的高级别自动驾驶解决方案。