NVIDIA 的“三台计算机”方案开启机器人进化新时代
2025-01-24
来源:英伟达
人形机器人一般是指具有与人类类似的身体结构和运动方式(双足行走、双手协作等)的智能机器人。人形机器人既需要极强的运动控制能力,也需要具备非常强的感知计算能力。人形机器人更能适应于各类现实生活场景,使得机器人能从“专用”转向“通用”,以此形成规模效应和降低成本。
随着人工智能技术不断发展,通过结合人工智能、机械工程和传感技术,人形机器人可以模仿人类的动作和行为,执行各种任务。
NVIDIA 机器人与边缘计算副总裁 Deepu Talla 表示,技术进步和仿真环境的改进是激发人形机器人即将爆发的两大源动力。
生成式人工智能和大语言模型技术的进步,打破了数字应用和物理应用间的界限,而仿真环境的改进,使得机器人研发不再受限于物理环境,从而使得机器人技术获得了跨越式发展。
为了推动机器人从“专用”走向“通用”,NVIDIA以其在计算领域突破性创新成果为基础,面向机器人领域推出了集合训练、仿真和计算的“三台计算机”解决方案。
第一台计算机用于训练:这是用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行,这是构建机器人“大脑”的关键步骤。
第二台计算机用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险。更好的解决方案是引入一个“仿真层”,即“数字孪生”,在虚拟环境中完成测试。仿真允许在大规模、快速且安全的条件下运行数千种场景测试,无需受到真实世界时间或成本的限制。
第三台计算机用于部署:第三种系统安装在机器人内部,它就是操作物理机器人的“大脑”。对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现。
Deepu Talla 表示,通过整合上述三个系统,在机器人正式部署之前,通过仿真进行成千上万次测试,可以显著缩短机器人的开发时间,加速整个流程。
NVIDIA,并不直接制造机器人,而是通过构建一个包含三种计算系统以及相关软件工具和工作流程的平台,帮助机器人专家、研究人员、机械工程师和测试人员更轻松地开发机器人解决方案。
与ChatGPT大模型可以通过数据训练获得进步不同的是,应用于机器人的大模型还无法获得执行各种动作的海量数据。目前仅仅通过使用Apple Vision Pro或动作捕捉套装来记录人类动作的示范,而这些方法虽能提供有用的数据,但规模太小,无法完全满足机器人模型的训练需求。没有足够的数据,机器人模型无法进行有效的训练、测试或部署。这使得数据的收集和生成成为解决机器人开发挑战的关键第一步。
为了解决这一问题,合成数据生成变得至关重要。
银河通用创始人、CTO王鹤表示,通过合成数据,可以生成特定动作(例如抓取物体)的无数种变化,或者构建完整的虚拟环境。通过将少量的现实世界数据与使用像NVIDIA Cosmos这样的工具生成的大规模合成数据相结合,可以克服机器人技术中数据稀缺的问题,解决机器人领域的基础数据挑战。
NVIDIA Cosmos是一个“世界基础模型”,可以生成高度逼真、类似视频游戏的环境,用于机器人训练。在这里,“世界”指的并不是地球,而是机器人交互的环境,例如机器人操作的房间内可见区域。通过采用这种结合现实与合成数据的创新工作流,NVIDIA正为机器人领域的重大进步铺平道路。