英伟达推出LATTE3D模型
2024-03-27
来源:智东西
在英伟达GTC大会期间,英伟达(NVIDIA)首席科学家兼研究高级副总裁Bill Dally、英伟达AI研究副总裁Sanja Fidler与智东西等全球媒体进行交流,分享了NVIDIA Research的进展,并现场演示英伟达最新文生3D模型LATTE3D。
LATTE3D模型就像一台虚拟3D打印机。只需在文本框输入文字描述,在单张消费级GPU上运行,不到1秒时间,该模型就能按要求生成对应的物体和动物的几个不同的3D形状,供创建者选择,再在几分钟内优化成更高的质量。而3D形状可以随意放大、旋转,360度无死角。
“一年前,AI模型需要1小时才能生成这种质量的3D视觉效果,而目前的技术水平大约是10到12秒。”Sanja Fidler说。
现场演示了让LATTE3D生成小蛋糕、猪猪气球、踩滑板且戴着高帽子的针织鸭、踩着滑雪板并戴着聚会帽的小兔子。全程都很丝滑迅速,接近实时生成。生成的3D素材能直接导入图形软件应用程序或平台中,比如Omniverse平台。
对于开发视频游戏、广告活动、设计项目或虚拟机器人训练场地等应用来说,这都是个看起来很有吸引力的3D素材创建工具。
Bill Dally说,NVIDIA Research为未来的成功播下种子,既有登月项目,又有很多研究小组,研究方向包括GPU存储系统、编程系统、网络、架构、超大规模集成电路(VLSI)、图形、感知与学习等。这些研究塑造了英伟达的与众不同。
据Bill Dally分享,NVIDIA Research团队有三个原则:1、希望以最少的努力获得最大的回报;2、提高影响力,而不是出版物记录;3、希望与产品保持紧密的联系。
NVIDIA Research由全球数百名科学家和工程师组成,专注于AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人等主题。很多源自研究院的技术,如OptiX、CuDNN、光线追踪算法和硬件、Volta SM、Flip-Flops、NVSwitch、DLSS等,都成功转化成商业用途。
其研究团队分布在世界各地。面向3D生成式AI模型的新模型LATTE3D便是由英伟达位于加拿大多伦多的AI实验室团队研发的。该团队还研发过GANverse3D、GET3D、Magic3D、ASE、GameGAN、VideoLDM等模型。
LATTE3D使用英伟达A100 GPU进行训练,模型先生成神经3D形状,然后用图像扩散模型作为老师来对渲染图像进行反馈。除了3D形状外,该模型还接受了使用ChatGPT生成的各种文本提示词的训练,以提高模型处理用户描述特定3D对象的各种短语的能力。比如,它能理解以各种犬类为特征的提示应该都生成类似狗的形状。
当研究人员在特定的动物和日常用品数据集上训练LATTE3D时,开发人员可使用相同的模型架构在其他数据类型上训练AI。
例如,如果在3D植物数据集上进行训练,LATTE3D可帮助景观设计师在与客户进行头脑风暴时快速填充树木,开花灌木和多肉植物的花园渲染。如果对家用物品进行训练,该模型可以生成物品来填充家庭场景的3D模拟,开发人员可以用它来训练个人助理机器人,然后再在现实世界中进行测试和部署。