英伟达在丹佛举行的计算机视觉与模式识别会议(CVPR)上,发布了一系列全新的物理AI研究工具、智能体工作流及开源模型。这些更新基于其最新推出的 Cosmos 3 世界基座模型,旨在帮助研究人员实现物理AI开发中关键阶段的自动化,包括模拟、合成数据生成、策略训练和评估。物理AI是指与物理世界进行交互并运行的AI系统,包括自动驾驶汽车、工业机器人和具身智能体。
英伟达指出,新功能解决了工程师面临的核心挑战:在真实世界部署之前,如何构建可扩展的工作流来在虚拟环境中训练和测试AI。官方在博客中表示:“物理AI研究的核心挑战不仅仅是开发更强大的模型,而是围绕它们构建完整的工作流。如今,这些步骤分散在不同的工具中,研究人员费力地将它们拼凑在一起,拖慢了实验进度。”
在发布的众多更新中,全新的“智能体技能”(Agent Skills)已整合至 Nvidia Omniverse、Isaac Sim、Isaac Lab 和 Cosmos。这使得开发人员能够自动执行场景重建、模拟设置、环境生成和强化学习工作流等任务。
针对自动驾驶汽车开发,英伟达推出了能够解决行业“长尾问题”的工具,即难以捕获但在训练和验证中至关重要的极端驾驶场景。为了填补这一空白,英伟达的AI智能体现在可以自动从车队数据中重建真实的驾驶环境,并生成用于测试的合成边界情况场景。此外,英伟达还推出了 Alpamayo 2 Super,这是一个拥有 320亿参数 的自动驾驶视觉-语言-动作(VLA)模型。该系统具备先进的推理能力,能够自主在整个驾驶技术栈中执行决策。
在视觉AI领域,英伟达通过更新其 Metropolis 平台扩展了视频分析能力,新增了视频搜索、摘要和合成数据生成工具。这些功能将帮助开发人员构建能够理解复杂场景、识别事件并从视频流中生成警报的AI智能体。在机器人领域,新的智能体技能旨在自动化模拟和训练工作流,极大地减少了创建虚拟环境和在其中训练机器人所需的手动劳动。
英伟达此次的核心动作是将物理世界与数字孪生彻底打通,以“仿真即训练”攻克具身智能的场景泛化难题。通过 Cosmos 3 基座模型与 Isaac 平台的深度整合,英伟达正在从单一的硬件巨头演变为物理AI时代的“大操作系统”。其推出的 32B VLA 模型 Alpamayo 2 Super,标志着自动驾驶已从传统的端到端感知进化为具备高阶推理和实时决策的 Agent 架构。对于 AI Agent 生态而言,这预示着智能体(Agent)正加速走出纯数字软件生态(如浏览器和SaaS),向物理实体实体化(Embodied)跨越。未来的智能体将不再局限于调用 API,而是通过虚拟仿真工作流实现低成本的“自我进化”,这极大地降低了机器人与无人驾驶领域的研发门槛,物理世界的数字化和智能体的具身化将成为下一阶段 AI 产业的最强主旋律。