“世界模型”概念在AI领域当前炙手可热,但其定义却日渐众说纷纭——从视频生成模型、游戏生成语言模型到物理引擎,似乎一切皆可被称为世界模型。面对这种“术语滥用”的现状,AI领域泰斗、斯坦福大学教授李飞飞近日亲自撰文,为世界模型梳理出了一套清晰的技术定义与功能分类。
李飞飞指出,古希腊人曾因“世界”并非单一实体而无法对其构成达成共识,如今AI领域也面临同样的精准度缺失。从技术闭环来看:智能体(人、机器人或系统)采取行动(Action)会影响世界的“状态”(State,即特定时刻客观实在的完整描述),而智能体通过“观察”(Observation)进行局部感知并做出回应。当前被称为世界模型的各种事物,实际上是这一技术循环的不同投射。具体而言,世界模型包含三大核心功能:渲染(Rendering)、模拟(Simulation)和规划(Planning)。
第一,渲染器(Renderer)。渲染器输入动作,输出供人类观看的视觉观察结果,其核心指标是视觉保真度。谷歌的Genie 3以及World Labs自研的RTFM均属此类。这类模型本身不具备对三维结构的明确理解,优化的是视觉逼真度而非物理精确度。虽然商业化最为成熟,但其输出结果无法直接用于需要高精度物理交互的建筑设计或机器人训练。
第二,规划器(Planner)。规划器输入观察和目标,输出下一步动作。VLA(视觉-语言-动作)模型及新一代动作模型即是代表,它们决定了机器人在非结构化世界中的行为。规划器最具发展潜力,吸引了大量资本。但李飞飞指出,目前绝大多数令人瞩目的机器人演示都局限于受限的实验室环境,难以应对真实世界部署所需的复杂性、可变性和长周期任务。
第三,模拟器(Simulator)。模拟器输出可计算、可交互的状态,强调几何、物理和动态的一致性。它既服务于需要高精度物理反馈的专业设计人员,也为强化学习和自动驾驶提供低成本、安全的虚拟训练场。李飞飞强调,模拟是连接渲染和规划的桥梁。如果说语言是抽象、像素是投影,那么几何、物理和动力学就是世界本身。模拟器的商业前景广阔(如英伟达估值万亿的Omniverse平台),但目前面临3D标注数据极度匮乏、“仿真-现实”差距(Sim-to-Real Gap)以及多物理场模拟成本高昂等瓶颈。World Labs的新产品Marble试图通过多模态输入生成可探索的3D环境及碰撞网格来突破这一瓶颈,但这仅仅是个开始。
李飞飞指出,最关键的趋势是这三大功能的边界正在消融。一个真正理解物理世界的模型,应当既能多角度渲染,能模拟受力反应,也能规划动作。近期研究表明,预训练视频渲染器已可作为预测世界和动作的骨干网络。World Labs的Marble能同时输出用于渲染的高斯泼溅(Gaussian splats)和用于模拟的碰撞网格,正是这一趋势的体现。最终,行业将走向一个统一的基础世界模型:既能渲染高保真画面,能生成精确物理结构,又能规划行动序列。其核心挑战在于解决数据不平衡,并在单一架构中调和视觉美感与物理精度之间的冲突。
李飞飞对世界模型的重塑,深刻揭示了 AI Agent 迈向物理世界(Embodied AI)的技术路径。过去,Agent 的发展多局限于“文本到文本”的逻辑推理(如大语言模型驱动的软件 Agent),缺乏与物理现实交互的实体能力。将世界模型解构为渲染、规划与模拟,并指出其融合趋势,直接指明了下一代物理 Agent 的底层架构:Agent 不仅需要“大脑”进行文本规划(Planner),更需要能够预测物理反馈的“数字孪生”沙盒(Simulator),以及与人类交互的直观视觉界面(Renderer)。通过将三者统一,未来的 AI Agent 将摆脱单纯的规则控制,拥有真正的“空间智能”,在自动驾驶、具身智能机器人等万亿级赛道上实现真正的闭环落地。这不仅是学术定义的澄清,更是对具身智能生态长远发展的战略指引。