在具身智能领域发展近两年后,行业终于迎来了利用大规模真机数据进行预训练的重要突破。上海创智学院副教授、智元机器人首席科学家罗剑岚带队发布了全球规模最大的开源预训练具身世界模型——τ0-World Model(τ0-WM)。该模型参数量达到5B,预训练数据规模高达约3万小时,其中真机遥操作数据首次成为绝对主力,占比达1.78万小时。这不仅刷新了开源具身世界模型的规模纪录,也打破了“真机数据仅能用于微调”的传统认知。
传统机器人感知与控制主流采用反应式端到端策略,即神经网络根据实时画面立刻输出动作。这种方式类似于人类的“条件反射”,在标准任务中表现优异,但在面对高密度接触、长程跨度或存在严重遮挡的复杂操作时,极易导致不可逆的错误。为此,τ0-WM 引入了“测试时计算(Test-Time Computation, TTC)”,允许机器人在执行动作前在内部“虚拟沙盘”中进行并行推演和多路径比较,从而实现“慢思考”和主动纠错。
具体而言,τ0-WM 的在线推理包含三个核心步骤:首先是“提议”,视频动作模型(VAM)基于当前多视角观测和语言指令,一次性采样出多组候选动作并生成模糊的未来画面;其次是“推演”,动作条件视频模拟器针对每组动作生成多视角的精细未来画面,以解决操作过程中的遮挡问题;最后是“评估与修正”,系统利用重去噪一致性得分(RCS)评估动作合规性,若得分不足,则触发低质量动作整顿(LAR)机制,挑选任务推进效果最好的未来画面并重新生成动作。与传统模型部署时丢弃未来预测模块的做法不同,τ0-WM 在推理阶段显式保留并应用了“未来想象”来辅助决策。
在架构设计上,τ0-WM 由负责提议动作的 VAM(基于 Wan2.2-5B 视频生成模型)和负责推演的动作条件视频模拟器两个共享视频扩散骨干组件驱动。其训练数据集由三部分构成:17,800小时的真机遥操作数据(提供高精度动作监督),6,500小时的通用操作接口(UMI)数据(补充行为多样性),以及3,000小时的人类第一视角(EgoCentric)数据(覆盖长尾交互场景)。通过模态特定的监督掩码,这些异构数据被高效整合进统一的训练体系中。
评测结果显示,基于这套全新的技术路径,τ0-WM 在工具收纳(Toolbox)、书包装物(School Bag)、羽毛球装盒(Badminton)以及水管接头对接(Faucet)四个具有长程精细操作特征的任务中,平均成功率显著超越了对标的 π0.5 和 Fast-WAM 模型,展现出极强的泛化能力和操作鲁棒性。
【AgentUpdate 深度解析】 具身智能领域长期面临“真机数据昂贵、难以 Scaling Up”的痛点,多数端到端模型仍停留在反应式控制层面。τ0-WM 的发布标志着具身智能正式步入“大预训练时代”。其核心创新在于将世界模型的“显式未来预测”与推理期测试时计算(TTC)相结合,为机器人引入了类似人类大体系统 2(System 2)的慢思考机制。相比仅在训练期预测未来的传统模型,τ0-WM 在推理期保留想象并进行动作纠偏,打通了具身智能在长程、重遮挡、高精细操作场景下的泛化瓶颈。这为未来 AI Agent 生态提供了关键启示:具身 Agent 的终极形态不仅需要强大的物理世界表征能力,更需要具备自监督、自纠错的闭环逻辑推理能力。随着万小时级开源数据集与模型的发布,物理世界 Agent 的开发门槛将大幅降低,有望加速通用机器人的商业化落地进程。