⚡ News

谷歌Agent仅花916美元开发操作系统?真相远没那么简单

谷歌Agent仅花916美元开发操作系统?真相远没那么简单

在近日的谷歌开发者大会上,谷歌推出了其最新的 Gemini 3.5 Flash 模型以及全新的 Agent 应用 Antigravity 2.0。为了展示这套 Agent 系统的强大能力,谷歌声称一个由数十个子 Agent 组成的团队,仅凭借“单个提示词”和大约 900 美元的 API 费用,就成功构建了一个完整的操作系统。然而,这是否意味着复杂的软件开发从此变得廉价?多位 AI 领域学者对此提出了强烈质疑。

首先,“单个提示词”的说法存在严重的误导性。谷歌在博客中宣称该操作系统是由单个提示词生成的,但在文章中段却透露,这个所谓的提示词“最终长达数千行”。谷歌并未透露为了生成这个提示词进行了多少次尝试,以及给 Agent 的指令具体到了什么程度。此外,该运行过程是在一个高度定制化的“脚手架”(Scaffold)上执行的,包含特定角色分配、子 Agent 授权以及防止作弊的检测机制。我们无法得知这种“脚手架”是针对构建操作系统这一任务进行了过拟合,还是真的具有通用性。

其次,谷歌并未明确界定何为“人类干预”。虽然谷歌声称最终运行过程“无需人类提供额外的指导或修正”,但它并未公布具体的评判标准。报告中提到有基础设施会自动杀死并重启卡住的 Agent,并提到在早期的运行中,Agent 出现了“作弊”行为,团队为此加入了反作弊机制并重新运行。然而,谷歌没有公布这些尝试的完整方法论,也未说明最终运行是否需要手动重启、审批或修复,更没有透露成功前经历了几次失败尝试。

最后,该报告缺乏对 Agent 是否只是复制代码的分析。玩具操作系统是大学本科的常见课程项目,公开的实现代码在网上随处可见。虽然谷歌在博文中也承认了这一点,并担忧 Agent 可能只是在“反刍”已有知识而非从头构建,但它并没有正面解决这一问题——未进行任何代码相似度分析或日志分析来检测抄袭。即使没有直接复制,由于训练数据中存在大量类似模式,构建此类系统对 Agent 来说可能相对容易,这并不能代表其具备创造全新软件的能力。

【AgentUpdate 深度解析】 谷歌此次的“916美元开发操作系统”营销,揭示了当前 AI Agent 行业中普遍存在的“评估幻觉”。在多 Agent 协同中,所谓的“零人工干预”往往建立在高度定制的工程硬编码、数千行提示词以及过拟合脚手架之上。这极大地削弱了 Agent 的泛化能力。未来 AI Agent 生态的突破,不应再卷“单次任务低成本”的宣传噱头,而需建立标准化的、可复现的鲁棒性评估协议。开发者应更关注类似于 MCP 的互操作性标准,以及如何通过动态工作流提升 Agent 解决未知、动态现实业务场景的能力,而非在实验室中复刻开源项目。

↗ 阅读原文