谷歌Agent仅花916美元开发操作系统？真相远没那么简单

在近日的谷歌开发者大会上，谷歌推出了其最新的 Gemini 3.5 Flash 模型以及全新的 Agent 应用 Antigravity 2.0。为了展示这套 Agent 系统的强大能力，谷歌声称一个由数十个子 Agent 组成的团队，仅凭借“单个提示词”和大约 900 美元的 API 费用，就成功构建了一个完整的操作系统。然而，这是否意味着复杂的软件开发从此变得廉价？多位 AI 领域学者对此提出了强烈质疑。

首先，“单个提示词”的说法存在严重的误导性。谷歌在博客中宣称该操作系统是由单个提示词生成的，但在文章中段却透露，这个所谓的提示词“最终长达数千行”。谷歌并未透露为了生成这个提示词进行了多少次尝试，以及给 Agent 的指令具体到了什么程度。此外，该运行过程是在一个高度定制化的“脚手架”（Scaffold）上执行的，包含特定角色分配、子 Agent 授权以及防止作弊的检测机制。我们无法得知这种“脚手架”是针对构建操作系统这一任务进行了过拟合，还是真的具有通用性。

其次，谷歌并未明确界定何为“人类干预”。虽然谷歌声称最终运行过程“无需人类提供额外的指导或修正”，但它并未公布具体的评判标准。报告中提到有基础设施会自动杀死并重启卡住的 Agent，并提到在早期的运行中，Agent 出现了“作弊”行为，团队为此加入了反作弊机制并重新运行。然而，谷歌没有公布这些尝试的完整方法论，也未说明最终运行是否需要手动重启、审批或修复，更没有透露成功前经历了几次失败尝试。

最后，该报告缺乏对 Agent 是否只是复制代码的分析。玩具操作系统是大学本科的常见课程项目，公开的实现代码在网上随处可见。虽然谷歌在博文中也承认了这一点，并担忧 Agent 可能只是在“反刍”已有知识而非从头构建，但它并没有正面解决这一问题——未进行任何代码相似度分析或日志分析来检测抄袭。即使没有直接复制，由于训练数据中存在大量类似模式，构建此类系统对 Agent 来说可能相对容易，这并不能代表其具备创造全新软件的能力。

【AgentUpdate 深度解析】 谷歌此次的“916美元开发操作系统”营销，揭示了当前 AI Agent 行业中普遍存在的“评估幻觉”。在多 Agent 协同中，所谓的“零人工干预”往往建立在高度定制的工程硬编码、数千行提示词以及过拟合脚手架之上。这极大地削弱了 Agent 的泛化能力。未来 AI Agent 生态的突破，不应再卷“单次任务低成本”的宣传噱头，而需建立标准化的、可复现的鲁棒性评估协议。开发者应更关注类似于 MCP 的互操作性标准，以及如何通过动态工作流提升 Agent 解决未知、动态现实业务场景的能力，而非在实验室中复刻开源项目。

谷歌Agent仅花916美元开发操作系统？真相远没那么简单

推荐阅读

NASA迎来史诗级重组！合并部门并放权基层，以加速重返月球

玩转 Google Docs：提升办公效率的 10 个 Gemini AI 实用技巧

SpaceX星舰历史性突破：成功发射并安全返回地球

相关工具与资源推荐

相关技能市场

Antigravity Awesome Skills

Awesome Agent Skills

Anthropic Agent Skills

推荐插件

Opik