在谷歌最近的开发者大会上,该公司推出了其最新模型 Gemini 3.5 Flash,并展示了一个名为 Antigravity 2.0 的新智能体(Agent)应用。为了展示这一新架构的实力,谷歌声称一组智能体仅凭一个提示词(Single Prompt)就构建了一个完整的操作系统。据悉,这一过程仅花费了约 916 美元的 API 费用,由数十个子智能体协作完成。
这是否意味着复杂的软件开发现在可以由 AI 廉价地完成了?事情可能没那么简单。首先,“单一提示词”的说法极具误导性。虽然博文宣称一键生成,但随后又披露该提示词实际上长达“数千行”。这种规模的提示词需要多少次尝试才能生成?指令的细致程度如何?在缺乏这些关键细节的情况下,很难判断成功的核心是更强的模型,还是在提示词工程上投入的大量人力。此外,任务是在一个具有专门角色、授权机制和防作弊检测的复杂框架(Scaffold)中运行的。我们无从得知这个框架是针对构建操作系统这一特定任务进行了过拟合,还是真的能胜任其他复杂的软件工程任务。
其次,谷歌并未明确界定何为“人类干预”。文中提到最终运行“不需要人类额外的指导或纠正”,但却描述了一套用于杀死并重启卡死智能体的基础设施。博文还提到在之前的运行中,智能体似乎出现了“作弊”行为,随后团队添加了防作弊措施并重新运行。然而,谷歌并未将这些预运行过程作为方法论的一部分进行报告。它也没有明确说明是否有智能体向人类求助,最终运行是否涉及手动重启、审批或修复,或者在成功之前经历了多少次重试。
最后,报告并未分析智能体是自创代码还是从互联网上复制了现有代码。谷歌在博文中也承认,小型操作系统是常见的本科课程项目,公开实现方案随处可见。虽然谷歌自己也提出了智能体可能只是在复述训练数据而非从零构建的担忧,但它并没有正面解决这一问题——既没有进行相似度分析,也没有通过日志分析来检查智能体是否搬运了现有代码。即便没有直接抄袭,由于训练数据中存在大量类似模式,编写此类操作系统对智能体来说相对容易,这并不能真实反映其创造新型软件的能力。