近日,硅谷一家仅有9人的初创公司JustPaid引爆科技圈。他们通过整合开源的AI代理编排系统OpenClaw和Anthropic的Claude Code,成功部署了七个AI代理,实现了代码编写、评审和质量保证(QA)的全天候自动化运作。令人惊叹的是,在一个月内,这些AI代理团队交付了10项重要功能,而此前,每项功能若由人类工程师完成,至少需要一个月甚至更长时间。
这个案例被广泛视为自主工程团队时代到来的有力证明。然而,在激动人心的表象之下,一个核心细节常被忽视,但这恰恰是那些试图构建类似系统的人必须面对的——成本。
每周4000美元的账单
当JustPaid的CTO首次将Claude Code与OpenClaw结合使用时,每周的账单高达4000美元,这意味着仅仅是token的消耗,每月就高达16000美元。
经过细致的调优,包括针对不同任务切换到更小、更经济的模型,严格控制上下文窗口,并减少不必要的代理调用,他们成功将每月成本控制在10000至15000美元之间。
尽管如此,这仍是一个不小的数字。考虑到旧金山一名中级工程师的月薪(含福利等总成本)大致在15000至20000美元,AI代理的成本投入在数学上是可行的。但前提是,你必须对token的消耗进行精细化管理。如果放任不管,多代理系统的成本会迅速飙升。我们已经亲身经历过:代理在后台执行任务所产生的累积成本,在API账单到来之前几乎是隐形的。一个代理循环,每项任务调用50次工具,每天运行100项任务,token消耗速度惊人,你只能在月底才能发现。
OpenClaw的真正价值
《华尔街日报》曾将OpenClaw比作“大脑”,将Claude Code比作“双手”,这个比喻颇为形象。
实际上,OpenClaw是一个开源的代理编排系统,它负责任务规划、代理生成、子代理委派和文件访问等“管理”工作。而Claude Code则专注于实际的代码执行。JustPaid的成功并非单一工具的功劳,而是二者巧妙结合的架构。
这正是典型的多代理模式:一个协调模型负责规划和委派,多个专业代理负责执行,以及一个评审层在代码提交前进行检查。JustPaid的七个代理各司其职,拥有明确的角色:代码编写者、代码评审者和QA测试者。这正是多代理协作的最佳实践。单一代理试图包揽一切往往会以可预测的方式失败,而拥有明确职责范围的专业代理,其失败率更低,即便出现问题也更容易调试。
不可或缺的监督
Wayfound的Tatyana Mamut在文章中直言不讳:如果代理被赋予自主决策权,它们就需要时刻处于监督之下。
她说的没错。JustPaid的故事固然引人入胜,但这是一家9人创业公司,其CTO亲自构建了这套系统,对它的运作了如指掌。他扮演的正是“监督者”的角色。
然而,在大型组织中,这种监督层并非默认存在。代理可能在无人审阅每一个操作的情况下,访问文件、编写代码、发送消息、与外部API交互。这正是问题可能出现的地方。文章中提及的Kuse案例也很有趣:他们的AI代理拥有独立的Slack和Gmail身份,在Zoom会议中发言,甚至能主动发起工作。这种部署方式更加大胆,但同时也带来了更大的攻击面。