近日,亚马逊正式关停了其备受争议的内部AI使用排行榜。该榜单此前通过名为PhoneTool的内部系统,为高频使用AI工具的员工颁发“成就勋章”,旨在推广公司内部的AI开发工具(如Kiro)。官方公告宣称,该项目已成功完成了普及AI工具的使命,因此予以撤销。
然而,多位亚马逊员工向媒体爆料称,关停的真实原因在于榜单机制存在严重漏洞,且导致了资源浪费。为了应对管理者对“AI渗透率”的考核,部分员工通过编写自动化脚本,不断向AI模型发送无意义的指令以刷高调用次数。更有员工直言,在绩效评估中被质疑“AI使用频率不足”后,不得不通过这种“刷榜”手段来保住排名。
这种现象在硅谷被称为“Tokenmaxxing”——即管理层盲目推崇AI调用量作为生产力指标,甚至出现部分部门在AI工具上的支出超过人力成本的怪象。这些被视为“生产力”的调用,实际上并未带来实质性的研发效率提升,反而导致公司在Token消耗上虚耗了大量算力资源。尽管亚马逊官方试图将其平稳收场,但这一事件暴露了企业在推动AI原生化转型过程中,因考核指标设定不当而引发的资源错配与内部管理信任危机。
【AgentUpdate 深度解析】 亚马逊此番关停AI排行榜,是企业在AI Agent落地进程中因“度量偏见”而引发的典型反面教材。当前,大多数企业依然陷入“以调用量论英雄”的浅层逻辑,这与AI Agent生态强调的“目标导向(Goal-oriented)”背道而驰。真正的AI Agent价值应取决于其解决复杂任务的成功率与逻辑闭环能力,而非Token的消耗速率。这一事件折射出当前Agent生态的一个核心隐忧:当工具的易用性提升,且考核标准未从“频率”转向“成效”时,企业极易陷入“AI虚假繁荣”。未来,AI Agent的发展重心将从简单的 Prompt 编排转向基于质量评估的算力优化。对于企业而言,建立一套以Agent自主任务完成度、任务解决耗时(Time to Resolution)及实际业务价值为核心的评估体系,比单纯追踪活跃度指标更为迫切,否则盲目的Token消耗只会成为拖累AI转型预算的沉没成本。