曝xAI用Claude数据蒸馏代码模型，面临团队流失危机

据外媒《The Information》报道，埃隆·马斯克（Elon Musk）旗下的人工智能初创公司 xAI 曾耗时数月，直接通过“蒸馏”（distill）Anthropic 的 Claude 模型输出来训练其自有的代码模型。这一消息再次撕开了大模型行业“用竞品数据训练自身模型”这一公开秘密的口子。

报道指出，Anthropic 在今年1月发现了这一行为并封禁了 xAI 的官方访问权限。然而，xAI 的工程师并未就此收手，而是通过个人账户以及第三方中介服务 Blackbox AI 继续获取 Claude 的数据。马斯克此前曾公开承认，xAI 的 Grok 模型在训练中“部分”使用了 OpenAI 的数据，并称这是行业的“标准做法”。

除了数据来源的争议，xAI 内部似乎正面临严重的管理与工程危机。其预训练团队已缩减至不足5人。在短短几个月内，已有四位 Grok 代码业务负责人以及多位联合创始人相继离职。更糟糕的是，一名员工因操作失误意外删除了关键的训练数据，直接导致项目进度滞后了两到三周。

目前，马斯克此前大举采购的算力资源并未完全用于自身模型的研发，而是通过 SpaceX 转租给了 Anthropic，并直接租给了 Google。外界猜测这可能只是 xAI 缓解资金与研发压力的权宜之计。

AgentUpdate 深度解析

在大模型与 AI Agent 快速演进的当下，xAI 依靠蒸馏 Claude 训练代码模型的事件，折射出整个 Agent 生态对高质量合成数据和顶尖基础模型的深度依赖。Claude 作为目前公认最强、最受开发者欢迎的编码辅助模型（尤其在 Cursor、Windsurf 等 Agent 级 IDE 中），其输出逻辑代表了当前的行业天花板。初创公司通过对抗性“蒸馏”虽然能在短期内迅速提升 Grok 等模型的代码生成能力，但这也凸显了高质量指令微调数据（Alignment & Instruction Tuning）的极度匮乏。未来，随着主动式 AI Agent 走向多步骤、长上下文的复杂推理，单纯依靠“影子学习”（Shadow Learning）只能亦步趋，无法实现真正的架构突破。真正的生态突围，仍需依赖智能体自我探索、自我纠错（Self-play/RLHF）的闭环数据生成，这才是决定下一代 coding Agent 能否真正替代人类工程师的关键。

曝xAI用Claude数据蒸馏代码模型，面临团队流失危机

推荐阅读

OpenAI推理模型推翻埃尔德什百年猜想，揭秘测试时计算威力

对话OpenAI强化学习主管：从黑洞物理到o1推理模型

实战演练：我在生产项目中使用 Claude Code 的真实体验

相关工具与资源推荐

相关技能市场

Awesome Claude Skills

Claude Skills Collection

Anthropic Agent Skills