OpenMythos重构Claude Mythos：PyTorch开源项目揭示7.7亿参数媲美13亿Transformer潜力

Anthropic从未发布过关于Claude Mythos的技术论文，但这并未阻止研究社区对其架构进行理论探讨。Kye Gomez在GitHub上发布了一个名为OpenMythos的开源项目，它大胆尝试从第一性原理出发，在PyTorch中重建Claude Mythos的潜在架构，并以经过同行评审的研究为基础。

该项目并非泄露模型、微调或蒸馏产物，而是一个以代码形式呈现的架构假设，其具体程度足以被证伪，这正是其引人之处。

核心主张：Claude Mythos是循环深度Transformer

OpenMythos的核心主张是：Claude Mythos是一种循环深度Transformer（Recurrent-Depth Transformer，RDT），文献中也称之为“循环Transformer”（Looped Transformer）。这种概念与标准Transformer堆栈有显著不同。在传统Transformer（如GPT、LLaMA、Mistral）中，模型通过一系列独特的层按顺序传递输入，每层都有独立的权重。模型能力通常与层数和参数量成正比。而在循环深度Transformer中，一组固定的权重会在单次前向传播中，通过T个循环步骤进行迭代应用。相同的权重会运行多次，推理深度不再取决于存储的参数数量，而是取决于推理时运行的迭代次数。

可以将其类比为精修草稿而非阅读书籍：模型反复回到相同的计算块，在每次通过中不断改进其内部表示。

架构细节

OpenMythos将这种架构实例化为三部分结构：序曲（Prelude）→ 循环块（Recurrent Block）→ 尾声（Coda）。序曲和尾声是标准的Transformer层，只运行一次。循环块是计算核心，最多循环T=16次。

在每个循环步骤t中，隐藏状态（hidden state）根据以下规则更新：

ht+1 = A·ht + B·e + Transformer(ht, e)

其中，ht是循环迭代t后的隐藏状态，e是来自序曲的编码输入，并在每一步重新注入。这种重新注入是刻意的：如果没有它，隐藏状态可能会在深度循环中偏离原始输入信号。学习到的矩阵A和B控制着前一个隐藏状态和编码输入在每一步中传递的比例。

循环块内部的FFN并非标准的前馈层。OpenMythos将其替换为受DeepSeekMoE设计启发的专家混合（Mixture-of-Experts, MoE）层：一个包含大量细粒度路由专家的池，每个token只激活稀疏的Top-K子集，同时还有一小组始终活跃的共享专家，用于吸收常见的跨领域模式。关键在于，路由器在每个循环深度都会选择不同的专家子集，这意味着尽管共享相同的基本权重，每次迭代在计算上都是独特的。

OpenMythos重构Claude Mythos：PyTorch开源项目揭示7.7亿参数媲美13亿Transformer潜力

核心主张：Claude Mythos是循环深度Transformer

架构细节

推荐阅读

OpenAI连环收购揭示“生存难题”：产品多元化与形象重塑

Claude Desktop 安装 MCP 服务器新方式：告别 JSON，一键搞定

Cloudflare Workers免费计划：高效HTML转Markdown的秘诀