News

OpenMythos重构Claude Mythos:PyTorch开源项目揭示7.7亿参数媲美13亿Transformer潜力

OpenMythos重构Claude Mythos:PyTorch开源项目揭示7.7亿参数媲美13亿Transformer潜力

Anthropic从未发布过关于Claude Mythos的技术论文,但这并未阻止研究社区对其架构进行理论探讨。Kye Gomez在GitHub上发布了一个名为OpenMythos的开源项目,它大胆尝试从第一性原理出发,在PyTorch中重建Claude Mythos的潜在架构,并以经过同行评审的研究为基础。

该项目并非泄露模型、微调或蒸馏产物,而是一个以代码形式呈现的架构假设,其具体程度足以被证伪,这正是其引人之处。

核心主张:Claude Mythos是循环深度Transformer

OpenMythos的核心主张是:Claude Mythos是一种循环深度Transformer(Recurrent-Depth Transformer,RDT),文献中也称之为“循环Transformer”(Looped Transformer)。这种概念与标准Transformer堆栈有显著不同。在传统Transformer(如GPT、LLaMA、Mistral)中,模型通过一系列独特的层按顺序传递输入,每层都有独立的权重。模型能力通常与层数和参数量成正比。而在循环深度Transformer中,一组固定的权重会在单次前向传播中,通过T个循环步骤进行迭代应用。相同的权重会运行多次,推理深度不再取决于存储的参数数量,而是取决于推理时运行的迭代次数。

可以将其类比为精修草稿而非阅读书籍:模型反复回到相同的计算块,在每次通过中不断改进其内部表示。

架构细节

OpenMythos将这种架构实例化为三部分结构:序曲(Prelude)→ 循环块(Recurrent Block)→ 尾声(Coda)。序曲和尾声是标准的Transformer层,只运行一次。循环块是计算核心,最多循环T=16次。

在每个循环步骤t中,隐藏状态(hidden state)根据以下规则更新:

ht+1 = A·ht + B·e + Transformer(ht, e)

其中,ht是循环迭代t后的隐藏状态,e是来自序曲的编码输入,并在每一步重新注入。这种重新注入是刻意的:如果没有它,隐藏状态可能会在深度循环中偏离原始输入信号。学习到的矩阵A和B控制着前一个隐藏状态和编码输入在每一步中传递的比例。

循环块内部的FFN并非标准的前馈层。OpenMythos将其替换为受DeepSeekMoE设计启发的专家混合(Mixture-of-Experts, MoE)层:一个包含大量细粒度路由专家的池,每个token只激活稀疏的Top-K子集,同时还有一小组始终活跃的共享专家,用于吸收常见的跨领域模式。关键在于,路由器在每个循环深度都会选择不同的专家子集,这意味着尽管共享相同的基本权重,每次迭代在计算上都是独特的。

↗ 阅读原文