Memory Sparse Attention：LLM记忆扩展至1亿tokens的新突破

长记忆一直是大型语言模型（LLM）面临的核心挑战。当前业界主流的有效上下文窗口通常只能达到100万tokens左右，这严重阻碍了大规模多智能体系统开发以及处理超大型文本语料等复杂应用的发展。

由Evermind、盛大集团和北京大学的研究人员共同开发的新技术——Memory Sparse Attention（MSA），旨在解决当前长记忆解决方案的不足。该架构能够将模型的上下文窗口扩展至惊人的1亿tokens，同时还能保持推理精度不受影响。

MSA的核心创新在于其可微分的端到端路由机制。模型能够学习将海量文档集合压缩成预计算的注意力值，并在生成过程中直接将最相关的文档片段检索到模型的活跃工作记忆中。MSA是众多新兴优化技术之一，这些技术使开发者能够构建处理海量文档并为动态环境开发长记忆能力的AI应用。

长记忆的挑战

LLM在长期的、细粒度的记忆保留方面表现不佳。标准的全注意力机制随着数据量的增长会受到计算限制，因为其内存需求巨大。为了处理语言，模型需要计算序列中每个token与所有其他token之间的关系。随着序列长度的增加，跟踪这些关系所需的计算量呈平方级增长。

大多数现代LLM的有效上下文窗口被限制在12.8万到100万tokens之间。相比之下，认知科学估计人类的终身记忆相当于2亿到3亿tokens。这种硬性限制给需要长期、持久上下文的复杂应用带来了挑战。

例如，当尝试理解篇幅宏大的小说系列（如《冰与火之歌》或《哈利·波特》系列）时，标准模型不可避免地会遗漏早期的情节要点和微妙的角色细节。在构建复制人类行为的数字分身，或在角色扮演中保持一致的个性时，AI最终会因为对话历史溢出可用上下文窗口而忘记其身份并“出戏”。

同样，管理多智能体系统的长期历史也变得难以驾驭，因为模型无法可靠地检索精细的决策或过去的交互来指导当前的推理。对于AI开发者而言，核心挑战在于在不牺牲计算效率、架构兼容性或推理精度的情况下，扩展LLM的记忆能力。

有效记忆系统的要求

研究人员在他们的论文中阐明了有效长记忆系统的五个核心特征：

相关工具与资源推荐