News

PaceLLM:脑启发大模型突破长文本理解瓶颈

PaceLLM:脑启发大模型突破长文本理解瓶颈

尽管大型语言模型(LLMs)在诸多领域展现出强大实力,但在长上下文处理方面仍面临显著局限:其核心问题在于瞬态神经激活导致的信息衰减,以及前馈网络(FFN)权重结构化不足引发的语义碎片化。

受大脑工作记忆和皮层模块化机制的启发,研究人员提出了PaceLLM,核心包含两项创新技术。首先是“持久激活(PA)机制”,它模拟了前额叶皮层(PFC)神经元的持续放电特性,通过引入一个激活层级的记忆库,能够动态地检索、重用和更新关键的FFN状态,从而有效解决上下文信息衰减的问题。其次是“皮层专家(CE)聚类”,该机制模仿了任务适应性神经专业化过程,将FFN权重重新组织成语义模块,旨在建立跨token的依赖关系并缓解语义碎片化现象。

广泛的评估结果表明,PaceLLM在LongBench的多文档问答任务中取得了6%的性能提升,并在Infinite-Bench任务中实现了12.5%至17.5%的性能增长。更值得关注的是,在“大海捞针”(Needle-In-A-Haystack, NIAH)测试中,PaceLLM的可测量上下文长度成功扩展至20万个token。这项工作不仅开创了脑启发LLM优化的先河,而且作为现有方法的有效补充,普适于任何模型,在不进行大规模结构改造的前提下,显著提升其长上下文处理能力和可解释性。

↗ 阅读原文