大模型“混合思考”新突破：Path-Lock Expert架构级分离推理模式

混合思考（hybrid-thinking）语言模型在明确区分“思考”和“不思考”模式时，常遭遇“推理泄露”问题。这意味着模型即使在“不思考”模式下也可能产生冗长且自我反思的响应，因为现有设计未能清晰分离这两种模式。通过数据整理和多阶段训练的现有解决方案效果有限，症结在于两种模式共享相同的全连接（feed-forward）参数。

Path-Lock Expert (PLE) 提出了一种架构级解决方案。它在每个解码器层中，用两个语义上锁定的专家网络取代单一的多层感知机（MLP）：一个专用于“思考”模式，另一个专用于“不思考”模式。关键在于，注意力机制、嵌入层、归一化层和语言模型头仍保持共享。一个确定性的控制令牌路由器会为整个序列选择一条专家路径，从而保留密集模型（dense model）的每令牌计算模式，并在监督微调期间使每个专家网络接收纯粹的模式特定更新。

PLE 在数学和科学推理基准测试中表现出色，它在保持强大“思考”模式性能的同时，显著提升了“不思考”模式：使其更准确、更简洁，并大大减少了推理泄露。例如，在 Qwen3-4B 模型上，PLE 将 AIME24 基准测试中“不思考”模式下的反射性令牌从 2.54 降低到 0.39，并将准确率从 20.67% 提高到 40.00%，同时不影响“思考”模式的性能。这些结果表明，可控的混合思考本质上是一个架构问题，通过分离模式特定的全连接通路提供了一种简单且有效的解决方案。

大模型“混合思考”新突破：Path-Lock Expert架构级分离推理模式

推荐阅读

DFPO：大模型后训练新范式，强化学习迈向泛化与鲁棒性

Code Broker：谷歌ADK驱动的多智能体代码质量评估系统

LLM前馈网络"超节点"揭秘：剪枝关键核心