开放模型竞争升级：Gemma 4时代，成功关键何在？

当前，开放模型市场正经历前所未有的激烈竞争。回溯几年前，开放模型稀少，如Llama 3发布时，研究者们普遍基于Llama 2工作，对新版本升级充满热情。Qwen 3问世之际，正值Llama 4风波，围绕Qwen 2.5的RL研究社区方兴未艾，升级也是顺理成章的选择。然而，时至今日，任何新发布的开放模型，都必须与Qwen 3.5、Kimi K2.5、GLM 5、MiniMax M2.5、GPT-OSS、Arcee Large、Nemotron 3、Olmo 3等众多成熟模型同台竞技。

尽管市场已然拥挤，但开放模型的潜力依然巨大，如同“暗物质”般深不可测，其释放方式却鲜有清晰的范例。Agentic AI（智能体AI）和OpenClaw等领域的新进展，正驱动着开放模型的大规模实验，旨在与Claude、Codex等闭源模型形成互补，而非取代。

尤其对于开放模型而言，发布时的基准测试往往无法提供全貌。这在某种程度上令人兴奋，因为新开放模型具有更高的不确定性和惊喜潜力，但也揭示了其在商业化和构建优秀AI体验方面，相比闭源模型面临更多结构性挑战。对于Claude Opus或GPT等闭源模型，通过智能体工作流进行数小时的“体感测试”能有效评估其能力。但对于开放模型，这种测试方式可能存在认知偏差。

在智能体时代，开放模型的另一个优势在于，它们能够让开发者跳过集成、工具链等外部因素的争论，直接观察模型本身的能力。尽管不借助工具无法测试某些能力（如搜索），但能够精确衡量模型独立进展的速度，对于系统性不透明的AI领域而言，无疑是一种受欢迎的简化。

在评估一个值得投资的新开放权重模型时，以下是我会考量的关键因素：

模型性能（及规模）：模型在我关心的基准测试上的表现，以及与同等规模其他模型的对比。
原产地：一些企业深切关注模型的来源，例如是否由中国团队开发。
模型许可协议：如果模型的使用需要复杂的法律审批，其中大型企业的采纳速度会显著放缓。
发布时的工具链支持：由于追求架构或工具的前沿性，许多模型发布时在vLLM、Transformers、SGLANG等主流软件中的实现可能存在不完善或效率较低的问题。
模型微调能力：实际使用时，根据特定用例修改模型的难易程度。

核心问题在于，部分因素（如通用性能、许可、来源等）在发布时即可知晓，但另一些因素（如工具链支持、微调能力）则需要数天乃至数周的时间才能充分显现。