当前,开放模型市场正经历前所未有的激烈竞争。回溯几年前,开放模型稀少,如Llama 3发布时,研究者们普遍基于Llama 2工作,对新版本升级充满热情。Qwen 3问世之际,正值Llama 4风波,围绕Qwen 2.5的RL研究社区方兴未艾,升级也是顺理成章的选择。然而,时至今日,任何新发布的开放模型,都必须与Qwen 3.5、Kimi K2.5、GLM 5、MiniMax M2.5、GPT-OSS、Arcee Large、Nemotron 3、Olmo 3等众多成熟模型同台竞技。
尽管市场已然拥挤,但开放模型的潜力依然巨大,如同“暗物质”般深不可测,其释放方式却鲜有清晰的范例。Agentic AI(智能体AI)和OpenClaw等领域的新进展,正驱动着开放模型的大规模实验,旨在与Claude、Codex等闭源模型形成互补,而非取代。
尤其对于开放模型而言,发布时的基准测试往往无法提供全貌。这在某种程度上令人兴奋,因为新开放模型具有更高的不确定性和惊喜潜力,但也揭示了其在商业化和构建优秀AI体验方面,相比闭源模型面临更多结构性挑战。对于Claude Opus或GPT等闭源模型,通过智能体工作流进行数小时的“体感测试”能有效评估其能力。但对于开放模型,这种测试方式可能存在认知偏差。
在智能体时代,开放模型的另一个优势在于,它们能够让开发者跳过集成、工具链等外部因素的争论,直接观察模型本身的能力。尽管不借助工具无法测试某些能力(如搜索),但能够精确衡量模型独立进展的速度,对于系统性不透明的AI领域而言,无疑是一种受欢迎的简化。
在评估一个值得投资的新开放权重模型时,以下是我会考量的关键因素:
- 模型性能(及规模):模型在我关心的基准测试上的表现,以及与同等规模其他模型的对比。
- 原产地:一些企业深切关注模型的来源,例如是否由中国团队开发。
- 模型许可协议:如果模型的使用需要复杂的法律审批,其中大型企业的采纳速度会显著放缓。
- 发布时的工具链支持:由于追求架构或工具的前沿性,许多模型发布时在vLLM、Transformers、SGLANG等主流软件中的实现可能存在不完善或效率较低的问题。
- 模型微调能力:实际使用时,根据特定用例修改模型的难易程度。
核心问题在于,部分因素(如通用性能、许可、来源等)在发布时即可知晓,但另一些因素(如工具链支持、微调能力)则需要数天乃至数周的时间才能充分显现。