智谱AI近日发布了其全新GLM-5.1模型,并以MIT许可证开源。这款模型最引人瞩目的能力是,在处理复杂编码任务时,能够通过数百次迭代来反复推敲和优化自身的编程策略。
GLM-5.1作为一款专为长时间运行、基于Agent的编程任务设计的新型开源模型,旨在解决现有模型(包括智谱AI自家的前代GLM-5)在面对复杂问题时“思路枯竭”的问题。过去的模型往往只采用熟悉的策略,在初期取得进展后很快就会遇到瓶颈,即使投入更多计算资源也无济于事。
GLM-5.1的设计理念正是为了解决这一痛点,它通过反复审查自身策略、识别死胡同并尝试全新的方法来持续优化。智谱AI透露,该模型能够进行“数百轮优化和数千次工具调用”。
公司通过三个内部场景演示了GLM-5.1的强大能力,尽管目前尚未有独立的第三方评估。
GLM-5.1:任务中自主切换策略
在第一个场景中,GLM-5.1需要优化一个向量数据库,即一种在大规模数据集中搜索并查找相似条目的系统。目标是在不损失准确性的前提下,每秒处理尽可能多的搜索查询。智谱AI表示,在标准的50轮测试中,Claude Opus 4.6此前的最佳成绩是每秒3,547次查询。
智谱AI为GLM-5.1提供了无限次的尝试机会,模型自主决定何时提交新版本以及下一步尝试什么。经过600多次迭代和超过6,000次工具调用后,GLM-5.1达到了每秒21,500次查询的惊人速度,据公司称,这大约是此前最佳成绩的六倍。
智谱AI指出,模型在运行过程中多次根本性地改变了其策略。大约在第90次迭代时,它从详尽搜索所有数据切换到了更高效的聚类方法。约在第240次迭代时,模型引入了两阶段管道,先进行粗略预排序,再进行精确筛选。公司识别出在整个运行过程中,模型自主启动了六次这样的结构性转变。
GPU优化:持续进步但未达顶峰
在第二个场景中,模型需要重写现有的机器学习代码,使其在GPU上运行得更快。据智谱AI介绍,GLM-5.1相对于基线实现实现了3.6倍的加速,并且即使在后期阶段也持续取得进展。相比之下,GLM-5则早早地达到了性能瓶颈。
在KernelBench Level 3的GPU优化任务中,GLM-5.1相比其前代GLM-5能够更长时间地保持进步,但仍落后于Claude Opus 4.6。Claude Opus 4.6在此测试中以4.2倍的加速明显领先,并且在测试结束时仍显示有改进空间。GLM-5.1延长了其有效优化周期,但尚未缩小与最强竞争对手的差距。
从单一提示词构建Linux桌面
第三个场景最为独特。GLM-5.1被要求从一个单一的提示词开始,构建一个完整的Linux桌面环境作为网络应用程序——没有任何启动代码,也没有任何中间指令。