智谱AI GLM-5.1发布：代码策略自迭代，大幅提升编程任务效率

智谱AI近日发布了其全新GLM-5.1模型，并以MIT许可证开源。这款模型最引人瞩目的能力是，在处理复杂编码任务时，能够通过数百次迭代来反复推敲和优化自身的编程策略。

GLM-5.1作为一款专为长时间运行、基于Agent的编程任务设计的新型开源模型，旨在解决现有模型（包括智谱AI自家的前代GLM-5）在面对复杂问题时“思路枯竭”的问题。过去的模型往往只采用熟悉的策略，在初期取得进展后很快就会遇到瓶颈，即使投入更多计算资源也无济于事。

GLM-5.1的设计理念正是为了解决这一痛点，它通过反复审查自身策略、识别死胡同并尝试全新的方法来持续优化。智谱AI透露，该模型能够进行“数百轮优化和数千次工具调用”。

公司通过三个内部场景演示了GLM-5.1的强大能力，尽管目前尚未有独立的第三方评估。

GLM-5.1：任务中自主切换策略

在第一个场景中，GLM-5.1需要优化一个向量数据库，即一种在大规模数据集中搜索并查找相似条目的系统。目标是在不损失准确性的前提下，每秒处理尽可能多的搜索查询。智谱AI表示，在标准的50轮测试中，Claude Opus 4.6此前的最佳成绩是每秒3,547次查询。

智谱AI为GLM-5.1提供了无限次的尝试机会，模型自主决定何时提交新版本以及下一步尝试什么。经过600多次迭代和超过6,000次工具调用后，GLM-5.1达到了每秒21,500次查询的惊人速度，据公司称，这大约是此前最佳成绩的六倍。

智谱AI指出，模型在运行过程中多次根本性地改变了其策略。大约在第90次迭代时，它从详尽搜索所有数据切换到了更高效的聚类方法。约在第240次迭代时，模型引入了两阶段管道，先进行粗略预排序，再进行精确筛选。公司识别出在整个运行过程中，模型自主启动了六次这样的结构性转变。

GPU优化：持续进步但未达顶峰

在第二个场景中，模型需要重写现有的机器学习代码，使其在GPU上运行得更快。据智谱AI介绍，GLM-5.1相对于基线实现实现了3.6倍的加速，并且即使在后期阶段也持续取得进展。相比之下，GLM-5则早早地达到了性能瓶颈。

在KernelBench Level 3的GPU优化任务中，GLM-5.1相比其前代GLM-5能够更长时间地保持进步，但仍落后于Claude Opus 4.6。Claude Opus 4.6在此测试中以4.2倍的加速明显领先，并且在测试结束时仍显示有改进空间。GLM-5.1延长了其有效优化周期，但尚未缩小与最强竞争对手的差距。