⚡ News

阿里发布Qwen3.7-Max:100万Token超长上下文的推理Agent大模型

阿里发布Qwen3.7-Max:100万Token超长上下文的推理Agent大模型

目前大多数AI模型并非专为持续、多步骤的自主执行而设计。诸如运行数百次迭代代码修改,或在无需人类干预的情况下跨数小时链式调用工具等任务,需要完全不同的模型架构和训练侧重点。为此,阿里巴巴Qwen团队在2026年5月20日的阿里云峰会上正式发布了Qwen3.7-Max。而在官方发布API之前,Qwen3.7系列的两款预览版已低调登上Arena AI排行榜。

阿里巴巴此次同时推出了两款预览模型:Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview。根据LM Arena的数据,它们在文本能力和视觉能力方面分别位列全球第13和第16位。在文本竞技场中,Qwen3.7-Max-Preview综合排名第13,使阿里巴巴在文本领域位列全球第6大实验室。在视觉竞技场中,Qwen3.7-Plus-Preview排名第16,使阿里巴巴在视觉领域位列全球第5。

Qwen3.7-Plus-Preview被定位为高性能、平衡的预览版本,专注于推理和逻辑表达,其工具链将在未来逐步开放,并支持视觉和多模态输入。而Qwen3.7-Max则是纯文本的推理旗舰模型。本文将重点探讨Qwen3.7-Max,因为它是阿里巴巴正式宣布并提供API接入的模型。

阿里Qwen团队将Qwen3.7-Max描述为迄今为止最先进、最全面的Agent模型。该模型为闭源商业模型,能够处理代码编写与调试、办公工作流自动化,以及跨越数百甚至数千个步骤的长程(long-horizon)任务。

作为一款推理模型,Qwen3.7-Max引入了“强化思考模式”(Extended-Thinking Mode)。模型在输出最终答案前,会先生成思维链——一个内部的规划、检查和纠错步骤序列。在Qwen Chat等用户界面上,这表现为可开启的“Thinking”模式,用户可以直观地看到模型的推理轨迹。

推理模型产生的输出Token数量明显多于标准补全模型。在Artificial Analysis的智能指数评估中,Qwen3.7-Max生成了约9700万个Token,而该基准测试中模型的平均水平仅为2400万个。对于简短或简单的任务,这种开销会增加延迟而无法提升输出质量;但对于多步规划、代码重构或长程Agent链,强化思考模式则是其大显身手的地方。

此外,该模型拥有100万(1M)Token的超大上下文窗口,相比Qwen3.6 Max Preview的256K有了巨大提升。该模型目前仅支持文本输入和输出。目前官方尚未公布具体定价,作为参考,前代Qwen3.6 Max Preview在阿里云上的定价为每百万输入/输出Token分别为1.30美元和7.80美元。100万Token的上下文窗口意味着单次请求即可容纳一个中型代码库或大量文档,这为构建高复杂度的Agent应用提供了坚实的底座。

【AgentUpdate 深度解析】 Qwen3.7-Max的发布标志着大模型竞争的核心战场已全面转向“Reasoning + Agent”的双轮驱动阶段。相较于传统的Chat模型,Qwen3.7-Max通过将1M超长上下文与深度推理相结合,直接解决了AI Agent在执行长程任务时极易迷失或发生上下文断裂的痛点。横向对比OpenAI o系列或DeepSeek-R1,Qwen3.7-Max更加强调在Agent实际工作流中的实用性。超长上下文不仅让Agent能一次性吞吐整个工程项目,也为推理过程中的自我修正提供了更充足的历史记忆空间。这一范式的演进,预示着未来的Agent将不再只是简单的Prompt包装,而是能够自主运行数小时、自主决策并调用复杂API的真正“硅基员工”,极大地加速了企业级AI Agent生态的落地。

↗ 阅读原文