阿里发布Qwen3.7-Max：100万Token超长上下文的推理Agent大模型

目前大多数AI模型并非专为持续、多步骤的自主执行而设计。诸如运行数百次迭代代码修改，或在无需人类干预的情况下跨数小时链式调用工具等任务，需要完全不同的模型架构和训练侧重点。为此，阿里巴巴Qwen团队在2026年5月20日的阿里云峰会上正式发布了Qwen3.7-Max。而在官方发布API之前，Qwen3.7系列的两款预览版已低调登上Arena AI排行榜。

阿里巴巴此次同时推出了两款预览模型：Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview。根据LM Arena的数据，它们在文本能力和视觉能力方面分别位列全球第13和第16位。在文本竞技场中，Qwen3.7-Max-Preview综合排名第13，使阿里巴巴在文本领域位列全球第6大实验室。在视觉竞技场中，Qwen3.7-Plus-Preview排名第16，使阿里巴巴在视觉领域位列全球第5。

Qwen3.7-Plus-Preview被定位为高性能、平衡的预览版本，专注于推理和逻辑表达，其工具链将在未来逐步开放，并支持视觉和多模态输入。而Qwen3.7-Max则是纯文本的推理旗舰模型。本文将重点探讨Qwen3.7-Max，因为它是阿里巴巴正式宣布并提供API接入的模型。

阿里Qwen团队将Qwen3.7-Max描述为迄今为止最先进、最全面的Agent模型。该模型为闭源商业模型，能够处理代码编写与调试、办公工作流自动化，以及跨越数百甚至数千个步骤的长程（long-horizon）任务。

作为一款推理模型，Qwen3.7-Max引入了“强化思考模式”（Extended-Thinking Mode）。模型在输出最终答案前，会先生成思维链——一个内部的规划、检查和纠错步骤序列。在Qwen Chat等用户界面上，这表现为可开启的“Thinking”模式，用户可以直观地看到模型的推理轨迹。

推理模型产生的输出Token数量明显多于标准补全模型。在Artificial Analysis的智能指数评估中，Qwen3.7-Max生成了约9700万个Token，而该基准测试中模型的平均水平仅为2400万个。对于简短或简单的任务，这种开销会增加延迟而无法提升输出质量；但对于多步规划、代码重构或长程Agent链，强化思考模式则是其大显身手的地方。

此外，该模型拥有100万（1M）Token的超大上下文窗口，相比Qwen3.6 Max Preview的256K有了巨大提升。该模型目前仅支持文本输入和输出。目前官方尚未公布具体定价，作为参考，前代Qwen3.6 Max Preview在阿里云上的定价为每百万输入/输出Token分别为1.30美元和7.80美元。100万Token的上下文窗口意味着单次请求即可容纳一个中型代码库或大量文档，这为构建高复杂度的Agent应用提供了坚实的底座。

【AgentUpdate 深度解析】 Qwen3.7-Max的发布标志着大模型竞争的核心战场已全面转向“Reasoning + Agent”的双轮驱动阶段。相较于传统的Chat模型，Qwen3.7-Max通过将1M超长上下文与深度推理相结合，直接解决了AI Agent在执行长程任务时极易迷失或发生上下文断裂的痛点。横向对比OpenAI o系列或DeepSeek-R1，Qwen3.7-Max更加强调在Agent实际工作流中的实用性。超长上下文不仅让Agent能一次性吞吐整个工程项目，也为推理过程中的自我修正提供了更充足的历史记忆空间。这一范式的演进，预示着未来的Agent将不再只是简单的Prompt包装，而是能够自主运行数小时、自主决策并调用复杂API的真正“硅基员工”，极大地加速了企业级AI Agent生态的落地。

阿里发布Qwen3.7-Max：100万Token超长上下文的推理Agent大模型

推荐阅读

Cohere发布Command A+：两张H100即可运行的MoE模型

AI时代的创意规模化：如何用生成式工具重塑企业内容工作流

Anthropic代码大会揭示未来：程序员连代码都不看了？