智谱AI发布GLM-4.6V多模态模型：原生工具调用赋能AI Agent

智谱AI近日推出了其GLM视觉家族的最新成员——GLM-4.6V多模态语言模型系列。该系列包含GLM-4.6V和轻量级的GLM-4.6V-Flash两款模型，旨在为AI Agent工作流提供强大的多模态能力。尽管其模型规模相较于Qwen3-VL和Step3等竞品更小，GLM-4.6V系列在性能上却展现出卓越表现。

GLM-4.6V系列的核心亮点包括：

模型规模与部署： 该系列包含两款模型：GLM-4.6V (106B)，作为基础模型，专为云端GPU集群部署设计，以提供最佳响应质量；GLM-4.6V-Flash (9B)，则是一款轻量级模型，更适合本地部署和边缘应用。
超长上下文支持： 两款模型均支持128K的超长上下文长度，这意味着它们能够处理超长文档，并与用户进行长时间、连贯的对话。
原生多模态工具调用： 这是GLM-4.6V系列的一大突破。模型原生支持多模态工具调用，无需额外串联其他大型语言模型或视觉模型。这意味着一个单一模型即可处理文本输出、图像/视频/文档输入，并根据需要调用工具。模型还能理解工具的输出，例如渲染的网页、搜索结果和统计图表。这一能力显著简化了从感知、推理到执行的全流程，使其在AI Agent应用中具备强大潜力。
丰富的文本理解能力： GLM-4.6V模型能够接受研究论文、报告和演示文稿作为输入，并生成结构化输出，展现了其在复杂文本理解方面的深厚实力。

开发者可以通过Hugging Face Transformers库轻松运行GLM-4.6V模型进行推理任务。此外，该模型也支持构建如OCR（光学字符识别）和图像到HTML转换等用例的Gradio应用程序。

GLM-4.6V的推出，标志着AI Agent在多模态理解和执行方面迈出了重要一步，为构建更智能、更自主的本地化AI Agent工作流提供了坚实基础。