News

智谱AI发布GLM-4.6V多模态模型:原生工具调用赋能AI Agent

智谱AI发布GLM-4.6V多模态模型:原生工具调用赋能AI Agent

智谱AI近日推出了其GLM视觉家族的最新成员——GLM-4.6V多模态语言模型系列。该系列包含GLM-4.6V和轻量级的GLM-4.6V-Flash两款模型,旨在为AI Agent工作流提供强大的多模态能力。尽管其模型规模相较于Qwen3-VL和Step3等竞品更小,GLM-4.6V系列在性能上却展现出卓越表现。

GLM-4.6V系列的核心亮点包括:

  • 模型规模与部署: 该系列包含两款模型:GLM-4.6V (106B),作为基础模型,专为云端GPU集群部署设计,以提供最佳响应质量;GLM-4.6V-Flash (9B),则是一款轻量级模型,更适合本地部署和边缘应用。
  • 超长上下文支持: 两款模型均支持128K的超长上下文长度,这意味着它们能够处理超长文档,并与用户进行长时间、连贯的对话。
  • 原生多模态工具调用: 这是GLM-4.6V系列的一大突破。模型原生支持多模态工具调用,无需额外串联其他大型语言模型或视觉模型。这意味着一个单一模型即可处理文本输出、图像/视频/文档输入,并根据需要调用工具。模型还能理解工具的输出,例如渲染的网页、搜索结果和统计图表。这一能力显著简化了从感知、推理到执行的全流程,使其在AI Agent应用中具备强大潜力。
  • 丰富的文本理解能力: GLM-4.6V模型能够接受研究论文、报告和演示文稿作为输入,并生成结构化输出,展现了其在复杂文本理解方面的深厚实力。

开发者可以通过Hugging Face Transformers库轻松运行GLM-4.6V模型进行推理任务。此外,该模型也支持构建如OCR(光学字符识别)和图像到HTML转换等用例的Gradio应用程序。

GLM-4.6V的推出,标志着AI Agent在多模态理解和执行方面迈出了重要一步,为构建更智能、更自主的本地化AI Agent工作流提供了坚实基础。

↗ 阅读原文