GLM-OCR
by zai-org
介绍
GLM-OCR是一款基于GLM-V编解码架构的多模态OCR模型,专为复杂文档理解而设计。它融合了先进的CogViT视觉编码器和GLM-0.5B语言解码器,并引入MTP损失和强化学习,显著提升训练效率、识别精度和泛化能力。该模型在OmniDocBench V1.5上取得94.62分的SOTA性能,特别擅长处理公式、表格和信息抽取等复杂布局。GLM-OCR参数量仅0.9B,支持vLLM、SGLang等多种高效部署方式,推理延迟低且成本优化,非常适合高并发及边缘场景。作为一款全面开源的产品,它提供完善的SDK和工具链,易于安装和集成,是现实业务场景下实现精准、快速、全面文档智能处理的理想选择。