#multi-modal

探索与 multi-modal 相关的全量生态内容池。

相关产品 (1)

MiniCPM-V 是由 OpenBMB 开发的端侧多模态大模型，专注于高效的图像和视频理解。它采用 Intra-ViT 早期压缩技术和 LLaVA-UHD v4 架构，显著降低了视觉编码计算开销，支持混合 4x/16x 视觉标记压缩。该模型以 1.3B 的极小参数量实现了超越大尺寸模型的性能，支持在 iOS、Android 和鸿蒙等移动端流畅运行，具备强大的实时视觉对话、OCR 识别及视频分析能力。