探索与 multi-modal 相关的全量生态内容池。
MiniCPM-V 是由 OpenBMB 开发的端侧多模态大模型,专注于高效的图像和视频理解。它采用 Intra-ViT 早期压缩技术和 LLaVA-UHD v4 架构,显著降低了视觉编码计算开销,支持混合 4x/16x 视觉标记压缩。该模型以 1.3B 的极小参数量实现了超越大尺寸模型的性能,支持在 iOS、Android 和鸿蒙等移动端流畅运行,具备强大的实时视觉对话、OCR 识别及视频分析能力。