llama.cpp

by ggml-org

🔓 开源项目 C++ 🌍 全球 free #ggml

介绍

llama.cpp 是由 ggml-org 开发的开源 C/C++ 大模型推理引擎，旨在以最简设置在各类硬件上实现高效的本地及云端推理。其核心基于无外部依赖的纯 C/C++ 架构与 ggml 库，广泛支持 Metal、CUDA 和 Vulkan 等硬件加速及 CPU+GPU 混合推理。特点是高度便携跨平台、原生支持 GGUF 格式与 1.5 到 8-bit 的模型量化，并自带 REST API 服务与 WebUI。

功能特征

纯 C/C++ 无依赖底层架构
广泛的 1.5 到 8-bit 模型量化
多后端硬件加速(Metal/CUDA/Vulkan)
支持 CPU+GPU 混合推理
自带 REST API 服务与 WebUI

支持平台

webmobiledesktopiot

链接

📦 GitHub 仓库

llama.cpp

介绍

功能特征

支持平台

链接

相关产品