DeepGEMM
by deepseek-ai
介绍
DeepGEMM 是一个统一的高性能 Tensor Core 内核库,将现代大型语言模型中的关键计算原语(如 FP8、FP4、BF16 GEMM、融合 MoE 与通信重叠、MQA 评分、HyperConnection 等)整合到一个内聚的 CUDA 代码库中。所有内核通过轻量级即时 (JIT) 模块在运行时编译,无需在安装时进行 CUDA 编译。它以简洁的设计实现与专家优化的库相当或更优的性能。
功能特征
- 统一的 Tensor Core 内核库
- 轻量级 JIT 运行时编译
- 支持多种精度 GEMM (FP8, FP4, BF16)
- 融合 MoE 与通信重叠优化
- 高性能,媲美或超越专家优化库
支持平台
desktop