D

DeepGEMM

by deepseek-ai
🔓 开源项目 Cuda 🌍 全球 free

介绍

DeepGEMM 是一个统一的高性能 Tensor Core 内核库,将现代大型语言模型中的关键计算原语(如 FP8、FP4、BF16 GEMM、融合 MoE 与通信重叠、MQA 评分、HyperConnection 等)整合到一个内聚的 CUDA 代码库中。所有内核通过轻量级即时 (JIT) 模块在运行时编译,无需在安装时进行 CUDA 编译。它以简洁的设计实现与专家优化的库相当或更优的性能。

功能特征

  • 统一的 Tensor Core 内核库
  • 轻量级 JIT 运行时编译
  • 支持多种精度 GEMM (FP8, FP4, BF16)
  • 融合 MoE 与通信重叠优化
  • 高性能,媲美或超越专家优化库

支持平台

desktop