llm-d-router
by llm-d
介绍
llm-d Router 是面向大语言模型(LLM)推理流量的智能路由与调度系统。其核心通过 Endpoint Picker (EPP) 实现感知 KV 缓存、实时负载及请求优先级的智能分发。该产品支持 Standalone 独立部署及基于 Kubernetes Gateway API 的集成模式。它利用 ext-proc 协议与 Envoy 代理协作,能够动态执行模型重写、性能目标管理,并支持 Prefill/Decode 解耦调度,旨在最大化推理效率并优化资源利用率。
功能特征
- 感知 KV 缓存的智能路由评分
- 原生 Kubernetes Gateway API 集成
- 多级请求优先级与流量管理
- Prefill/Decode 算力解耦调度
- 动态模型重写与 A/B 测试支持
支持平台
web