VoxCPM
by OpenBMB
介绍
VoxCPM 是一个无需分词器的文本到语音系统,通过端到端的扩散自回归架构直接生成连续语音表示,从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型,在超过200万小时的多语言语音数据上训练,支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出,内置超分辨率,无需外部升采样器。
功能特征
- 30种语言多语言支持
- 无需参考音频的语音设计
- 可控与高保真语音克隆
- 48kHz录音室品质音频输出
- 实时流式传输与生产级部署
支持平台
webdesktop