#tts
探索与 tts 相关的全量生态内容池。
相关产品 (3)
VoiceFlow-TTS
开源社区
VoiceFlow 是一个高效的文本到语音(TTS)系统,它基于整流流匹配(Rectified Flow Matching)技术,旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现,通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图,并通过流整流过程进一步优化采样轨迹,从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置,并支持监督持续时间建模和实验性的语音转换功能。
Pixelle-Video
开源社区
Pixelle-Video 是 AIDC-AI 开发的一款 AI 全自动短视频引擎,用户只需输入一个主题,即可自动完成文案撰写、AI 生成配图/视频、语音解说、背景音乐及视频合成。它基于模块化设计和 ComfyUI 架构,支持灵活定制和多种AI模型,实现零门槛、零剪辑经验的视频创作。
VoxCPM
开源社区
VoxCPM 是一个无需分词器的文本到语音系统,通过端到端的扩散自回归架构直接生成连续语音表示,从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型,在超过200万小时的多语言语音数据上训练,支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出,内置超分辨率,无需外部升采样器。