#speech-synthesis

探索与 speech-synthesis 相关的全量生态内容池。

相关产品 (3)

Voice-Pro 是由 ABUS-AIKOREA 开发的一款强大的 AI 驱动的桌面级 Web 应用程序，专注于多媒体内容的创建和处理。它集成了 YouTube 视频下载、语音分离、高级语音识别、多语言翻译和文本到语音转换等功能。该工具支持零样本语音克隆和多语言文本转语音，旨在为内容创作者、研究人员和多语言专业人士提供一站式解决方案。其核心技术包括 Whisper 系列、F5-TTS、E2-TTS、CosyVoice 等，提供高质量的语音识别、克隆和翻译服务。

#audiobook#faster-whisper#gradio#karaoke

VoiceFlow-TTS

开源社区

VoiceFlow 是一个高效的文本到语音（TTS）系统，它基于整流流匹配（Rectified Flow Matching）技术，旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现，通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图，并通过流整流过程进一步优化采样轨迹，从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置，并支持监督持续时间建模和实验性的语音转换功能。

#conditional-flow-matching#generative-models#probabilistic-models#rectified-flow-matching

VoxCPM

开源社区

VoxCPM 是一个无需分词器的文本到语音系统，通过端到端的扩散自回归架构直接生成连续语音表示，从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型，在超过200万小时的多语言语音数据上训练，支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出，内置超分辨率，无需外部升采样器。