#speech-synthesis

探索与 speech-synthesis 相关的全量生态内容池。

相关产品 (3)

v
voice-pro
开源社区

Voice-Pro 是由 ABUS-AIKOREA 开发的一款强大的 AI 驱动的桌面级 Web 应用程序,专注于多媒体内容的创建和处理。它集成了 YouTube 视频下载、语音分离、高级语音识别、多语言翻译和文本到语音转换等功能。该工具支持零样本语音克隆和多语言文本转语音,旨在为内容创作者、研究人员和多语言专业人士提供一站式解决方案。其核心技术包括 Whisper 系列、F5-TTS、E2-TTS、CosyVoice 等,提供高质量的语音识别、克隆和翻译服务。

#audiobook#faster-whisper#gradio#karaoke
V
VoiceFlow-TTS
开源社区

VoiceFlow 是一个高效的文本到语音(TTS)系统,它基于整流流匹配(Rectified Flow Matching)技术,旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现,通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图,并通过流整流过程进一步优化采样轨迹,从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置,并支持监督持续时间建模和实验性的语音转换功能。

#conditional-flow-matching#generative-models#probabilistic-models#rectified-flow-matching
V
VoxCPM
开源社区

VoxCPM 是一个无需分词器的文本到语音系统,通过端到端的扩散自回归架构直接生成连续语音表示,从而实现高度自然和富有表现力的语音合成。最新版本 VoxCPM2 是一个拥有20亿参数的模型,在超过200万小时的多语言语音数据上训练,支持30种语言、语音设计、可控语音克隆和48kHz录音室品质的音频输出,内置超分辨率,无需外部升采样器。

#audio#deeplearning#minicpm#multilingual