VoiceFlow-TTS

by X-LANCE

🔓 开源项目 Python 🌍 全球 free

介绍

VoiceFlow 是一个高效的文本到语音（TTS）系统，它基于整流流匹配（Rectified Flow Matching）技术，旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现，通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图，并通过流整流过程进一步优化采样轨迹，从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置，并支持监督持续时间建模和实验性的语音转换功能。

功能特征

基于整流流匹配的高效文本到语音合成
支持流整流（ReFlow）以优化采样效率和质量
兼容Kaldi风格的数据组织与处理
集成监督持续时间建模与单调对齐搜索 (MAS)
提供语音转换、似然估计等实验性功能

支持平台

desktop

链接

🌐 访问官网 📦 GitHub 仓库

VoiceFlow-TTS

介绍

功能特征

支持平台

链接

相关 AI 行业动态

MCP：AI工具的USB-C，多数开发者仍未跟上2024年新范式

AI Agent工具“黑箱”揭秘：eBPF洞察MCP调用底层行为

Neuralink研发全脑手术机器人，攻克脑疾病