VoiceFlow-TTS
by X-LANCE
介绍
VoiceFlow 是一个高效的文本到语音(TTS)系统,它基于整流流匹配(Rectified Flow Matching)技术,旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现,通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图,并通过流整流过程进一步优化采样轨迹,从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置,并支持监督持续时间建模和实验性的语音转换功能。
功能特征
- 基于整流流匹配的高效文本到语音合成
- 支持流整流(ReFlow)以优化采样效率和质量
- 兼容Kaldi风格的数据组织与处理
- 集成监督持续时间建模与单调对齐搜索 (MAS)
- 提供语音转换、似然估计等实验性功能
支持平台
desktop