V

VoiceFlow-TTS

by X-LANCE
🔓 开源项目 Python 🌍 全球 free

介绍

VoiceFlow 是一个高效的文本到语音(TTS)系统,它基于整流流匹配(Rectified Flow Matching)技术,旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现,通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图,并通过流整流过程进一步优化采样轨迹,从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置,并支持监督持续时间建模和实验性的语音转换功能。

功能特征

  • 基于整流流匹配的高效文本到语音合成
  • 支持流整流(ReFlow)以优化采样效率和质量
  • 兼容Kaldi风格的数据组织与处理
  • 集成监督持续时间建模与单调对齐搜索 (MAS)
  • 提供语音转换、似然估计等实验性功能

支持平台

desktop