探索与 probabilistic-models 相关的全量生态内容池。
VoiceFlow 是一个高效的文本到语音(TTS)系统,它基于整流流匹配(Rectified Flow Matching)技术,旨在解决传统扩散模型在语音合成效率上的不足。该产品是其ICASSP 2024论文的官方实现,通过学习噪声与数据之间的连续流来生成高质量的梅尔频谱图,并通过流整流过程进一步优化采样轨迹,从而在有限的采样步数下实现卓越的合成质量和效率。它提供了Kaldi风格的数据组织和灵活的训练配置,并支持监督持续时间建模和实验性的语音转换功能。