字节跳动发布 Cola-DLM：融合 VAE 与扩散 Transformer 的新型语言模型

字节跳动近日发布了名为 Cola-DLM 的研究成果，这是一种连续潜在扩散语言模型（Continuous Latent Diffusion Language Models），旨在为生成式 AI 提供一种全新的架构范式。该模型的核心创新在于成功统一了文本变分自编码器（Text VAE）与块因果扩散 Transformer（block-causal Diffusion Transformer, DiT），将文本处理提升到了连续潜在序列的新高度。

在技术实现上，Cola-DLM 采用了先进的流匹配（Flow Matching）技术来进行潜在先验传输。这种方法允许模型在连续的潜在空间中进行高效的文本表征和生成，突破了传统离散 Token 生成的局限性。其架构设计充分考虑了可扩展性，能够适应大规模的预训练需求，为学术界和工业界探索非自回归生成模型提供了强有力的工具。

该研究详细介绍了一套严谨的两阶段训练方法论：首先进行 Text VAE 的预训练，以构建稳定的潜在表征空间；随后通过流匹配技术进行联合训练，优化潜在先验的分布。目前，字节跳动已将该框架完全开源，采用 Apache 2.0 协议，代码库基于 PyTorch 和 HuggingFace Transformers 构建，极大降低了研究人员复现和改进该技术的门槛。

字节跳动发布 Cola-DLM：融合 VAE 与扩散 Transformer 的新型语言模型

推荐阅读

谷歌更新搜索反垃圾规则：严厉打击操纵 AI Overviews 的行为

Anthropic新型AI展示强大能力：成功攻破macOS安全防线

Anthropic与盖茨基金会达成2亿美元合作，利用Claude加速医疗与教育

相关工具与资源推荐

关联产品

LangChain

LLMs-from-scratch

system_prompts_leaks