阿里云Qwen3.5-Omni发布，大模型迈向“全能”新纪元

通义千问模型家族的最新成员Qwen3.5-Omni正式发布，标志着该系列模型向前迈出了重要一步。作为其前身的显著演进，Qwen3.5-Omni的参数规模已扩展至数千亿级别，并支持256k的超长上下文长度。

Qwen3.5-Omni通过利用海量的异构文本-视觉对数据集以及超过1亿小时的音视频内容进行训练，展现出强大的全模态能力。其中，Qwen3.5-Omni-plus在215项音频及音视频理解、推理和交互子任务及基准测试中取得了SOTA（State-of-the-Art）结果。值得一提的是，它在关键音频任务上的表现超越了Gemini-3.1 Pro，并在综合音视频理解能力上与之持平。

在架构层面，Qwen3.5-Omni为模型的“思考者”（Thinker）和“说话者”（Talker）部分均采用了混合注意力专家混合（Hybrid Attention Mixture-of-Experts, MoE）框架，这显著提升了长序列推理的效率。该模型能够支持长达10小时以上的音频理解和400秒的720P视频处理（以1 FPS帧率）。

为解决流式语音合成中因文本与语音分词器编码效率差异导致的不稳定性及不自然性问题，我们引入了ARIA技术。ARIA能够动态对齐文本和语音单元，在几乎不增加延迟的情况下，显著增强了对话式语音的稳定性和韵律自然度。

此外，Qwen3.5-Omni还拓展了语言边界，支持10种语言的多语言理解和语音生成，并能实现媲美真人的情感细微差别。最后，Qwen3.5-Omni展现出卓越的音视频定位能力，能够生成剧本级别的结构化字幕，实现精准的时间同步和自动化场景分割。

尤其令人关注的是，我们观察到全模态模型中出现了一项新兴能力：直接根据音视频指令执行编程任务，我们将其命名为“音视频氛围编程”（Audio-Visual Vibe Coding）。这预示着未来AI交互和应用的新方向。