⚡ News

快手发布Keye 2.0大模型:首创DSA机制解锁256K长视频推理

快手发布Keye 2.0大模型:首创DSA机制解锁256K长视频推理

传统的视觉大模型在面对长视频理解时,往往只能给出基于字幕和画面标签拼凑的“流水账”。长视频理解不仅需要识别每一帧的内容,更需要在连续的时序流动中捕捉因果链条。快手自研的多模态大语言模型 Keye-VL-2.0-30B-A3B 则展现出了截然不同的深度理解能力,实现了从“基础感知”向“深度推理”的跨越。

快手今日正式发布新版多模态大模型 Keye-VL-2.0-30B-A3B。作为Keye家族最新一代的30B级主力基座,它率先将 DSA(DeepSeek Sparse Attention,即深度求索稀疏注意力)机制引入多模态理解场景,成功解锁了 256K 超长上下文的深度感知,在长视频时序感知上实现了几乎无损的推理能力。更具里程碑意义的是,这也是Keye系列首次解锁 Agent 协作机制,在 Code、Tool、Search 等复杂场景下展现出了扎实的系统级协作与执行潜力。

视频理解的核心痛点在于超长视觉上下文带来的指数级计算开销与核心信息的稀释。Keye-VL-2.0-30B-A3B 在底层架构上完成了关键跨越。通过结合稀疏注意力与极具针对性的特征聚合,模型在处理长达小时级的视频序列时,能够有效进行高噪环境下的信息提纯,精准捕捉关键帧并理清动态规律。这一架构优势在细粒度视频时序理解最新基准(TimeLens)中得到了极致验证。在与闭源标杆模型 Gemini 的对比实测中,Keye-VL-2.0-30B-A3B 表现强劲:

  • 日常动作时序解析(Charades-TimeLens):模型以 58.4 的 mIoU 强势对标实测的最强视频理解闭源标杆 Gemini 3 Flash(61.2)。
  • 视频动作定位(ActivityNet-TimeLens):凭借 58.5 的 mIoU,实现了对官方数据 Gemini-2.5-Pro(58.1)以及实测数据 Gemini 3 Flash(57.0)的全面超越。
  • 高光时刻提取(QVHighlights-TimeLens):模型的 mIoU 达到 70.1,与官方榜单的顶尖闭源模型并驾齐驱,并大幅超过实测的 Gemini 3 Flash(49.5)。

在实际应用中,Keye-VL-2.0-30B-A3B 展现出手术刀般的帧级判断力。例如,在面对复杂的陶杯手工制作流程视频时,模型不仅准确识别了挖土、煅烧(约950℃)、水飞、修坯、配釉(1200℃烧制)到陈茶氧化调整釉色等全程极具专业壁垒的工艺动作,更将每一个动作与视频时间轴实现了毫秒级的完美咬合。

而在电竞长视频理解场景中(如《王者荣耀》高燃对局),面对“找出视频高光时刻并给出依据”的指令,模型基于视觉张力、音画协同以及电竞叙事的深刻理解,给出了极具玩家共鸣的精准判定。它不仅能精细识别画面中的激烈特效与动态伤害数值,还能跨模态捕捉歌词字幕以分析音画协同的戏剧张力,甚至能通过读取双方比分判定出“绝境翻盘”的情绪共鸣点,展现出宏观的全局排他对比逻辑。

除了视觉理解的跨越,Keye-VL-2.0-30B-A3B 还打通了多模态 Agent 协作流。在面对“9分钟冰岛旅行 Vlog”等长视频输入时,它不再只是被动观察,而是能主动捕捉“手冻僵”等细节建议备好手套,并在雪地画面中察觉安全隐患,输出“跟团优于自驾”等深度安全规划策略。这种“慢思考”能力,预示着多模态模型向主动执行 Agent 的进化。

【AgentUpdate 深度解析】快手将 DSA(DeepSeek 稀疏注意力)机制引入多模态大模型,不仅是架构上的创新,更标志着 AI Agent 在处理长视频等复杂视觉环境时,迈出了向“高能效、长记忆”演进的关键一步。传统的注意力机制面临着平方级计算复杂度的“长文本惩罚”,严重制约了 Agent 在多模态、大上下文场景下的自主决策。而 DSA 机制通过稀疏注意力与特征聚合,在 256K 极长上下文下实现了高效的信息提纯,使 Agent 能基于连续、长周期的视觉输入进行深度因果链条梳理与推理规划。随着 Keye-VL 2.0 打通了 Code、Tool、Search 等多工具协作(Agentic Workflow),多模态长视频理解正在从单纯的“信息检索”进化为“动态规划与复杂执行”。未来的 AI Agent 生态将不再局限于文本端的指令交互,而是能深度嵌入需要高频、长时序视频反馈的真实工作流中(如具身智能、自动驾驶与智能视频生产),极大地拓宽了多模态 Agent 的产业应用边界。

↗ 阅读原文