⚡ News

快手Keye-VL 2.0发布:DSA与Agent解锁长视频深度推理新范式

快手Keye-VL 2.0发布:DSA与Agent解锁长视频深度推理新范式

快手自研多模态大语言模型Keye-VL-2.0-30B-A3B近期发布,标志着多模态理解向深度推理迈进。传统视觉大模型在处理如长达9分钟、场景剧烈切换的旅行Vlog时,往往只能提供基于字幕和画面标签的“流水账”式总结。但Keye-VL-2.0-30B-A3B展现了更深层次的理解能力,它不仅识别画面内容,更能洞察其背后的因果关系。例如,在分析冰岛旅行Vlog时,模型能捕捉到“冻手”的细节并建议备好保暖手套;听到对猎奇美食的吐槽时,给出“体验当地文化”的高情商建议;甚至敏锐察觉“雪地车祸”画面,直接输出“跟团优于自驾”的安全策略。这表明模型已超越简单标签识别,能在连续时序中梳理因果,并基于人类逻辑进行深度规划。

快手团队在多模态大模型从“基础感知”到“深度推理”演进过程中,专注于解决视频理解中超长视觉上下文带来的算力瓶颈,并致力于将模型从“观察者”进化为能解决复杂任务的“行动者”。Keye-VL-2.0-30B-A3B作为Keye家族的30B级主力基座,首次将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,成功实现了256K超长上下文的深度感知,在长视频时序感知上达到了接近无损的推理能力。更重要的是,Keye系列首次解锁了Agent协作机制,在Code、Tool、Search等复杂场景下展现了系统级协作与执行潜力。

五大技术引擎重塑多模态底座

DSA首次应用于多模态,破解长视频理解瓶颈。视频理解的关键挑战之一是超长视觉上下文带来的计算开销与信息稀释。Keye-VL-2.0-30B-A3B通过在底层架构中成功应用DSA(DeepSeek Sparse Attention),结合稀疏注意力与针对性特征聚合,使其在处理小时级视频序列时能有效提纯高噪环境信息,精准捕捉关键帧并理清动态规律。

这一架构优势在细粒度视频时序理解最新基准TimeLens中得到验证。快手团队严格按照相同评测方式,将Keye-VL-2.0-30B-A3B与Gemini 3 Flash和Gemini 2.5 Pro进行对比:

  • 日常动作时序解析(Charades-TimeLens):模型mIoU为58.4,接近实测的Gemini 3 Flash(61.2)。
  • 视频动作定位(ActivityNet-TimeLens):模型mIoU为58.5,超越官方数据Gemini-2.5-Pro(58.1)以及实测数据Gemini 3 Flash(57.0)。
  • 高光时刻提取(QVHighlights-TimeLens):模型mIoU达到70.1,与官方顶尖闭源模型持平,并大幅超过实测的Gemini 3 Flash(49.5)。

以一段制作陶杯的工艺流程视频为例,Keye-VL-2.0-30B-A3B展现了帧级判断力,输出了带有精确时间戳的工艺全拆解:

  • 方解石原料处理:用锤子将原石砸成小块;放入竹筛中在溪流中反复冲洗去除杂质。
  • 方解石煅烧与制浆:放土窑加木炭煅烧至高温(约950℃);开窑取出白色粉末;加水研磨制成细腻浆液(水飞工艺)。
  • 陶土采集与处理:山地挖取红褐色陶土;倒缸加水搅拌去杂质。
  • 茶杯坯体制作与装饰:转轮手工拉坯塑形;精细修整厚度形状;底部贴方形印章款识并修整。
  • 配釉与施釉:按比例称取石英石长石等原料并加水搅拌制浆;坯体反复浸入釉浆后自然晾干。
  • 烧制与成品展示:装窑堆叠;烧柴升温至1200℃;出窑清洗浸入陈茶水中氧化调整釉色;最终呈现开片、铁足等釉色特征。

模型准确识别了全程专业手工工序,并将其与视频时间轴实现了毫秒级精准对齐。

在分析《王者荣耀》高燃对局视频时,Keye-VL-2.0-30B-A3B超越了传统AI机械性地截取击杀提示或画面剧烈变化的逻辑,而是基于视觉张力、音画协同及电竞叙事理解,给出了精准的判定:

  • 视觉与节奏的双重爆发:模型捕捉到画面中最激烈的团战场景,识别“金色、紫色光效交织”特效和具体伤害数值,将其作为战斗节奏紧凑的证据。
  • 音画协同的戏剧张力构建:模型跨模态捕捉到底部英文歌词字幕,理解其与激烈对局的关联,指出音画协同如何推高视频戏剧张力。
  • “绝境翻盘”的情绪共鸣点:模型通过读取“27 vs 35”判定己方劣势背景,结合团战状态,提炼出“绝境翻盘”这一电竞核心叙事节点,展现了对游戏视频情绪感染力的理解。
  • 全局视角的对比排他逻辑:模型将高光片段与此前战斗、追击片段(00:00-00:16 / 00:17-00:58)进行对比,从特效强度、节奏张力、叙事意义三个维度论证该时段的不可替代性。

这种分析展现了Keye-VL-2.0-30B-A3B在视频理解上的深度和复杂推理能力。

↗ 阅读原文