News

深度揭秘DeepSeek识图模式:实测证实独立模型,多模态能力超预期

深度揭秘DeepSeek识图模式:实测证实独立模型,多模态能力超预期

近期,DeepSeek 的图像识别模式(或称“识图模式”)正在小范围灰度测试,引起了社区的广泛关注。在DeepSeek官方尚未发布更多细节之际,已有不少技术爱好者和研究者对其背后的技术细节展开了深入探索,并取得了令人惊喜的发现。

其中一个重要推测是:DeepSeek的识图模式背后,很可能是一个独立于DeepSeek V4 flash/pro的新模型。此外,DeepSeek在V4技术报告中提及的“未来展望”,似乎也已在实际产品中悄然落地。

笔者也幸运地获得了灰度测试资格,并第一时间进行了实测。DeepSeek识图模式允许用户选择是否开启“深度思考”功能。在“非思考模式”下,该视觉模型的处理速度惊人,几乎无需等待,结果便能瞬间呈现。

那么,“思考”与“非思考”模式下的推理能力有何差异呢?

推理能力实测

首先,我们测试了一道空间推理题:如何拼合右侧图形以构成左侧正方体,问号处应添加哪个图形?

在“非思考模式”下,DeepSeek秒速给出了答案,但遗憾的是,迅速给出了错误的结果。

当开启“深度思考”模式后,DeepSeek成功解决了问题,给出了正确答案D。然而,完成这道题它耗时超过4分钟,这反映出其思考过程的冗长。在思考中途,模型其实已接近正确答案,却又经历一番曲折才最终确定。

接着,我们尝试了图片找不同任务。在“非思考模式”下,DeepSeek很快找到了7处不同。但仔细检查发现,其中存在不少幻觉,例如凭空出现的钥匙或不存在的空盘子。

转用“深度思考”模式后,DeepSeek仅用了16秒便找到了12处不同。然而,在这次尝试中,幻觉的数量反而更多了,这可能是图片本身复杂性或模型当前局限性所致。

实用功能表现

尽管推理部分仍有进步空间,但在实用功能方面,DeepSeek的识图模式表现如何?

我们首先测试了OCR(光学字符识别)能力。将DeepSeek V4技术报告的摘要图片输入模型,在不开启“深度思考”的情况下,它依旧闪电般地识别出文本内容,并贴心地将开源链接进行了超链处理。

对于纯文本识别,其表现相当可靠。进一步测试了表格识别,DeepSeek同样能够完美处理,并能以Markdown格式整齐地输出表格内容。

另一个备受关注的新玩法是,将网页截图提供给DeepSeek,它能直接复原出HTML代码(“非思考模式”即可实现)。更令人惊喜的是,复原出的HTML中的按钮是可用的,例如能自动配置并跳转至API文档链接。

DeepSeek还顺利通过了“隐藏图片”测试。但在色盲测试中,偶尔会出现识别翻车的情况。

根据识图模式自身的回答,其知识截止日期与DeepSeek V4 flash/pro相同,均截止到2025年5月。然而,有博主通过其世界知识发现,识图模式中的视觉模型了解某个特定人物,而V4 flash/pro却不了解该人物。经过验证,在不联网的情况下,V4 flash确实缺乏该人物的知识,但识图模式却能找到2026年4月的信息。

这有力地暗示,识图模式中的视觉模型可能是独立训练的,且其知识库可能比V4版本更新。

领先于预期的多模态进展

目前,DeepSeek的识图模式仍处于灰度测试阶段,其灰度范围正在逐步扩大。坦率地说,DeepSeek Vision仍有不少可以改进之处。

然而,回顾DeepSeek在V4技术报告中曾写道:“我们也正在努力将多模态能力整合到我们的模型中。”当时,许多人都认为这只是一个优先级不高的目标,认为在资源有限的情况下优先做好纯文本是明智之举。但现在看来,DeepSeek在多模态领域的行动和进展远超外界预期,其实现的速度和深度都令人瞩目。这不禁让人思考,DeepSeek论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是否也已在加速推进中?

↗ 阅读原文