深度揭秘DeepSeek识图模式：实测证实独立模型，多模态能力超预期

近期，DeepSeek 的图像识别模式（或称“识图模式”）正在小范围灰度测试，引起了社区的广泛关注。在DeepSeek官方尚未发布更多细节之际，已有不少技术爱好者和研究者对其背后的技术细节展开了深入探索，并取得了令人惊喜的发现。

其中一个重要推测是：DeepSeek的识图模式背后，很可能是一个独立于DeepSeek V4 flash/pro的新模型。此外，DeepSeek在V4技术报告中提及的“未来展望”，似乎也已在实际产品中悄然落地。

笔者也幸运地获得了灰度测试资格，并第一时间进行了实测。DeepSeek识图模式允许用户选择是否开启“深度思考”功能。在“非思考模式”下，该视觉模型的处理速度惊人，几乎无需等待，结果便能瞬间呈现。

那么，“思考”与“非思考”模式下的推理能力有何差异呢？

推理能力实测

首先，我们测试了一道空间推理题：如何拼合右侧图形以构成左侧正方体，问号处应添加哪个图形？

在“非思考模式”下，DeepSeek秒速给出了答案，但遗憾的是，迅速给出了错误的结果。

当开启“深度思考”模式后，DeepSeek成功解决了问题，给出了正确答案D。然而，完成这道题它耗时超过4分钟，这反映出其思考过程的冗长。在思考中途，模型其实已接近正确答案，却又经历一番曲折才最终确定。

接着，我们尝试了图片找不同任务。在“非思考模式”下，DeepSeek很快找到了7处不同。但仔细检查发现，其中存在不少幻觉，例如凭空出现的钥匙或不存在的空盘子。

转用“深度思考”模式后，DeepSeek仅用了16秒便找到了12处不同。然而，在这次尝试中，幻觉的数量反而更多了，这可能是图片本身复杂性或模型当前局限性所致。

实用功能表现

尽管推理部分仍有进步空间，但在实用功能方面，DeepSeek的识图模式表现如何？

我们首先测试了OCR（光学字符识别）能力。将DeepSeek V4技术报告的摘要图片输入模型，在不开启“深度思考”的情况下，它依旧闪电般地识别出文本内容，并贴心地将开源链接进行了超链处理。

对于纯文本识别，其表现相当可靠。进一步测试了表格识别，DeepSeek同样能够完美处理，并能以Markdown格式整齐地输出表格内容。

另一个备受关注的新玩法是，将网页截图提供给DeepSeek，它能直接复原出HTML代码（“非思考模式”即可实现）。更令人惊喜的是，复原出的HTML中的按钮是可用的，例如能自动配置并跳转至API文档链接。

DeepSeek还顺利通过了“隐藏图片”测试。但在色盲测试中，偶尔会出现识别翻车的情况。

根据识图模式自身的回答，其知识截止日期与DeepSeek V4 flash/pro相同，均截止到2025年5月。然而，有博主通过其世界知识发现，识图模式中的视觉模型了解某个特定人物，而V4 flash/pro却不了解该人物。经过验证，在不联网的情况下，V4 flash确实缺乏该人物的知识，但识图模式却能找到2026年4月的信息。

这有力地暗示，识图模式中的视觉模型可能是独立训练的，且其知识库可能比V4版本更新。

领先于预期的多模态进展

目前，DeepSeek的识图模式仍处于灰度测试阶段，其灰度范围正在逐步扩大。坦率地说，DeepSeek Vision仍有不少可以改进之处。

然而，回顾DeepSeek在V4技术报告中曾写道：“我们也正在努力将多模态能力整合到我们的模型中。”当时，许多人都认为这只是一个优先级不高的目标，认为在资源有限的情况下优先做好纯文本是明智之举。但现在看来，DeepSeek在多模态领域的行动和进展远超外界预期，其实现的速度和深度都令人瞩目。这不禁让人思考，DeepSeek论文中提到的“在MoE和稀疏注意力架构之外，将积极探索模型稀疏性的其他新维度”，是否也已在加速推进中？