刚刚，DeepSeek识图模式全量上线，却认不出自家老板梁文锋

机器之心编辑部

比闹钟还准。

端午节前，DeepSeek 不出所料又有了新动作：官方平台全量推送了识图模式，手机端 App 也发布了更新，打开就能看到。

此前，已经有不少网友体验过这个功能，但当时它还处在小范围的灰度测试阶段，只有部分用户能够在官方 App 或网页版里看到。但是今天下午，很多人都表示自己也能用了。

出于好奇，我们也打开 App 测试了一下。

第一个测试案例用了黄仁勋前段时间在北京小吃街喝豆汁的图片。可以看到，DeepSeek 能够认出图中人物是黄仁勋，但瓶身上的「豆汁」字样被忽略了，因此错把豆汁认成了牛奶。此外，它对于人物表情的解读也不够精准。

接下来，我们切换了深度思考模式，有意思的地方来了：虽然 DeepSeek 依然「看不清」瓶身上的「尹三豆汁」字样，但凭借推理能力和世界知识，他推断出了这是「豆汁」。不过，表情解读方面，深度思考也没有太大帮助。

在社交媒体上，也有不少网友进行了人物方面的测试，但效果似乎不太理想，像何同学等知名人物都出现了识别错误的现象。

就连梁文锋本人，DeepSeek 也没有认出来。从思考过程来看，它识别人物的时候主要依靠视觉线索（面部特征、发型）与人物公众形象进行对比，因此准确率不高也很正常，毕竟像黄仁勋那种特征如此独特的人物属于少数。

此外，它的安全限制比较严格 —— 我们试图上传一张雷军近日的热门图，却被告知「可能违反使用规范」。

接下来，我们又让它辨认潦草汉字。图片中的烂字有横线干扰、笔画粘连、还有错别字干扰。

DeepSeek 7 个字识别错了 4 个。

这说明，该模型在真实场景手写文本识别、领域词汇约束和语义纠错方面仍然有提升空间。

识别文物的能力倒是相当不错。虽然 DeepSeek 没能成功找到这件文物的出处，但成功地判断其是莫卧儿帝国风格，并详细分析了其工艺。

对于一些较难的图，比如找出下图中完全相同的袜子，DeepSeek 也没找对。（正确答案是第一行第三个和第三行第二个）

在钢琴和弦识别测试中，上传了一张钢琴弹奏实拍图，提问「弹的是什么和弦」。

钢琴黑键按「两黑 + 三黑」组规律排列，两黑键中间的白键永远是 D 音，从 D 出发即可推断出相邻的 C 和 E 等音高，因此正确答案应是 ACE。

DeepSeek 判断错误。

提示词来自X博主@thinkingshivers

我们同时测了 Gemini 3.5 flash、GPT 5.5 和 Claude Sonnet 4.6，前两者没一个答对的，Claude Sonnet 4.6直接罢工。这也说明这些大模型音在乐理方面的推理能力的局限。

Gemini 3.5 flash回答错误。

GPT 5.5回答错误。

Claude Sonnet 4.6罢工。

由于时间有限，我们的测试无法面面俱到，大家可以亲自尝试一下。

随着这个模式的全量发布，开发者们也有了新的疑问，比如它和 DeepSeek 4.1 有没有关系？背后技术是不是用的原生多模态？多模态的 API 又什么时候能上线？

这些问题出现在 DeepSeek 多模态团队研究者 Xiaokang Chen 的 X 贴文评论区。不过，他并没有就这些问题给出答案。

或许过几天，DeepSeek 会发布相关的技术文档，我们拭目以待。

群发资讯网