群发资讯网

刚刚,DeepSeek识图模式全量上线,却认不出自家老板梁文锋

机器之心编辑部 比闹钟还准。 端午节前,DeepSeek 不出所料又有了新动作:官方平台全量推送了识图模式,手机端 A

机器之心编辑部

比闹钟还准。

端午节前,DeepSeek 不出所料又有了新动作:官方平台全量推送了识图模式,手机端 App 也发布了更新,打开就能看到。

此前,已经有不少网友体验过这个功能,但当时它还处在小范围的灰度测试阶段,只有部分用户能够在官方 App 或网页版里看到。但是今天下午,很多人都表示自己也能用了。

出于好奇,我们也打开 App 测试了一下。

第一个测试案例用了黄仁勋前段时间在北京小吃街喝豆汁的图片。可以看到,DeepSeek 能够认出图中人物是黄仁勋,但瓶身上的「豆汁」字样被忽略了,因此错把豆汁认成了牛奶。此外,它对于人物表情的解读也不够精准。

接下来,我们切换了深度思考模式,有意思的地方来了:虽然 DeepSeek 依然「看不清」瓶身上的「尹三豆汁」字样,但凭借推理能力和世界知识,他推断出了这是「豆汁」。不过,表情解读方面,深度思考也没有太大帮助。

在社交媒体上,也有不少网友进行了人物方面的测试,但效果似乎不太理想,像何同学等知名人物都出现了识别错误的现象。

就连梁文锋本人,DeepSeek 也没有认出来。从思考过程来看,它识别人物的时候主要依靠视觉线索(面部特征、发型)与人物公众形象进行对比,因此准确率不高也很正常,毕竟像黄仁勋那种特征如此独特的人物属于少数。

此外,它的安全限制比较严格 —— 我们试图上传一张雷军近日的热门图,却被告知「可能违反使用规范」。

接下来,我们又让它辨认潦草汉字。图片中的烂字有横线干扰、笔画粘连、还有错别字干扰。

DeepSeek 7 个字识别错了 4 个。

这说明,该模型在真实场景手写文本识别、领域词汇约束和语义纠错方面仍然有提升空间。

识别文物的能力倒是相当不错。虽然 DeepSeek 没能成功找到这件文物的出处,但成功地判断其是莫卧儿帝国风格,并详细分析了其工艺。

对于一些较难的图,比如找出下图中完全相同的袜子,DeepSeek 也没找对。(正确答案是第一行第三个和第三行第二个)

在钢琴和弦识别测试中,上传了一张钢琴弹奏实拍图,提问「弹的是什么和弦」。

钢琴黑键按「两黑 + 三黑」组规律排列,两黑键中间的白键永远是 D 音,从 D 出发即可推断出相邻的 C 和 E 等音高,因此正确答案应是 ACE。

DeepSeek 判断错误。

提示词来自X博主@thinkingshivers

我们同时测了 Gemini 3.5 flash、GPT 5.5 和 Claude Sonnet 4.6,前两者没一个答对的,Claude Sonnet 4.6直接罢工。这也说明这些大模型音在乐理方面的推理能力的局限。

Gemini 3.5 flash回答错误。

GPT 5.5回答错误。

Claude Sonnet 4.6罢工。

由于时间有限,我们的测试无法面面俱到,大家可以亲自尝试一下。

随着这个模式的全量发布,开发者们也有了新的疑问,比如它和 DeepSeek 4.1 有没有关系?背后技术是不是用的原生多模态?多模态的 API 又什么时候能上线?

这些问题出现在 DeepSeek 多模态团队研究者 Xiaokang Chen 的 X 贴文评论区。不过,他并没有就这些问题给出答案。

或许过几天,DeepSeek 会发布相关的技术文档,我们拭目以待。