群发资讯网

最新全球视觉AI榜:Gemini 3 Pro夺冠,国产豆包杀入前三!

权威评测平台 SuperCLUE-VLM 公布 2025 年 12 月多模态视觉语言基准评测总榜,Gemini 3 Pr

权威评测平台 SuperCLUE-VLM 公布 2025 年 12 月多模态视觉语言基准评测总榜,Gemini 3 Pro以83.64的高分遥遥领先,展现压倒性优势。

紧随其后的是两款国产AI,分别是获得75.35 分的商汤科技 SenseNova V6.5 Pro和获得73.15 分的豆包视觉版,这也是首款进入全球三甲的中国多模态大模型。

多维度评测视觉能力

SuperCLUE-VLM 从基础认知、视觉推理及视觉应用 3 个核心维度,评估大模型真实视觉理解能力。

图片来源:快科技

基础认知测试模型识别物体、文本及场景等基本元素的能力;视觉推理考核模型理解图像中的逻辑、因果关系及隐含信息的表现;视觉应用则评估模型完成图文生成、跨模态问答及工具调用等实际任务的表现。

Gemini 3 Pro全面领先

在其他榜单内表现优异的Gemini 3 Pro在此次测评榜单中仍然表现优异,其基础认知得分 89.01、视觉推理 82.82、视觉应用 79.09,全面领先其他模型。

Google在12 月初发布 Gemini 3 Pro 时就表示,这是有史以来最强大的多模态模型,不管是在文件理解、空间推理、屏幕识别还是视频理解等领域下,都有着极其强大的表现。

中国大模型赶超势头正猛

在众多AI大模型中,中国AI大模型能有两个杀入前三,已经证实了中国企业在多模态领域的技术实力。

字节跳动豆包视觉版在基础认知环节得分 82.70,甚至超越部分国际竞争对手,仅在视觉推理环节稍显不足。

百度 ERNIE-5.0-Preview 及阿里巴巴 Qwen3-VL 等中国模型同样进入前 5 名。Qwen3-VL 是榜单中首款开源且总分超过 70 分的模型。

通过此榜单可以看出,现在全球多模态大模型竞争格局正在重塑,技术领先优势不再绝对集中于少数企业,在某些领域中,国产AI是可以领先国际知名AI大模型的。