最新全球视觉AI榜：Gemini 3 Pro夺冠，国产豆包杀入前三！

权威评测平台 SuperCLUE-VLM 公布 2025 年 12 月多模态视觉语言基准评测总榜，Gemini 3 Pro以83.64的高分遥遥领先，展现压倒性优势。

紧随其后的是两款国产AI，分别是获得75.35 分的商汤科技 SenseNova V6.5 Pro和获得73.15 分的豆包视觉版，这也是首款进入全球三甲的中国多模态大模型。

多维度评测视觉能力

SuperCLUE-VLM 从基础认知、视觉推理及视觉应用 3 个核心维度，评估大模型真实视觉理解能力。

图片来源：快科技

基础认知测试模型识别物体、文本及场景等基本元素的能力；视觉推理考核模型理解图像中的逻辑、因果关系及隐含信息的表现；视觉应用则评估模型完成图文生成、跨模态问答及工具调用等实际任务的表现。

Gemini 3 Pro全面领先

在其他榜单内表现优异的Gemini 3 Pro在此次测评榜单中仍然表现优异，其基础认知得分 89.01、视觉推理 82.82、视觉应用 79.09，全面领先其他模型。

Google在12 月初发布 Gemini 3 Pro 时就表示，这是有史以来最强大的多模态模型，不管是在文件理解、空间推理、屏幕识别还是视频理解等领域下，都有着极其强大的表现。

中国大模型赶超势头正猛

在众多AI大模型中，中国AI大模型能有两个杀入前三，已经证实了中国企业在多模态领域的技术实力。

字节跳动豆包视觉版在基础认知环节得分 82.70，甚至超越部分国际竞争对手，仅在视觉推理环节稍显不足。

百度 ERNIE-5.0-Preview 及阿里巴巴 Qwen3-VL 等中国模型同样进入前 5 名。Qwen3-VL 是榜单中首款开源且总分超过 70 分的模型。

通过此榜单可以看出，现在全球多模态大模型竞争格局正在重塑，技术领先优势不再绝对集中于少数企业，在某些领域中，国产AI是可以领先国际知名AI大模型的。

群发资讯网