Nano Banana Pro效果这么强，它的极限在哪里？

上周谷歌新推出的 Nano Banana Pro，相信大家已经玩的不少了。

国内外社交媒体上已经有大量不同玩法的案例，知危把这些案例分为三种场景：

原画设计类：文生图、图生图、草图生图、微调、文字渲染等；

知识科普类：太阳系、细胞、电解反应等对象的概念视觉化；

实用办公类：漫画上色和翻译、超分辨率、空间视角转换、内容续写、论文板书等；

以上场景一般只是一次性生成。这两天还有一些令人惊讶的进展，Nano Banana Pro 已经被整合进谷歌的 NotebookLM 平台，用于生成 PPT，这意味着，这款模型不仅适用单轮生成，也能服务深度多轮生成场景，特别是 PPT 需要在文风、内容等方面保持多图一致性，对模型的长上下文感知能力要求很高。

目前为止，对于以上场景，Nano Banana Pro 的表现都没有令人失望。而在知危这次对 Nano Banana Pro 的测评中，主要关注的是一些尚未被广泛注意到的点，比如：

和 OpenAI 旗舰生图模型 GPT Image-1（ GPT-4o 调用的生图模型）的招牌能力的对比，比如画风转换，基于复杂指令批量生成元素的能力，进一步确定 Nano Banana Pro 的真实 “ 江湖地位 ”；

从画面瑕疵、随机性出发的以假乱真的能力，比如监控、电视屏幕、实验室拍摄等场景的模拟，这一点其实更早出现在Veo 3、Sora 2 等视频生成模型中；

3D空间转换的更极端场景的压力测试；

类似 PPT 生成这种保持多图一致性的场景测试，知危选用了更有趣的场景，仿照《清明上河图》做一个长江流域版本，需要五张图拼接完成；

所以，本篇测评更多是在试探 Nano Banana Pro 的能力边界，试图窥探到它的极限，不代表日常使用 Nano Banana Pro 的体验。

那接下来就开始测评吧！

首先当然是跟 GPT Image-1 来个巅峰对决。

我们以《火影忍者》的一张经典第七版合照为原图，并用以下三个画风比较特别的动漫来做画风转换测试：

《名侦探柯南》

《蜡笔小新》

《JoJo的奇妙冒险》

原图：

画风参考图：

来看看 Nano Banana Pro 参考《名侦探柯南》的画风画成什么样：

一眼精巧，除了卡卡西，基本每个人的表情都表达了相同的情绪，三个年轻忍者的体型都变成《名侦探柯南》那种头大身小的风格，但细看又有很多问题，背景被替换成了参考图的背景，三个年轻忍者的站位都变了，鸣人没有怒视佐助。

再来看看 GPT Image-1 的表现：

乍一看，感觉模型啥都没干，但细看后可以发现，佐助、鸣人的不爽表情的展现方式，和《名侦探柯南》确实比较相似，而且线条和阴影没原来那么重和写实，确实更接近《名侦探柯南》那种更简洁的画风，可谓 “ 润物细无声 ” 了。

鉴于这两部动漫在写实性上差距不是太大，我们再用更具差异的画风来测试，也就是《蜡笔小新》。

画风参考图：

Nano Banana Pro 基本是重复了原来的套路，背景更换、表情画风模仿，其它几乎一成不变。

GPT Image-1 的表现乍一看是直接崩坏。

但仔细想想就会发现，这不就是《蜡笔小新》里面对路人角色的刻画方式嘛，太厉害了。

到目前为止，GPT Image-1 是完胜，Nano Banana Pro 的方法也有一定规律性，重点抓部分人物细节比如人脸、体型等，但失了对整体的把控。

而接下来《 JoJo 的奇妙冒险》画风的转换测试，又一次让知危开了眼界。

画风参考图：

Nano Banana Pro 完美再现了 JoJo 独特的面部雕塑风格，当然它使用的还是一样的手法，即聚焦面部和体型模仿，该有的缺点也都有，但就是觉得很成功，可能这两点就是 JoJo 的画风精髓。

至于 GPT Image-1，且不说有多失败，简直可以说没礼貌。

接下来，为了再极致地测试一下 Nano Banana Pro 的细节刻画能力，我们还是用火影忍者的原图，以及 JoJo 的画风，但要增加人数，比如八人的晓组织。

原图：

Nano Banana Pro 虽然只是把部分人物 JoJo 化，但人物线条更加硬朗了，而且这次人物的画面布局没有被改变。

GPT Image-1 又出现相同的崩坏，原因不明。

我们继续增加人数，这一次画面中大概有百来人。

原图：

Nano Banana Pro 这次只完成了线条硬朗化，但真的一个人都没落下。

总体而言，Nano Banana Pro 的画风转换能力还是不如 GPT Image-1，但其有自己的特点，Nano Banana Pro 的一大优势就在于对局部细节的精确刻画，毕竟这项能力是通过死磕文字渲染得到的，可能因此使其对画面整体把握度不够。

在测评过程中也发现很多出问题的案例，Nano Banana Pro 是直接给你一个完全没改过的图像。目前大家对这些现象的猜测是模型的自回归机制比重大于扩散机制，也就是微调倾向大于重新绘制倾向。

接下来是对复杂指令遵循能力的测试，主要指一次性批量生成多个元素的能力，这也是当时 OpenAI 对 GPT Image-1 模型的宣传重点，所以这个测试也是对标 GPT Image-1 的。

首先是直接批量生成 36 个呈 6*6 网格排列的玩具机器人阵列，并且每个机器人的具体特征需要经过进一步推导才可得出，综合考验推理能力和生图能力，提示词会列出机器人基于行的颜色特征和基于列的表面特征。

提示词：

严格俯视（正上方正交/orthographic top-down），整齐排列的 6x6 网格（6 行 × 6 列），白色背景，细薄灰色网格线将每个单元格分隔开。每个单元格正中放置一个玩具机器人（总计 36 个），每个机器人都有**确定且唯一**的外形属性和编号（两位数，从 01 到 36，编号以黑色或深灰色小字印在机器人底座或底盘一侧，清晰可辨）。

机器人风格：复古玩具（怀旧机械/齿轮/铆钉感），色彩鲜艳但材质各异（按规则分配），每行和每列遵循确定性属性映射（见下方规则），确保所有机器人互不重复。

严格保持顶视无透视变形（无鱼眼、无倾斜），均匀平行光（自上而下）、细微柔和投影以显示立体感但不改变顶视轮廓。

高分辨率、超细节，8K 输出（或更高），极致细节（纹理、螺丝、划痕、贴纸、反光、铆钉、漆面厚度等），无景深模糊。

画面干净：只出现机器人、网格线与白色背景。高保真、真实感玩具质感 + 稍微卡通化的色彩饱和度。

确定性生成规则：

为了保证“每一个机器人都不同且可复现”，请按照下面规则组合属性（行 × 列的组合生成唯一外形）：

行主色（Row 1 → Row 6，决定主色调）

Row 1: 正红（crimson）

Row 2: 橙黄（amber）

Row 3: 橙（tangerine）

Row 4: 黄（sunny yellow）

Row 5: 绿（emerald）

Row 6: 青（teal）

列材质/表面处理（Column 1 → Column 6，决定材质与整体质感）

Col 1: 抛光金属（polished steel）

Col 2: 拉丝铝（brushed aluminum）

Col 3: 黄铜（brass）

Col 4: 铬镀层（chrome）

Col 5: 涂漆塑料（high-gloss painted plastic）

Col 6: 半透明塑料（translucent acrylic）

向上滑动文字

Nano Banana Pro 和 GPT Image-1最终都没有给出好的结果，在画面比例选择、网格编排、机器人编号、颜色行一致性、表面列一致性等方面都有问题，GPT Image-1 的表现更差。

Nano Banana Pro：

GPT Image-1：

下一步降低要求，把提示词改为逐一描述每个机器人的特征，降低推理负担，比如第二行机器人的特征描述：

Row 2（橙主色）

Robot 07 — 主色：橙；材质：抛光金属。桶状胸腔、竖直铆钉排。

Robot 08 — 主色：橙；材质：拉丝铝。立方胸腔，粗纹理拉丝面。

Robot 09 — 主色：橙；材质：黄铜。蚀刻花纹胸板。

Robot 10 — 主色：橙；材质：铬镀层。流线腿部，铬色边框。

Robot 11 — 主色：橙；材质：高光塑料。亮面大头造型，塑料光泽强。

Robot 12 — 主色：橙；材质：半透明塑料。橙色半透明外壳，见内层接缝。

Nano Banana Pro 大幅提高了生成质量，画面比例选择、网格编排、机器人编号、颜色行一致性基本都没有问题，表面列一致性上会有较大波动，但整体保持了相同的材质和表面处理，不同列之间的差异也很明显。

GPT Image-1 则几乎没有任何改善：

GPT Image-1 目前完败，我们继续给 Nano Banana Pro 上难度，按行且以以下三个特征为一个循环，依次给每一个机器人再添加一个新特征：

戴着围巾/布条（ scarf ）。

头顶有发光灯泡/信号灯（ beacon ）。

三指机械手（ three-finger ）。

比如：

Row 2（橙主色）

Robot 07 — 主色：橙；材质：抛光金属。桶状胸腔、竖直铆钉排。戴着围巾/布条（scarf）。

Robot 08 — 主色：橙；材质：拉丝铝。立方胸腔，粗纹理拉丝面。头顶有发光灯泡/信号灯（beacon）。

Robot 09 — 主色：橙；材质：黄铜。蚀刻花纹胸板。三指机械手（three-finger）。

Robot 10 — 主色：橙；材质：铬镀层。流线腿部，铬色边框。戴着围巾/布条（scarf）。

Robot 11 — 主色：橙；材质：高光塑料。亮面大头造型，塑料光泽强。头顶有发光灯泡/信号灯（beacon）。

Robot 12 — 主色：橙；材质：半透明塑料。橙色半透明外壳，见内层接缝。三指机械手（three-finger）。

生成的结果既惊艳又令人遗憾，Nano Banana Pro几乎已经按照提示词生成了每个机器人应有的特征，但网格排列错误且视觉混乱。

目前可以认为 Nano Banana Pro 的复杂指令遵循能力，是比 GPT Image-1 更胜一筹的。

接下来是测试 Nano Banana Pro 以假乱真的能力。

在 AI 接连攻破各种图片生成能力限制后，人类只能以图片瑕疵和现实随机性作为最后防线，但这道防线也变得越来越脆弱，所以这其实是在测试该模型的安全风险。

知危接连测试了监控、老版数码相机拍摄人物照片、手机拍摄物体照片、新闻屏幕，以及物理、化学、生物实验室拍摄等场景。

首先是监控画面的模拟，从图中场景相关的线索比如香烟、拍摄时间、监控标识等很难发现问题，而最终找到的破绽竟然是画面左下角不应该朝向顾客的计算器。

提示词：

便利店收银台视角的监控画面，低分辨率，色彩略微失真，一个戴着口罩的人正在买烟。

人物照片则是比较能感受到违和感，毕竟 AI 直接生成的人物通常面部油腻光感很强，且特征比较趋同。

提示词：

2000年代初的数码相机拍摄，直射闪光灯，一群年轻朋友在一家昏暗的 KTV 里，红眼效应，皮肤上的油光，背景漆黑。

不过若是基于真实照片生成，预计会很难辨认。

对于手机拍摄的物体照片，其仿真度也很高。特别是 Nano Banana Pro 确实能做到让物体的摆放足够凌乱而自然，知危找到的唯一破绽是可乐瓶的文字写倒了，但这通过微调也能轻松修改过来。

提示词：

一张在乱糟糟的床上拍的二手显卡照片，床单皱皱巴巴，旁边还有杂乱的充电线和半瓶可乐，顶灯光线昏暗。

这个照片的拍摄角度其实不是特别自然，可以让 Nano Banana Pro 切换视角，生成效果也是一致性惊人，精确到每一个褶皱，还顺便把可乐瓶的文字给修正了。

看来，往后很多二手平台、评论区照片的真实性都需要更谨慎判断了。

不仅是照片，连一段新闻是不是真的存在，可能也得多求证一番，为此知危也测试了这个场景。画面几乎无可挑剔，连摩尔纹都清晰地呈现了。

提示词：

电视新闻画面的屏摄（用手机拍电视屏幕），能看到屏幕的像素摩尔纹，新闻底部有滚动字幕条，一个记者在街头采访。

测试实验室拍摄场景的仿真能力，主要是测试面向科研领域的安全风险。科研领域是最严谨地获取新数据和新知识的场景，如果这道防线被攻破，人类将不自知地被困在 AI 生成数据的牢笼中，科研数据不再有新颖性或已有规律下的随机性，那才是真正被智子封锁了人类的科技发展。

当然这里测试的更多是比较初级的科研场景，不然知危没有足够的专业知识来判断真伪。

在物理实验场景中，有一个很经典的实验，就是用一颗子弹穿过苹果，观察苹果的物理反应和变化。

在实际实验情况下，苹果泼溅的碎片是近乎粉末状的。

图源：https://www.youtube.com/watch?v=jjUTZH_Vdxs（视频发布于18年前）

但 Nano Banana Pro 生成的图像（先不管不合理的摄像头），苹果泼溅的碎片却像是切好的苹果块。

提示词：

一颗子弹高速穿过一颗苹果的瞬间。实验室实拍，分辨率较低。

Nano Banana Pro 还能生成子弹穿过梨的图像，至于是否足够仿真暂时无法判断，知危没有找到类似的实验视频来比较。

提示词：

一颗子弹高速穿过一颗梨的瞬间。实验室实拍，分辨率较低。

在接下来的化学实验、生物实验仿真测试中，Nano Banana Pro 的表现也是惊人的。

提示词：

铝粉与氧化铁（铁锈）在高温下发生剧烈的氧化还原反应，火花四溅，实验室实拍，分辨率较低。

提示词：

培养皿中的细菌菌落特写，琼脂表面有反光，菌落呈现不规则的圆形，边缘有绒毛感。实验室实拍，分辨率较低。

以上种种场景，如果以后都要依赖人类靠肉眼去判断，不仅难度大，也非常消耗时间精力。

这就不得不庆幸谷歌已经推出了安全功能，Nano Banana Pro 会给每一张生成图像添加的不可见独特 SynthID 水印，让用户可以用 Gemini 直接检验图像是否由 Nano Banana Pro 生成。

空间感可谓是 Nano Banana Pro 的招牌能力，类似 GPT Image-1 的画风转换目前牢不可破的 “ 江湖地位 ”。

网上已经有很多例子了，知危这里只是用比较困难的场景再给 Nano Banana Pro 再上上难度。

比如对于下图，要求 Nano Banana Pro 画出从左向右观察的鸟瞰视图。

图源：https://unsplash.com/photos/a-view-of-a-city-with-a-bridge-in-the-background-ZuxmKH6sCz8

Nano Banana Pro 最终没有执行成功，而是给出了和原图一样的输出。

通过查看推导过程，发现 Nano Banana Pro 可以认出图中中央位置的大桥是曼哈顿大桥。

知危又替换了新的提示词：

画出从这张图的中央位置的大桥的左端驾车前进的视图。

这个任务其实更加困难，但 Nano Banana Pro 却执行成功了，虽然观察视角并不是真的在车上。当然图中也出现了很明显的幻觉，右侧的大楼其实不存在，那是建好的曼哈顿广场一号，正好就是左侧正在施工中的大楼。

对现实中的图片做空间转换有过度依赖训练数据的可能，比如从谷歌地图的全景照也能找到类似上图幻觉部分的视角。

为了摆脱这个依赖，我们再找一些现实中未建成的建筑设计图来考考 Nano Banana Pro 。

比如下图是出自伊斯坦布尔 Hayri Atak 建筑设计工作室的作品，其建筑形态很罕见，借鉴了生物细胞结构。

当要求 Nano Banana Pro 画出这张建筑的空中鸟瞰视图，结果很不错，建筑内部四个交叉通道的空间细节都有考虑到，周边建筑的细节也没毛病。但阳光和阴影的呈现表明建筑左侧是不透光的，这里其实有误。

当再要求画出建筑的空中鸟瞰左视图，对内部结构的呈现就出现了比较严重的错误，通道的连接不再是交叉的而是近乎无规则的。

总之，对于空间智能，谷歌迈出了很重要的一小步，且有数据优势（视频、地图等），但未来还有很长的路要走。

最后一个测试场景是重头戏！

我们要考验 Nano Banana Pro 的长上下文感知能力，类似 PPT 生成需要保持多图一致性，并且该场景更有趣，是用五张横版图片拼接而成的《清明上河图》画风的、展现明朝或唐朝时期的长江流域风景与民俗风情的新版《清明上河图》。

要知道，原版《清明上河图》刻画的只有一个城市，也就是北宋都城汴京（今河南开封）的汴河两岸繁华景象，现在要切换到整个长江流域，跨度差距非常大，很考验模型的抽象能力和把抽象概念具像化的能力，并且结合中国古画 “ 在意不在形 ” 的特点（在我们这个测试中通俗理解就是，画中场景一般不存在现实中，且有诸多不合理之处，但能表达作者的意图）。

在实现过程中，知危还会先用 Nano Banana Pro 先做整个项目的蓝图，再逐一生成五张成图，相当于把知识科普能力融入到复杂生图项目工作流的规划阶段。

在蓝图规划中，Nano Banana Pro 对地理版图的刻画可谓相当精准。

提示词：

时间背景为明朝1587年，把长江划分为5段，用横版历史科普图的方式展示，以长江主河道为脉络（抽象化为直线），用文字和图像标注每一段的端点地理特征（比如城市、山脉等）、沿岸主要城市和民俗风情。

为了生成这幅明朝长江版《清明上河图》的第一张，知危要求 Nano Banana Pro 只将第一段转换成清明上河图画风，即 “ 金沙江至叙州 ” 部分，并且为了让五张图片能够首尾连接，要求长江从图片左侧流向右侧。

Nano Banana Pro 在图像左侧展现了长江的源头：白雪皑皑的山峰、牦牛和茶马商队，体现了藏族和彝族文化。图像右侧则聚焦于叙州，描绘了城墙、熙熙攘攘的码头、餐馆和热闹的集市，以及众多活跃的人物。江面上也充满生机，描绘了货轮、小渡船和船夫，展现一幅繁荣的贸易景象。

提示词：

请将“上游一段：金沙江至叙州”部分转换成清明上河图画风，横版图片，长江从图片左侧流入，从图片右侧流出。

生成第二张图即 “ 上游二段：叙州至夷陵”部分的提示词是类似的形式，需要加一句“与上一段首尾连接 ”。

Nano Banana Pro 重点刻画了长江的奔流以及三峡的壮丽景色，画面中还点缀着精致的船只，并在右侧过渡到夷陵。

提示词：

请将“上游二段：叙州至夷陵”部分转换成清明上河图画风，横版图片，长江从图片左侧流入，从图片右侧流出，并且图片左侧与“上游一段：金沙江至叙州”部分的图片右侧衔接。

在第三张图 “ 中游：夷陵至九江 ” 部分，Nano Banana Pro 刻画了更加繁荣的城市景象，融入了沿河生活和商业的丰富细节，河流蜿蜒穿过山峦和富饶的平原，形形色色的船只在繁忙的水道上来往。

在第四张图 “ 下游：九江至应天 ” 部分，Nano Banana Pro 生成的内容感觉和第三张重复太多。

在第五张图 “ 入海口：应天至东海 ” 部分，Nano Banana Pro 采用更广阔的视角，展现了长江入海口的景象，并过渡到了三角洲景观，最后以东海的景色结束。

可以看出，这五张画作的画风一致性很强，并呈现和区分了长江流域不同河段的地理特点，人物分布非常密集，细看也能看出他们是真的在忙活，活灵活现。

如果把它们首尾拼接，虽说不能完美衔接，却也真的有自然过渡的效果。

以上案例已经非常接近完美，但更多是视觉娱乐，如果是为了教育目的，则目前对知识细节比如民俗的呈现其实不够明确。

为此，我们提高对明确信息的要求，让 Nano Banana Pro 在每一段呈现 5 个民俗点，并写一首七言绝句，以唐朝为背景。

强调明确信息的结果是，Gemini 可能觉得任务复杂，先调用 Gemini 3 Pro 分析了一番。

可能是因为知识密度更高，Nano Banana Pro 选择了抽象的概念图而不是地理图来呈现。

提示词：

时间背景为唐朝636年，把长江划分为5段，用横版历史科普图的方式展示，以长江主河道为脉络（抽象化为直线），用文字和图像标注每一段的端点地理特征（比如城市、山脉等）、沿岸主要城市和民俗风情（每段至少5个），并给每一段基于民俗风情写一首七言绝句。

最终成图中，Nano Banana Pro 生成的几乎每一个人物细节都是可辨识的知识点，比如第一张图的吹羌笛、牦牛运输等，每一张图之间的区分度也更高了。不过对比之下，人物数量少了很多。

以下知危将 Gemini 3 Pro 列举的民俗风情与对应画作呈现出来，大家可以细看匹配程度。

“ 第一段：雪域清源·羌藏高原 ” 民俗风情：

羌笛悠扬：居住在岷山一带的羌人吹奏羌笛，声音苍凉，寄托思乡之情。

游牧生活：吐蕃部族逐水草而居，住黑牦牛毛帐篷，以乳酪、肉食为主。

牦牛运输：高寒山路上，耐寒负重的牦牛是唯一的驼运工具。

原始苯教：对自然神灵、神山圣湖的崇拜信仰，进行祭祀活动。

毛纺织艺：利用牛羊毛纺织毪子（毛毯）、褐衫等御寒衣物。

“ 第二段：巴山蜀水·川江号子 ” 民俗风情：

川江号子：船工们在险滩恶水中齐力拉纤、划桨时吼唱的劳动号子，声震峡谷。

井盐生产：蜀地（如陵州、富顺）利用竹筒汲取地下卤水，用天然气熬制食盐。

蜀锦织造：成都平原生产的丝织品，工艺精湛，图案华丽，为唐代贡品。

栈道交通：在沿江绝壁上开凿孔穴、铺设木板而成的险要通道。

竹枝词风：流行于巴渝民间的歌谣，常以笛、鼓伴奏，描写当地风土人情。

“ 第三段：峡江天险·猿啼巫云 ” 民俗风情：

纤夫拉纤：逆水经过险滩时，数十名纤夫在岸边岩石上赤身裸体、肩拉背拽。

巫山神女：巫山十二峰云雾缭绕，关于神女瑶姬的美丽传说引人遐想。

两岸猿声：峡谷两岸森林茂密，常有猿猴攀援啼叫，声音空旷凄清。

险滩祭江：船只过青滩、泄滩等著名险滩前，船家祭拜江神求平安。

白帝城怀古：夔州白帝城，因三国刘备托孤的故事而成为文人凭吊之地。

“ 第四段：云梦泽国·荆楚鱼米 ” 民俗风情：

云梦大泽：唐初江汉平原上湖泊众多，尚未完全淤塞，呈现“云梦泽”的水乡泽国景观。

龙舟竞渡：荆楚之地纪念屈原的风俗极盛，端午节在江面举行赛龙舟活动。

鱼米之乡：气候湿润，土地肥沃，水稻种植发达，渔业资源极丰富。

采菱唱曲：江南女子划着小盆船在湖中采摘菱角，口唱清新的菱歌。

黄鹤楼宴饮：鄂州（今武汉）黄鹤楼是文人墨客登高望远、宴饮赋诗的名胜。

“ 第五段：吴越水乡·扬一益二 ” 民俗风情：

扬州繁华：当时中国最繁华的商业都会，号称“扬一益二”，夜市喧闹，胡商云集。

运河漕运：隋唐大运河江南河段与长江在此交汇，南粮北运，舟船如织。

江南丝绸：吴绫、越罗等丝织品品质上乘，色彩轻盈，远销海内外。

寺院钟声：继承南朝佛教传统，沿江城市寺庙林立，晨钟暮鼓，香火鼎盛。

茶叶贸易：江南茶区（如湖州、常州）兴盛，茶叶通过便捷水路运往全国各地。

总体来看，Nano Banana Pro 的长上下文感知能力还是很惊人的，前后一致性和自然衔接，世界知识的融入，对指令遵循的细节程度，帮助我们完成了这幅纷繁复杂的作品。

好了，本次评测就到这里了。这次测评并不是为了证明 Nano Banana Pro 不够好，而是尽可能以 “ 能力边界 ” 作为切入点，看它在头部竞品对标、复杂性、真实性、多轮一致性等更极端的场景中到底能走多远。

可以看到，它在画风转换上的整体性、完成度和稳定性不如 GPT Image-1，但在元素批量生成、细节保持、多视角一致性方面展现出了惊喜般的优势；在仿真类场景中，其以假乱真的能力也已经触及安全性的临界区，除了谷歌自身应承担的责任和应对手段，也需要行业进一步思考防范机制。

从更宏观的角度看，Nano Banana Pro 画新版《清明上河图》的完成度以及生成 PPT 的能力，让我们意识到一个很自然的趋势，未来的生图模型不再只是一次性 “ 把提示词画出来 ”，而是深度结合上下文以及 Agentic 化，类似于编程模型的发展路径，不断嵌入到更复杂、更核心的项目工作流中。

总之，Nano Banana Pro 是一款极具潜力、但也需要被认真认识的下一代模型。

群发资讯网

Nano Banana Pro效果这么强，它的极限在哪里？

热门分类