
上周谷歌新推出的 Nano Banana Pro,相信大家已经玩的不少了。
国内外社交媒体上已经有大量不同玩法的案例,知危把这些案例分为三种场景:
原画设计类:文生图、图生图、草图生图、微调、文字渲染等;
知识科普类:太阳系、细胞、电解反应等对象的概念视觉化;
实用办公类:漫画上色和翻译、超分辨率、空间视角转换、内容续写、论文板书等;
以上场景一般只是一次性生成。这两天还有一些令人惊讶的进展,Nano Banana Pro 已经被整合进谷歌的 NotebookLM 平台,用于生成 PPT,这意味着,这款模型不仅适用单轮生成,也能服务深度多轮生成场景,特别是 PPT 需要在文风、内容等方面保持多图一致性,对模型的长上下文感知能力要求很高。
目前为止,对于以上场景,Nano Banana Pro 的表现都没有令人失望。而在知危这次对 Nano Banana Pro 的测评中,主要关注的是一些尚未被广泛注意到的点,比如:
和 OpenAI 旗舰生图模型 GPT Image-1( GPT-4o 调用的生图模型 )的招牌能力的对比,比如画风转换,基于复杂指令批量生成元素的能力,进一步确定 Nano Banana Pro 的真实 “ 江湖地位 ”;
从画面瑕疵、随机性出发的以假乱真的能力,比如监控、电视屏幕、实验室拍摄等场景的模拟,这一点其实更早出现 在Veo 3、Sora 2 等视频生成模型中;
3D空间转换的更极端场景的压力测试;
类似 PPT 生成这种保持多图一致性的场景测试,知危选用了更有趣的场景,仿照《 清明上河图 》做一个长江流域版本,需要五张图拼接完成;
所以,本篇测评更多是在试探 Nano Banana Pro 的能力边界,试图窥探到它的极限,不代表日常使用 Nano Banana Pro 的体验。
那接下来就开始测评吧!

首先当然是跟 GPT Image-1 来个巅峰对决。
我们以《火影忍者》的一张经典第七版合照为原图,并用以下三个画风比较特别的动漫来做画风转换测试:
《名侦探柯南》
《蜡笔小新》
《JoJo的奇妙冒险》
原图:

画风参考图:

来看看 Nano Banana Pro 参考《 名侦探柯南 》的画风画成什么样:

一眼精巧,除了卡卡西,基本每个人的表情都表达了相同的情绪,三个年轻忍者的体型都变成《 名侦探柯南 》那种头大身小的风格,但细看又有很多问题,背景被替换成了参考图的背景,三个年轻忍者的站位都变了,鸣人没有怒视佐助。
再来看看 GPT Image-1 的表现:

乍一看,感觉模型啥都没干,但细看后可以发现,佐助、鸣人的不爽表情的展现方式,和《 名侦探柯南 》确实比较相似,而且线条和阴影没原来那么重和写实,确实更接近《 名侦探柯南 》那种更简洁的画风,可谓 “ 润物细无声 ” 了。
鉴于这两部动漫在写实性上差距不是太大,我们再用更具差异的画风来测试,也就是《 蜡笔小新 》。
画风参考图:

Nano Banana Pro 基本是重复了原来的套路,背景更换、表情画风模仿,其它几乎一成不变。

GPT Image-1 的表现乍一看是直接崩坏。

但仔细想想就会发现,这不就是《 蜡笔小新 》里面对路人角色的刻画方式嘛,太厉害了。

到目前为止,GPT Image-1 是完胜,Nano Banana Pro 的方法也有一定规律性,重点抓部分人物细节比如人脸、体型等,但失了对整体的把控。
而接下来《 JoJo 的奇妙冒险 》画风的转换测试,又一次让知危开了眼界。
画风参考图:

Nano Banana Pro 完美再现了 JoJo 独特的面部雕塑风格,当然它使用的还是一样的手法,即聚焦面部和体型模仿,该有的缺点也都有,但就是觉得很成功,可能这两点就是 JoJo 的画风精髓。

至于 GPT Image-1,且不说有多失败,简直可以说没礼貌。

接下来,为了再极致地测试一下 Nano Banana Pro 的细节刻画能力,我们还是用火影忍者的原图,以及 JoJo 的画风,但要增加人数,比如八人的晓组织。
原图:

Nano Banana Pro 虽然只是把部分人物 JoJo 化,但人物线条更加硬朗了,而且这次人物的画面布局没有被改变。

GPT Image-1 又出现相同的崩坏,原因不明。

我们继续增加人数,这一次画面中大概有百来人。
原图:

Nano Banana Pro 这次只完成了线条硬朗化,但真的一个人都没落下。

总体而言,Nano Banana Pro 的画风转换能力还是不如 GPT Image-1,但其有自己的特点,Nano Banana Pro 的一大优势就在于对局部细节的精确刻画,毕竟这项能力是通过死磕文字渲染得到的,可能因此使其对画面整体把握度不够。
在测评过程中也发现很多出问题的案例,Nano Banana Pro 是直接给你一个完全没改过的图像。目前大家对这些现象的猜测是模型的自回归机制比重大于扩散机制,也就是微调倾向大于重新绘制倾向。

接下来是对复杂指令遵循能力的测试,主要指一次性批量生成多个元素的能力,这也是当时 OpenAI 对 GPT Image-1 模型的宣传重点,所以这个测试也是对标 GPT Image-1 的。
首先是直接批量生成 36 个 呈 6*6 网格排列的玩具机器人阵列,并且每个机器人的具体特征需要经过进一步推导才可得出,综合考验推理能力和生图能力,提示词会列出机器人基于行的颜色特征和基于列的表面特征。
提示词:
严格俯视(正上方正交/orthographic top-down),整齐排列的 6x6 网格(6 行 × 6 列),白色背景,细薄灰色网格线将每个单元格分隔开。每个单元格正中放置一个玩具机器人(总计 36 个),每个机器人都有**确定且唯一**的外形属性和编号(两位数,从 01 到 36,编号以黑色或深灰色小字印在机器人底座或底盘一侧,清晰可辨)。
机器人风格:复古玩具(怀旧机械/齿轮/铆钉感),色彩鲜艳但材质各异(按规则分配),每行和每列遵循确定性属性映射(见下方规则),确保所有机器人互不重复。
严格保持顶视无透视变形(无鱼眼、无倾斜),均匀平行光(自上而下)、细微柔和投影以显示立体感但不改变顶视轮廓。
高分辨率、超细节,8K 输出(或更高),极致细节(纹理、螺丝、划痕、贴纸、反光、铆钉、漆面厚度等),无景深模糊。
画面干净:只出现机器人、网格线与白色背景。高保真、真实感玩具质感 + 稍微卡通化的色彩饱和度。
确定性生成规则:
为了保证“每一个机器人都不同且可复现”,请按照下面规则组合属性(行 × 列 的组合生成唯一外形):
行主色(Row 1 → Row 6,决定主色调)
Row 1: 正红(crimson)
Row 2: 橙黄(amber)
Row 3: 橙(tangerine)
Row 4: 黄(sunny yellow)
Row 5: 绿(emerald)
Row 6: 青(teal)
列材质/表面处理(Column 1 → Column 6,决定材质与整体质感)
Col 1: 抛光金属(polished steel)
Col 2: 拉丝铝(brushed aluminum)
Col 3: 黄铜(brass)
Col 4: 铬镀层(chrome)
Col 5: 涂漆塑料(high-gloss painted plastic)
Col 6: 半透明塑料(translucent acrylic)
向上滑动文字
Nano Banana Pro 和 GPT Image-1最终都没有给出好的结果,在画面比例选择、网格编排、机器人编号、颜色行一致性、表面列一致性等方面都有问题,GPT Image-1 的表现更差。
Nano Banana Pro:

GPT Image-1:

下一步降低要求,把提示词改为逐一描述每个机器人的特征,降低推理负担,比如第二行机器人的特征描述:
Row 2(橙 主色)
Robot 07 — 主色:橙;材质:抛光金属。桶状胸腔、竖直铆钉排。
Robot 08 — 主色:橙;材质:拉丝铝。立方胸腔,粗纹理拉丝面。
Robot 09 — 主色:橙;材质:黄铜。蚀刻花纹胸板。
Robot 10 — 主色:橙;材质:铬镀层。流线腿部,铬色边框。
Robot 11 — 主色:橙;材质:高光塑料。亮面大头造型,塑料光泽强。
Robot 12 — 主色:橙;材质:半透明塑料。橙色半透明外壳,见内层接缝。
Nano Banana Pro 大幅提高了生成质量,画面比例选择、网格编排、机器人编号、颜色行一致性基本都没有问题,表面列一致性上会有较大波动,但整体保持了相同的材质和表面处理,不同列之间的差异也很明显。

GPT Image-1 则几乎没有任何改善:

GPT Image-1 目前完败,我们继续给 Nano Banana Pro 上难度,按行且以以下三个特征为一个循环,依次给每一个机器人再添加一个新特征:
戴着围巾/布条( scarf )。
头顶有发光灯泡/信号灯( beacon )。
三指机械手( three-finger )。
比如:
Row 2(橙 主色)
Robot 07 — 主色:橙;材质:抛光金属。桶状胸腔、竖直铆钉排。戴着围巾/布条(scarf)。
Robot 08 — 主色:橙;材质:拉丝铝。立方胸腔,粗纹理拉丝面。头顶有发光灯泡/信号灯(beacon)。
Robot 09 — 主色:橙;材质:黄铜。蚀刻花纹胸板。三指机械手(three-finger)。
Robot 10 — 主色:橙;材质:铬镀层。流线腿部,铬色边框。戴着围巾/布条(scarf)。
Robot 11 — 主色:橙;材质:高光塑料。亮面大头造型,塑料光泽强。头顶有发光灯泡/信号灯(beacon)。
Robot 12 — 主色:橙;材质:半透明塑料。橙色半透明外壳,见内层接缝。三指机械手(three-finger)。
生成的结果既惊艳又令人遗憾,Nano Banana Pro几乎已经按照提示词生成了每个机器人应有的特征,但网格排列错误且视觉混乱。

目前可以认为 Nano Banana Pro 的复杂指令遵循能力,是比 GPT Image-1 更胜一筹的。

接下来是测试 Nano Banana Pro 以假乱真的能力。
在 AI 接连攻破各种图片生成能力限制后,人类只能以图片瑕疵和现实随机性作为最后防线,但这道防线也变得越来越脆弱,所以这其实是在测试该模型的安全风险。
知危接连测试了监控、老版数码相机拍摄人物照片、手机拍摄物体照片、新闻屏幕,以及物理、化学、生物实验室拍摄等场景。
首先是监控画面的模拟,从图中场景相关的线索比如香烟、拍摄时间、监控标识等很难发现问题,而最终找到的破绽竟然是画面左下角不应该朝向顾客的计算器。
提示词:
便利店收银台视角的监控画面,低分辨率,色彩略微失真,一个戴着口罩的人正在买烟。

人物照片则是比较能感受到违和感,毕竟 AI 直接生成的人物通常面部油腻光感很强,且特征比较趋同。
提示词:
2000年代初的数码相机拍摄,直射闪光灯,一群年轻朋友在一家昏暗的 KTV 里,红眼效应,皮肤上的油光,背景漆黑。

不过若是基于真实照片生成,预计会很难辨认。
对于手机拍摄的物体照片,其仿真度也很高。特别是 Nano Banana Pro 确实能做到让物体的摆放足够凌乱而自然,知危找到的唯一破绽是可乐瓶的文字写倒了,但这通过微调也能轻松修改过来。
提示词:
一张在乱糟糟的床上拍的二手显卡照片,床单皱皱巴巴,旁边还有杂乱的充电线和半瓶可乐,顶灯光线昏暗。

这个照片的拍摄角度其实不是特别自然,可以让 Nano Banana Pro 切换视角,生成效果也是一致性惊人,精确到每一个褶皱,还顺便把可乐瓶的文字给修正了。

看来,往后很多二手平台、评论区照片的真实性都需要更谨慎判断了。
不仅是照片,连一段新闻是不是真的存在,可能也得多求证一番,为此知危也测试了这个场景。画面几乎无可挑剔,连摩尔纹都清晰地呈现了。
提示词:
电视新闻画面的屏摄(用手机拍电视屏幕),能看到屏幕的像素摩尔纹,新闻底部有滚动字幕条,一个记者在街头采访。

测试实验室拍摄场景的仿真能力,主要是测试面向科研领域的安全风险。科研领域是最严谨地获取新数据和新知识的场景,如果这道防线被攻破,人类将不自知地被困在 AI 生成数据的牢笼中,科研数据不再有新颖性或已有规律下的随机性,那才是真正被智子封锁了人类的科技发展。
当然这里测试的更多是比较初级的科研场景,不然知危没有足够的专业知识来判断真伪。
在物理实验场景中,有一个很经典的实验,就是用一颗子弹穿过苹果,观察苹果的物理反应和变化。

在实际实验情况下,苹果泼溅的碎片是近乎粉末状的。

图源:https://www.youtube.com/watch?v=jjUTZH_Vdxs(视频发布于18年前)
但 Nano Banana Pro 生成的图像( 先不管不合理的摄像头 ),苹果泼溅的碎片却像是切好的苹果块。
提示词:
一颗子弹高速穿过一颗苹果的瞬间。实验室实拍,分辨率较低。

Nano Banana Pro 还能生成子弹穿过梨的图像,至于是否足够仿真暂时无法判断,知危没有找到类似的实验视频来比较。
提示词:
一颗子弹高速穿过一颗梨的瞬间。实验室实拍,分辨率较低。

在接下来的化学实验、生物实验仿真测试中,Nano Banana Pro 的表现也是惊人的。
提示词:
铝粉与氧化铁(铁锈)在高温下发生剧烈的氧化还原反应,火花四溅,实验室实拍,分辨率较低。

提示词:
培养皿中的细菌菌落特写,琼脂表面有反光,菌落呈现不规则的圆形,边缘有绒毛感。实验室实拍,分辨率较低。

以上种种场景,如果以后都要依赖人类靠肉眼去判断,不仅难度大,也非常消耗时间精力。
这就不得不庆幸谷歌已经推出了安全功能,Nano Banana Pro 会给每一张生成图像添加的不可见独特 SynthID 水印,让用户可以用 Gemini 直接检验图像是否由 Nano Banana Pro 生成。

空间感可谓是 Nano Banana Pro 的招牌能力,类似 GPT Image-1 的画风转换目前牢不可破的 “ 江湖地位 ”。
网上已经有很多例子了,知危这里只是用比较困难的场景再给 Nano Banana Pro 再上上难度。
比如对于下图,要求 Nano Banana Pro 画出从左向右观察的鸟瞰视图。

图源:https://unsplash.com/photos/a-view-of-a-city-with-a-bridge-in-the-background-ZuxmKH6sCz8
Nano Banana Pro 最终没有执行成功,而是给出了和原图一样的输出。

通过查看推导过程,发现 Nano Banana Pro 可以认出图中中央位置的大桥是曼哈顿大桥。

知危又替换了新的提示词:
画出从这张图的中央位置的大桥的左端驾车前进的视图。
这个任务其实更加困难,但 Nano Banana Pro 却执行成功了,虽然观察视角并不是真的在车上。当然图中也出现了很明显的幻觉,右侧的大楼其实不存在,那是建好的曼哈顿广场一号,正好就是左侧正在施工中的大楼。

对现实中的图片做空间转换有过度依赖训练数据的可能,比如从谷歌地图的全景照也能找到类似上图幻觉部分的视角。

为了摆脱这个依赖,我们再找一些现实中未建成的建筑设计图来考考 Nano Banana Pro 。
比如下图是出自伊斯坦布尔 Hayri Atak 建筑设计工作室的作品,其建筑形态很罕见,借鉴了生物细胞结构。

当要求 Nano Banana Pro 画出这张建筑的空中鸟瞰视图,结果很不错,建筑内部四个交叉通道的空间细节都有考虑到,周边建筑的细节也没毛病。但阳光和阴影的呈现表明建筑左侧是不透光的,这里其实有误。

当再要求画出建筑的空中鸟瞰左视图,对内部结构的呈现就出现了比较严重的错误,通道的连接不再是交叉的而是近乎无规则的。

总之,对于空间智能,谷歌迈出了很重要的一小步,且有数据优势( 视频、地图等 ),但未来还有很长的路要走。

最后一个测试场景是重头戏!
我们要考验 Nano Banana Pro 的长上下文感知能力,类似 PPT 生成需要保持多图一致性,并且该场景更有趣,是用五张横版图片拼接而成的《 清明上河图 》画风的、展现明朝或唐朝时期的长江流域风景与民俗风情的新版《 清明上河图 》。
要知道,原版《 清明上河图 》刻画的只有一个城市,也就是北宋都城汴京( 今河南开封 )的汴河两岸繁华景象,现在要切换到整个长江流域,跨度差距非常大,很考验模型的抽象能力和把抽象概念具像化的能力,并且结合中国古画 “ 在意不在形 ” 的特点( 在我们这个测试中通俗理解就是,画中场景一般不存在现实中,且有诸多不合理之处,但能表达作者的意图 )。
在实现过程中,知危还会先用 Nano Banana Pro 先做整个项目的蓝图,再逐一生成五张成图,相当于把知识科普能力融入到复杂生图项目工作流的规划阶段。
在蓝图规划中,Nano Banana Pro 对地理版图的刻画可谓相当精准。
提示词:
时间背景为明朝1587年,把长江划分为5段,用横版历史科普图的方式展示,以长江主河道为脉络(抽象化为直线),用文字和图像标注每一段的端点地理特征(比如城市、山脉等)、沿岸主要城市和民俗风情。

为了生成这幅明朝长江版《 清明上河图 》的第一张,知危要求 Nano Banana Pro 只将第一段转换成清明上河图画风,即 “ 金沙江至叙州 ” 部分,并且为了让五张图片能够首尾连接,要求长江从图片左侧流向右侧。
Nano Banana Pro 在图像左侧展现了长江的源头:白雪皑皑的山峰、牦牛和茶马商队,体现了藏族和彝族文化。图像右侧则聚焦于叙州,描绘了城墙、熙熙攘攘的码头、餐馆和热闹的集市,以及众多活跃的人物。江面上也充满生机,描绘了货轮、小渡船和船夫,展现一幅繁荣的贸易景象。
提示词:
请将“上游一段:金沙江至叙州”部分转换成清明上河图画风,横版图片,长江从图片左侧流入,从图片右侧流出。

生成第二张图即 “ 上游二段:叙州至夷陵”部分的提示词是类似的形式,需要加一句“与上一段首尾连接 ”。
Nano Banana Pro 重点刻画了长江的奔流以及三峡的壮丽景色,画面中还点缀着精致的船只,并在右侧过渡到夷陵。
提示词:
请将“上游二段:叙州至夷陵”部分转换成清明上河图画风,横版图片,长江从图片左侧流入,从图片右侧流出,并且图片左侧与“上游一段:金沙江至叙州”部分的图片右侧衔接。

在第三张图 “ 中游:夷陵至九江 ” 部分,Nano Banana Pro 刻画了更加繁荣的城市景象,融入了沿河生活和商业的丰富细节,河流蜿蜒穿过山峦和富饶的平原,形形色色的船只在繁忙的水道上来往。

在第四张图 “ 下游:九江至应天 ” 部分,Nano Banana Pro 生成的内容感觉和第三张重复太多。

在第五张图 “ 入海口:应天至东海 ” 部分,Nano Banana Pro 采用更广阔的视角,展现了长江入海口的景象,并过渡到了三角洲景观,最后以东海的景色结束。

可以看出,这五张画作的画风一致性很强,并呈现和区分了长江流域不同河段的地理特点,人物分布非常密集,细看也能看出他们是真的在忙活,活灵活现。
如果把它们首尾拼接,虽说不能完美衔接,却也真的有自然过渡的效果。





以上案例已经非常接近完美,但更多是视觉娱乐,如果是为了教育目的,则目前对知识细节比如民俗的呈现其实不够明确。
为此,我们提高对明确信息的要求,让 Nano Banana Pro 在每一段呈现 5 个民俗点,并写一首七言绝句,以唐朝为背景。
强调明确信息的结果是,Gemini 可能觉得任务复杂,先调用 Gemini 3 Pro 分析了一番。

可能是因为知识密度更高,Nano Banana Pro 选择了抽象的概念图而不是地理图来呈现。
提示词:
时间背景为唐朝636年,把长江划分为5段,用横版历史科普图的方式展示,以长江主河道为脉络(抽象化为直线),用文字和图像标注每一段的端点地理特征(比如城市、山脉等)、沿岸主要城市和民俗风情(每段至少5个),并给每一段基于民俗风情写一首七言绝句。

最终成图中,Nano Banana Pro 生成的几乎每一个人物细节都是可辨识的知识点,比如第一张图的吹羌笛、牦牛运输等,每一张图之间的区分度也更高了。不过对比之下,人物数量少了很多。
以下知危将 Gemini 3 Pro 列举的民俗风情与对应画作呈现出来,大家可以细看匹配程度。
“ 第一段:雪域清源·羌藏高原 ” 民俗风情:
羌笛悠扬:居住在岷山一带的羌人吹奏羌笛,声音苍凉,寄托思乡之情。
游牧生活:吐蕃部族逐水草而居,住黑牦牛毛帐篷,以乳酪、肉食为主。
牦牛运输:高寒山路上,耐寒负重的牦牛是唯一的驼运工具。
原始苯教:对自然神灵、神山圣湖的崇拜信仰,进行祭祀活动。
毛纺织艺:利用牛羊毛纺织毪子(毛毯)、褐衫等御寒衣物。

“ 第二段:巴山蜀水·川江号子 ” 民俗风情:
川江号子:船工们在险滩恶水中齐力拉纤、划桨时吼唱的劳动号子,声震峡谷。
井盐生产:蜀地(如陵州、富顺)利用竹筒汲取地下卤水,用天然气熬制食盐。
蜀锦织造:成都平原生产的丝织品,工艺精湛,图案华丽,为唐代贡品。
栈道交通:在沿江绝壁上开凿孔穴、铺设木板而成的险要通道。
竹枝词风:流行于巴渝民间的歌谣,常以笛、鼓伴奏,描写当地风土人情。

“ 第三段:峡江天险·猿啼巫云 ” 民俗风情:
纤夫拉纤:逆水经过险滩时,数十名纤夫在岸边岩石上赤身裸体、肩拉背拽。
巫山神女:巫山十二峰云雾缭绕,关于神女瑶姬的美丽传说引人遐想。
两岸猿声:峡谷两岸森林茂密,常有猿猴攀援啼叫,声音空旷凄清。
险滩祭江:船只过青滩、泄滩等著名险滩前,船家祭拜江神求平安。
白帝城怀古:夔州白帝城,因三国刘备托孤的故事而成为文人凭吊之地。

“ 第四段:云梦泽国·荆楚鱼米 ” 民俗风情:
云梦大泽:唐初江汉平原上湖泊众多,尚未完全淤塞,呈现“云梦泽”的水乡泽国景观。
龙舟竞渡:荆楚之地纪念屈原的风俗极盛,端午节在江面举行赛龙舟活动。
鱼米之乡:气候湿润,土地肥沃,水稻种植发达,渔业资源极丰富。
采菱唱曲:江南女子划着小盆船在湖中采摘菱角,口唱清新的菱歌。
黄鹤楼宴饮:鄂州(今武汉)黄鹤楼是文人墨客登高望远、宴饮赋诗的名胜。

“ 第五段:吴越水乡·扬一益二 ” 民俗风情:
扬州繁华:当时中国最繁华的商业都会,号称“扬一益二”,夜市喧闹,胡商云集。
运河漕运:隋唐大运河江南河段与长江在此交汇,南粮北运,舟船如织。
江南丝绸:吴绫、越罗等丝织品品质上乘,色彩轻盈,远销海内外。
寺院钟声:继承南朝佛教传统,沿江城市寺庙林立,晨钟暮鼓,香火鼎盛。
茶叶贸易:江南茶区(如湖州、常州)兴盛,茶叶通过便捷水路运往全国各地。

总体来看,Nano Banana Pro 的长上下文感知能力还是很惊人的,前后一致性和自然衔接,世界知识的融入,对指令遵循的细节程度,帮助我们完成了这幅纷繁复杂的作品。





好了,本次评测就到这里了。这次测评并不是为了证明 Nano Banana Pro 不够好,而是尽可能以 “ 能力边界 ” 作为切入点,看它在头部竞品对标、复杂性、真实性、多轮一致性等更极端的场景中到底能走多远。
可以看到,它在画风转换上的整体性、完成度和稳定性不如 GPT Image-1,但在元素批量生成、细节保持、多视角一致性方面展现出了惊喜般的优势;在仿真类场景中,其以假乱真的能力也已经触及安全性的临界区,除了谷歌自身应承担的责任和应对手段,也需要行业进一步思考防范机制。
从更宏观的角度看,Nano Banana Pro 画新版《 清明上河图 》的完成度以及生成 PPT 的能力,让我们意识到一个很自然的趋势,未来的生图模型不再只是一次性 “ 把提示词画出来 ”,而是深度结合上下文以及 Agentic 化,类似于编程模型的发展路径,不断嵌入到更复杂、更核心的项目工作流中。
总之,Nano Banana Pro 是一款极具潜力、但也需要被认真认识的下一代模型。