生成式人工智能创意已逼近人类平均水平——蒙特利尔大学心理学系首席教授卡里姆·贾尔比(Karim Jerbi)与 AI 先驱约书亚·本吉奥(Yoshua Bengio)领衔的研究,首次以超过十万名受试者为样本,系统性比较人类与大型语言模型(LLM)的创意表现,取得突破性发现。

发表期刊:《Scientific Reports》(Nature Portfolio)
研究对象:ChatGPT、Claude、Gemini 等主流大型语言模型
受试者:1 00 000+ 人类受试者,涵盖从中学生到专家级创作者的各个层级
核心结论:
目前部分 LLM(如 GPT‑4)在“发散性语言创意”测评中已超过人类平均水平。
然而,最具创意的人类受试者(前 50% 甚至前 10%)仍远远优于任何测试中的 LLM,显示人类创意的“极值”仍在其掌控之中。
二. 创意评估方法研究团队采用 发散联想任务(Divergent Association Task, DAT),这是心理学界广泛使用的衡量发散性创意的工具。
任务形式:给定一个主题,受试者需列举十个意义上尽可能不相关的单词。
评价标准:词汇多样性、词义跨度、语义关联深度等。
实用性:任务仅需 2‑4 分钟即可完成,可在线公开,便于大规模数据采集。
此外,为检验 DAT 结果的泛化能力,研究团队将 LLM 与人类在更复杂的创意任务上做对照:
生成俳句(Haiku)
撰写电影情节概要
创作短篇小说
在这些任务中,尽管 LLM 有时能超过平均人类水平,但在人类顶尖创作者面前,仍显劣势。
三. 关键发现维度
LLM 表现
人类平均
人类最高
DAT 分数
超过平均水平(部分模型如 GPT‑4)
0.0
最高分数 > 所有 LLM
俳句创作
质量可观,但多为模板化
与 LLM 相近
语义深度与美感远高于 LLM
电影概要
结构完整但缺乏独创性
与 LLM 相近
故事线索新颖、情感深刻
短篇小说
叙事连贯但常见套路
与 LLM 相近
叙事张力与人物刻画突出
“我们的实验揭示了一个关键转折点:某些基于 LLM 的生成式 AI 已能在明确定义的创意任务中击败人类平均水平。” 卡里姆·贾尔比教授(蒙特利尔大学心理学系副教授、Mila 相关研究员) “这一结果虽然惊人,却也让我们看清:即使是最强大的 AI 也无法逼近人类创意的巅峰。”
四. 可调节性与人类引导技术参数:LLM 的 温度(temperature) 控制生成文本的随机性。
低温:生成更安全、保守的回答。
高温:回答更为多变、探索性更强,创意得分明显提升。
提示词设计:提示词若鼓励模型从词源、结构等维度进行联想,能显著提升创意得分。
说明:AI 创意高度依赖于人类的引导与提示。
“AI 创意不是固定的,它可以通过技术调参和提示设计来提升,但最终仍需人类的方向与选择。”
五. 对人类创作者的启示工具而非替代:生成式 AI 最终是“极具力量的创意助理”,能够加速想法的扩散、开启新的探索路径。
协同创新:AI 可在创意初稿、灵感爆发阶段提供多样化输入,帮助创作者突破自我边界,而不是替代创作者。
重塑想象与表达:在中年、40 岁以上人群进行创意干预,可提前延缓认知衰退与痴呆风险,提示创意与 AI 共生的未来可能。
“我们不应把这类研究当作人与机器的竞争,而是重新审视什么是真正的创意。” 卡里姆·贾尔比教授总结。
六. 研究团队与资助主导者:蒙特利尔大学心理学系教授卡里姆·贾尔比
联合作者:蒙特利尔大学博士后 Antoine Bellemare‑Pépin;康考迪亚大学博士候选人 François Lespinasse;多伦多大学马西阿加、Mila(魁北克 AI 研究所)、Google DeepMind 等机构专家。
AI 先驱:约书亚·本吉奥(Mila 创始人、Deep Learning 先驱)。
资金来源:美国国家卫生研究院(NIH)及国家心肺血液研究所(Grant P01 HL040962)共同资助。
七. 未来展望更大规模、更长时间的跟踪研究:验证 LLM 下降的 brain‑PAD 对卒中、痴呆等脑部疾病风险的长远影响。
提示设计与模型调参:探索更高效、更具创意的交互方式,进一步提升 AI 在复杂创意任务中的表现。
教育与公共推广:将 DAT 与在线创意平台结合,普及“人与 AI 共创”理念,让更多创作者受益。
勇编撰自论文"Divergent creativity in humans and large language models".Scientific Reports.2026相关信息,文中配图若未特别标注出处,均来源于自绘或公开图库。