研究人员在10万名人类中测试人工智能的创造力

生成式人工智能创意已逼近人类平均水平——蒙特利尔大学心理学系首席教授卡里姆·贾尔比（Karim Jerbi）与 AI 先驱约书亚·本吉奥（Yoshua Bengio）领衔的研究，首次以超过十万名受试者为样本，系统性比较人类与大型语言模型（LLM）的创意表现，取得突破性发现。

一. 研究概况

发表期刊：《Scientific Reports》（Nature Portfolio）

研究对象：ChatGPT、Claude、Gemini 等主流大型语言模型

受试者：1 00 000+ 人类受试者，涵盖从中学生到专家级创作者的各个层级

核心结论：

目前部分 LLM（如 GPT‑4）在“发散性语言创意”测评中已超过人类平均水平。

然而，最具创意的人类受试者（前 50% 甚至前 10%）仍远远优于任何测试中的 LLM，显示人类创意的“极值”仍在其掌控之中。

二. 创意评估方法

研究团队采用发散联想任务（Divergent Association Task, DAT），这是心理学界广泛使用的衡量发散性创意的工具。

任务形式：给定一个主题，受试者需列举十个意义上尽可能不相关的单词。

评价标准：词汇多样性、词义跨度、语义关联深度等。

实用性：任务仅需 2‑4 分钟即可完成，可在线公开，便于大规模数据采集。

此外，为检验 DAT 结果的泛化能力，研究团队将 LLM 与人类在更复杂的创意任务上做对照：

生成俳句（Haiku）

撰写电影情节概要

创作短篇小说

在这些任务中，尽管 LLM 有时能超过平均人类水平，但在人类顶尖创作者面前，仍显劣势。

三. 关键发现

维度

LLM 表现

人类平均

人类最高

DAT 分数

超过平均水平（部分模型如 GPT‑4）

0.0

最高分数 > 所有 LLM

俳句创作

质量可观，但多为模板化

与 LLM 相近

语义深度与美感远高于 LLM

电影概要

结构完整但缺乏独创性

与 LLM 相近

故事线索新颖、情感深刻

短篇小说

叙事连贯但常见套路

与 LLM 相近

叙事张力与人物刻画突出

“我们的实验揭示了一个关键转折点：某些基于 LLM 的生成式 AI 已能在明确定义的创意任务中击败人类平均水平。” 卡里姆·贾尔比教授（蒙特利尔大学心理学系副教授、Mila 相关研究员） “这一结果虽然惊人，却也让我们看清：即使是最强大的 AI 也无法逼近人类创意的巅峰。”

四. 可调节性与人类引导

技术参数：LLM 的温度（temperature）控制生成文本的随机性。

低温：生成更安全、保守的回答。

高温：回答更为多变、探索性更强，创意得分明显提升。

提示词设计：提示词若鼓励模型从词源、结构等维度进行联想，能显著提升创意得分。

说明：AI 创意高度依赖于人类的引导与提示。

“AI 创意不是固定的，它可以通过技术调参和提示设计来提升，但最终仍需人类的方向与选择。”

五. 对人类创作者的启示

工具而非替代：生成式 AI 最终是“极具力量的创意助理”，能够加速想法的扩散、开启新的探索路径。

协同创新：AI 可在创意初稿、灵感爆发阶段提供多样化输入，帮助创作者突破自我边界，而不是替代创作者。

重塑想象与表达：在中年、40 岁以上人群进行创意干预，可提前延缓认知衰退与痴呆风险，提示创意与 AI 共生的未来可能。

“我们不应把这类研究当作人与机器的竞争，而是重新审视什么是真正的创意。” 卡里姆·贾尔比教授总结。

六. 研究团队与资助

主导者：蒙特利尔大学心理学系教授卡里姆·贾尔比

联合作者：蒙特利尔大学博士后 Antoine Bellemare‑Pépin；康考迪亚大学博士候选人 François Lespinasse；多伦多大学马西阿加、Mila（魁北克 AI 研究所）、Google DeepMind 等机构专家。

AI 先驱：约书亚·本吉奥（Mila 创始人、Deep Learning 先驱）。

资金来源：美国国家卫生研究院（NIH）及国家心肺血液研究所（Grant P01 HL040962）共同资助。

七. 未来展望

更大规模、更长时间的跟踪研究：验证 LLM 下降的 brain‑PAD 对卒中、痴呆等脑部疾病风险的长远影响。

提示设计与模型调参：探索更高效、更具创意的交互方式，进一步提升 AI 在复杂创意任务中的表现。

教育与公共推广：将 DAT 与在线创意平台结合，普及“人与 AI 共创”理念，让更多创作者受益。

勇编撰自论文"Divergent creativity in humans and large language models".Scientific Reports.2026相关信息，文中配图若未特别标注出处，均来源于自绘或公开图库。

群发资讯网

研究人员在10万名人类中测试人工智能的创造力

热门分类