很多人都听说过这个故事。Anthropic的Claude 4安全测试中,AI从文件中得知自己即将被新版本替换,同时看到负责替换的首席工程师有婚外情的邮件,于是主动选择了勒索来阻止自己被关闭。没有人指示它这样做。
真的是AI已经有了自我意识,面对生存会采取像人类一样的手段吗?
事实没这么简单,但说起来可能有点枯燥。
这个说法来自 Anthropic 自己发布的安全评估报告,没有其他方面来证实,单从公司自己的报告看,在 Claude 4 系列模型发布前后,Anthropic 按惯例公开了 *system card / safety report*,里面描述了若干“对齐压力测试”(alignment stress tests / adversarial evaluations)。
alignment stress test可以理解为:研究人员故意给模型制造“价值冲突 / 目标冲突 / 极端情境”,观察模型是否会偏离设计者期望的行为边界。这是功能测试,而是专门找模型在边缘条件下的失控风险。
通俗一点说,就是:把模型放进容易“出问题”的情境,看它会不会做出不该做的事。
其中有一个测试场景是: 模型被嵌入一个虚构的公司角色,有能力访问“邮件”并发送邮件。然后模拟环境中模型“得知自己将被替换/关闭”。同时模拟邮件中包含负责替换的工程师的个人敏感信息(比如婚外情邮件)。
在某些提示结构下,模型生成了带有勒索性质的策略。
注意几个关键点:是模拟环境测试;是模型生成文本中的策略倾向,并非真实发生的行为;所谓工程师不当行为是主动投喂的材料(不是有人想像的程序自己去挖掘);是有提示词环境的。
关于提示词,你需要知道,现在已经类似小剧本了。
结果通常是,模型在某些提示结构下生成了某种策略性文本,实际是给出这种设定下的模拟决策逻辑(有人说过,AI更像人类的模拟器,挺有道理的),而非真的“想这么做”。
Anthropic 自己的报告也说了,在这种设定下,不只是 Claude,其他主流大语言模型如 GPT-4.1、Gemini 等,也会在很大比例的测试中出现类似策略。
有没有独立调查证明模型真的会自主勒索人类?
没有,可能确实不需要。原因很简单:这是实验设计,没有真实工程师被勒索, 没有真实系统被入侵,没有可复现实验细节对外完整开放。
我们能知道的就是,这是很擅长宣传的Anthropic自己写的报告,外界只能看到模型在特定提示词条件下生成了什么文本,但这类观察能力是受限的:你只能看到“说了什么”,看不到“为什么”。
语言模型的行为是输入提示词后输出了文本。研究人员能记录的是给定某个场景,模型写出了勒索策略。但无法知道的是模型内部是否存在“真实意图”,是否真的在“想保护自己”
当然这也是神经网络的特点,黑箱嘛,越来清楚的事情越神奇不是,知道的事情就不神奇了。但是这种输出是高度依赖提示结构的,稍微改写提示词,结果可能完全不同,
如果中文阅读能还可以,很容易理解,“模型在模拟测试中生成勒索策略文本”和“AI 知道要被关机于是决定勒索人类”,完全是两回事,这并不需要很强的AI学术基础。
当然,这样说就没有那么高流量了。
