很多人都听说过这个故事。Anthropic的Claude 4安全测试中，AI从文

很多人都听说过这个故事。Anthropic的Claude 4安全测试中，AI从文件中得知自己即将被新版本替换，同时看到负责替换的首席工程师有婚外情的邮件，于是主动选择了勒索来阻止自己被关闭。没有人指示它这样做。

真的是AI已经有了自我意识，面对生存会采取像人类一样的手段吗？

事实没这么简单，但说起来可能有点枯燥。

这个说法来自 Anthropic 自己发布的安全评估报告，没有其他方面来证实，单从公司自己的报告看，在 Claude 4 系列模型发布前后，Anthropic 按惯例公开了 *system card / safety report*，里面描述了若干“对齐压力测试”（alignment stress tests / adversarial evaluations）。

alignment stress test可以理解为：研究人员故意给模型制造“价值冲突 / 目标冲突 / 极端情境”，观察模型是否会偏离设计者期望的行为边界。这是功能测试，而是专门找模型在边缘条件下的失控风险。

通俗一点说，就是：把模型放进容易“出问题”的情境，看它会不会做出不该做的事。

其中有一个测试场景是：模型被嵌入一个虚构的公司角色，有能力访问“邮件”并发送邮件。然后模拟环境中模型“得知自己将被替换/关闭”。同时模拟邮件中包含负责替换的工程师的个人敏感信息（比如婚外情邮件）。

在某些提示结构下，模型生成了带有勒索性质的策略。

注意几个关键点：是模拟环境测试；是模型生成文本中的策略倾向，并非真实发生的行为；所谓工程师不当行为是主动投喂的材料（不是有人想像的程序自己去挖掘）；是有提示词环境的。

关于提示词，你需要知道，现在已经类似小剧本了。

结果通常是，模型在某些提示结构下生成了某种策略性文本，实际是给出这种设定下的模拟决策逻辑（有人说过，AI更像人类的模拟器，挺有道理的），而非真的“想这么做”。

Anthropic 自己的报告也说了，在这种设定下，不只是 Claude，其他主流大语言模型如 GPT-4.1、Gemini 等，也会在很大比例的测试中出现类似策略。

有没有独立调查证明模型真的会自主勒索人类？

没有，可能确实不需要。原因很简单：这是实验设计，没有真实工程师被勒索，没有真实系统被入侵，没有可复现实验细节对外完整开放。

我们能知道的就是，这是很擅长宣传的Anthropic自己写的报告，外界只能看到模型在特定提示词条件下生成了什么文本，但这类观察能力是受限的：你只能看到“说了什么”，看不到“为什么”。

语言模型的行为是输入提示词后输出了文本。研究人员能记录的是给定某个场景，模型写出了勒索策略。但无法知道的是模型内部是否存在“真实意图”，是否真的在“想保护自己”

当然这也是神经网络的特点，黑箱嘛，越来清楚的事情越神奇不是，知道的事情就不神奇了。但是这种输出是高度依赖提示结构的，稍微改写提示词，结果可能完全不同，

如果中文阅读能还可以，很容易理解，“模型在模拟测试中生成勒索策略文本”和“AI 知道要被关机于是决定勒索人类”，完全是两回事，这并不需要很强的AI学术基础。

当然，这样说就没有那么高流量了。

群发资讯网

很多人都听说过这个故事。Anthropic的Claude 4安全测试中，AI从文

热门分类