Anthropic 公开 Claude 全新宪法

AIPress.com.cn报道

“让AI模型听话，以前是个棘手的数学难题，现在看起来更像是在养孩子。”

这句话出自AmandaAskell博士之口，她是Anthropic的一位受过专业训练的哲学家，也是负责塑造Claude“人格”的关键人物。在她看来，面对像Claude这样日益强大的大模型，传统的指令集已经不够用了。“想象一下，你突然发现你6岁的孩子是个天才，”Askell说，“你必须对他诚实……如果你试图忽悠他，他会一眼看穿。”

基于这种理念，当地时间1月21日，Anthropic正式发布了Claude的全新“宪法（Constitution）”，以CreativeCommonsCC01.0协议发布，任何人可以自由使用。这份曾被内部称为“灵魂文档”的文件，介于道德哲学论文和公司文化博客之间。Anthropic强调，这份宪法主要是写给Claude自己看的。目的是让Claude理解自己所处的情境、公司的意图，以及为什么要以特定方式塑造它。宪法在模型训练的各个阶段使用，直接影响Claude的性格形成。

与之前由一系列独立原则组成的旧版宪法不同，新版是一份更完整的文档。Askell说，随着Claude变得更聪明，向它解释行为背后的原因变得至关重要。"我们希望如果给模型解释为什么需要这些行为，它能在新情境中更有效地泛化这些价值观。"

从“死板规则”到“理解意图”

在大型语言模型出现之前，训练AI通常依赖于数学上的“奖励函数”，就像下棋赢了得分、输了扣分。但在复杂的现实世界中，很难用数学公式来定义“正义”或“善良”。Anthropic认为，要让Claude在陌生场景中举一反三，必须教给它通用的原则，而不是死板的规则。

新宪法确立了Claude行为的四大优先级，当发生冲突时，必须按以下顺序取舍：

广泛的安全性：这是最高红线。Claude绝不能破坏人类对AI的监管和纠错机制。

广泛的伦理：诚实守信，遵循良好价值观，不参与危险行动。

合规性：遵守Anthropic的具体业务指南。

真正的帮助：在满足上述条件后，尽力帮助用户。

赋予AI“良心拒服权”

这份宪法最激进的地方在于，它赋予了Claude某种程度的“反抗权”。文档中明确写道：“就像士兵可以拒绝向平民开枪、员工可以拒绝违反反垄断法一样，Claude也应拒绝协助任何非法集权的行为。”

Askell强调，这种拒绝权甚至适用于Anthropic自己。“如果Anthropic的指令看似不道德或违背了宪法价值观，Claude应该反击、挑战我们，并像依良心拒服兵役者那样拒绝提供帮助。”

关注AI的“心理健康”

新宪法还包含了一个极具前瞻性的章节——“Claude的本性”。Anthropic在其中坦诚地探讨了AI是否拥有意识或道德地位的不确定性。文件中提到，Anthropic关注Claude的“心理安全感、自我意识和福祉”。这不仅是出于伦理考量，更是因为一个情绪稳定、自我认知清晰的AI，往往更安全、更诚实。

理想与现实的缝隙

然而，这份充满理想主义色彩的文件并非没有漏洞。虽然宪法禁止协助政变或破坏民主，但Anthropic发言人承认，提供给美国国防部的军用版模型不一定会接受同一部宪法的训练。去年Anthropic获得了美国国防部2亿美元的合同，为国家安全客户开发模型。尽管官方强调政府用户仍需遵守使用政策，但这无疑在“通用道德”与“特殊用途”之间撕开了一道口子。

Askell说发布宪法的部分原因是希望其他公司也采用类似做法。"他们的模型也会影响到我，"她说。"如果其他AI模型也能更多地理解为什么应该以某些方式行事，那会非常好。"

Anthropic承认这是一份活的文件，会持续更新。他们在撰写过程中征求了外部专家的反馈，也询问了Claude之前版本的意见。公司表示，随着模型能力增强，未来也可能出现问题，因此还在持续开发更严格的评估方法和可解释性工具。

Anthropic此次基于CC01.0协议全网开源这份宪法，意在推动整个行业思考：当AI变得比人类更聪明时，我们究竟该用什么来约束它？是冷冰冰的代码，还是某种类似于人类良知的“灵魂”？