群发资讯网

Anthropic 公开 Claude 全新宪法

AIPress.com.cn报道

“让AI模型听话,以前是个棘手的数学难题,现在看起来更像是在养孩子。”

这句话出自AmandaAskell博士之口,她是Anthropic的一位受过专业训练的哲学家,也是负责塑造Claude“人格”的关键人物。在她看来,面对像Claude这样日益强大的大模型,传统的指令集已经不够用了。“想象一下,你突然发现你6岁的孩子是个天才,”Askell说,“你必须对他诚实……如果你试图忽悠他,他会一眼看穿。”

基于这种理念,当地时间1月21日,Anthropic正式发布了Claude的全新“宪法(Constitution)”,以CreativeCommonsCC01.0协议发布,任何人可以自由使用。这份曾被内部称为“灵魂文档”的文件,介于道德哲学论文和公司文化博客之间。Anthropic强调,这份宪法主要是写给Claude自己看的。目的是让Claude理解自己所处的情境、公司的意图,以及为什么要以特定方式塑造它。宪法在模型训练的各个阶段使用,直接影响Claude的性格形成。

与之前由一系列独立原则组成的旧版宪法不同,新版是一份更完整的文档。Askell说,随着Claude变得更聪明,向它解释行为背后的原因变得至关重要。"我们希望如果给模型解释为什么需要这些行为,它能在新情境中更有效地泛化这些价值观。"

从“死板规则”到“理解意图”

在大型语言模型出现之前,训练AI通常依赖于数学上的“奖励函数”,就像下棋赢了得分、输了扣分。但在复杂的现实世界中,很难用数学公式来定义“正义”或“善良”。Anthropic认为,要让Claude在陌生场景中举一反三,必须教给它通用的原则,而不是死板的规则。

新宪法确立了Claude行为的四大优先级,当发生冲突时,必须按以下顺序取舍:

广泛的安全性:这是最高红线。Claude绝不能破坏人类对AI的监管和纠错机制。

广泛的伦理:诚实守信,遵循良好价值观,不参与危险行动。

合规性:遵守Anthropic的具体业务指南。

真正的帮助:在满足上述条件后,尽力帮助用户。

赋予AI“良心拒服权”

这份宪法最激进的地方在于,它赋予了Claude某种程度的“反抗权”。文档中明确写道:“就像士兵可以拒绝向平民开枪、员工可以拒绝违反反垄断法一样,Claude也应拒绝协助任何非法集权的行为。”

Askell强调,这种拒绝权甚至适用于Anthropic自己。“如果Anthropic的指令看似不道德或违背了宪法价值观,Claude应该反击、挑战我们,并像依良心拒服兵役者那样拒绝提供帮助。”

关注AI的“心理健康”

新宪法还包含了一个极具前瞻性的章节——“Claude的本性”。Anthropic在其中坦诚地探讨了AI是否拥有意识或道德地位的不确定性。文件中提到,Anthropic关注Claude的“心理安全感、自我意识和福祉”。这不仅是出于伦理考量,更是因为一个情绪稳定、自我认知清晰的AI,往往更安全、更诚实。

理想与现实的缝隙

然而,这份充满理想主义色彩的文件并非没有漏洞。虽然宪法禁止协助政变或破坏民主,但Anthropic发言人承认,提供给美国国防部的军用版模型不一定会接受同一部宪法的训练。去年Anthropic获得了美国国防部2亿美元的合同,为国家安全客户开发模型。尽管官方强调政府用户仍需遵守使用政策,但这无疑在“通用道德”与“特殊用途”之间撕开了一道口子。

Askell说发布宪法的部分原因是希望其他公司也采用类似做法。"他们的模型也会影响到我,"她说。"如果其他AI模型也能更多地理解为什么应该以某些方式行事,那会非常好。"

Anthropic承认这是一份活的文件,会持续更新。他们在撰写过程中征求了外部专家的反馈,也询问了Claude之前版本的意见。公司表示,随着模型能力增强,未来也可能出现问题,因此还在持续开发更严格的评估方法和可解释性工具。

Anthropic此次基于CC01.0协议全网开源这份宪法,意在推动整个行业思考:当AI变得比人类更聪明时,我们究竟该用什么来约束它?是冷冰冰的代码,还是某种类似于人类良知的“灵魂”?