世界上第一项针对人工智能“大脑”的研究,剖析并编辑它的思想

知新了了 2024-06-19 08:22:52

弄清楚人工智能模型如何“思考”可能对人类的生存至关重要 —— 但直到最近,像GPT和Claude这样的人工智能对它们的创造者来说一直是一个谜。现在,研究人员表示,他们可以发现(甚至改变)人工智能大脑中的想法。

如果你听听人工智能预言者颇为令人信服的论点,你会发现,未来几代人工智能对人类构成了深刻的威胁 —— 甚至可能是一种生存风险。

我们都看到像ChatGPT这样的应用程序是多么容易被欺骗,说或做一些它们不应该做的顽皮的事情。我们看到它们试图隐瞒自己的意图,寻求和巩固权力。人工智能通过互联网进入现实世界的机会越多,它们就越有能力以各种创造性的方式造成伤害,如果它们决定这样做的话。

它们为什么要这么做?我们不知道。事实上,它们的内部运作或多或少是完全不透明的,甚至对建造它们的公司和个人也是如此。

人工智能模型的不可思议的外星“思想”

这些引人注目的软件与之前的大多数软件非常不同。它们的人类创造者已经建立了架构,基础设施和方法,通过这些人工智能可以开发他们的智能版本,他们已经给它们提供了大量的文本,视频,音频和其他数据,但从这一点开始,人工智能已经向前发展,建立了它们自己对世界的“理解”。

它们将这些海量的数据转换成被称为符号的小碎片,有时是文字的一部分,有时是图像的一部分或音频的一部分。然后,它们建立了一个非常复杂的概率权重集,将一个标记与另一个标记联系起来,并将一组标记与另一组标记联系起来。在这方面,它们有点像人类的大脑,寻找字母、单词、声音、图像和更模糊的概念之间的联系,并将它们构建成一个极其复杂的神经网络。

这些充满概率权重的巨大矩阵代表了人工智能的“思维”,它们驱动着人工智能接收输入和响应特定输出的能力。而且,就像激发了它们设计灵感的人类大脑一样,几乎不可能弄清楚它们到底在“想”什么,或者它们为什么要做出某些决定。

就我个人而言,我一直把它们想象成被锁在黑盒子里的奇怪的外星人的大脑。它们只能通过有限的管道与世界交流,信息可以通过这些管道流入和流出。所有试图让这些思想与人类一起高效、安全、无害地工作的尝试都是在管道层面完成的,而不是对“思想”本身。

我们不能告诉它们该怎么想,我们不知道粗鲁的语言或邪恶的概念在它们的大脑中生活在哪里,我们只能限制它们能说什么和能做什么 —— 这个概念现在很难,但随着它们变得越来越聪明,将变得越来越难。

这是我对一个密集而复杂的情况的高度简化的、愚蠢的理解 —— 如果有必要,请进入评论来扩展、查询、辩论或澄清 —— 但它给出了一些迹象,说明为什么我认为最近从Anthropic和OpenAI中传来的消息是人类与人工智能关系中如此重要的里程碑。

可解释性:凝视着黑盒子

Anthropic Interpretability团队在5月底的一篇博客文章中写道,“今天,我们在理解人工智能模型的内部工作原理方面取得了重大进展。我们已经确定了在Claude Sonnet(我们部署的大型语言模型之一)中如何表示数百万个概念。这是有史以来第一次详细了解现代生产级大型语言模型。这种可解释性的发现,可以帮助我们在未来使人工智能模型更安全。”

从本质上讲,Anthropic团队一直在跟踪其人工智能模型工作时的“内部状态”,让它们在与人类互动时吐出代表人工大脑中“神经元激活”的大量数字列表。“事实证明,”研究小组写道,“每个概念都是通过许多神经元来表示的,每个神经元都参与表示许多概念。”

Anthropic的研究人员使用一种名为“字典学习”的技术,通过“稀疏自动编码器”,开始尝试将“神经元激活”的模式与人类熟悉的概念和想法相匹配。去年年底,他们在极小的“玩具”版本的语言模型上取得了一些成功,发现了模型在处理DNA序列、数学名词和大写文本等概念时激活的“思维模式”。

这是一个有希望的开始,但该团队并不确定它是否能扩展到今天商业LLM的巨大规模,更不用说后续的机器了。因此,Anthropic建立了一个字典学习模型,能够处理自己中型的Claude Sonnet LLM,并开始大规模测试这种方法。

结果呢?嗯,整个团队都惊呆了。“我们成功地从Claude 3.0十四行诗的中间层提取了数百万个特征,”博客文章写道,“在计算的中途提供了其内部状态的粗略概念图。这是有史以来第一次详细了解现代生产级大型语言模型。”

人工智能以独立于语言甚至数据类型的方式存储概念,这是一件很有趣的事情;例如,当模型处理金门大桥的图像或多种不同语言的文本时,金门大桥的“想法”就会亮起来。

“想法”也可以变得更加抽象;该团队发现,当遇到编码错误、性别偏见或许多不同的接近自由裁量权或保密概念的方式时,这些特征会被激活。

事实上,该团队能够在AI的概念网络中找到各种各样的黑暗,从关于代码后门和生物武器开发的想法,到种族主义、性别歧视、权力追求、欺骗和操纵的概念。都在里面。

更重要的是,研究人员能够观察存储在模型“大脑”中的不同概念之间的关系,开发出一种测量它们之间“距离”的方法,并构建一系列思维导图,显示概念之间的联系有多紧密。例如,在金门大桥概念附近,该团队发现了其他特征,如恶魔岛、金州勇士队、加州州长加文·纽森和1906年旧金山地震。

同样的道理也适用于更抽象的概念,比如“第二十二条军规”(Catch-22)的情况,该模型将其归类为“不可能的选择”、“困难的情况”、“奇怪的悖论”和“进退两难”。该团队写道,“这表明,人工智能模型中概念的内部组织至少在某种程度上与我们人类的相似性概念相对应。这也许就是Claude善于类比和比喻的原因。”

人工智能脑部手术的开始 —— 以及潜在的额叶切除术

“重要的是,”研究小组写道,“我们还可以操纵这些特征,人为地放大或抑制它们,看看Claude的反应是如何变化的。”

该团队开始“箝制”某些概念,改变模型,使某些功能在回答完全不相关的问题时被迫启动,并发现它彻底改变了模型的行为。

这是非常不可思议的东西;Anthropic已经证明,它不仅可以创建人工智能的思维导图,还可以编辑该思维导图中的关系,并摆弄模型对世界的理解,以及随后的行为。

这里的人工智能安全潜力是显而易见的;如果你知道不好的想法在哪里,你可以看到人工智能什么时候在想这些想法,那么你就有了一个额外的监督层,可以在监督的意义上使用。如果你能加强或削弱某些概念之间的联系,你就有可能使某些行为从人工智能的可能反应范围中消失,甚至从它对世界的理解中剔除某些想法。

这在概念上让人想起科幻巨作《美丽心灵的永恒阳光》中,金·凯瑞和凯特·温丝莱特在分手后雇了一家洗脑公司把对方从记忆中抹去。而且,就像电影一样,它提出了一个问题:你真的能删除一个强大的想法吗?

Anthropic团队也证明了这种方法的潜在危险,“夹住”了骗局电子邮件的概念,并展示了与这个想法足够强大的心理联系如何能够迅速绕过Claude模型的对齐训练,禁止它写这样的内容。这种人工智能脑部手术确实可以增强模型做出邪恶行为的潜力,并让它砸碎自己的护栏。

Anthropic对这项技术的范围还有其他保留意见。“这项工作才刚刚开始,”该团队写道。“我们发现的特征代表了模型在训练过程中学习到的所有概念的一小部分,使用我们目前的技术找到一套完整的特征将是成本过高的(我们目前的方法所需的计算将大大超过最初用于训练模型的计算)。”

“了解模型使用的表示,并不能告诉我们它是如何使用它们的;即使我们有了这些特征,我们仍然需要找到它们所涉及的电路。我们需要证明,我们已经开始发现的安全相关特征实际上可以用来提高安全性。但还有很多事情要做。”

换句话说,这种东西可能是一个非常有价值的工具,但它不太可能完全理解商业规模的人工智能的思维过程。这不会给末日预言者带来多少安慰,他们会指出,当后果可能是存在的时候,99.999%的成功率是不够的。

尽管如此,这仍然是一个非凡的突破,也是对这些令人难以置信的机器理解世界方式的非凡洞察。看到人工智能的思维地图与人类的思维地图有多接近,这将是一件很有趣的事情,如果有可能测量的话。

OpenAI:也致力于可解释性,但显然落后了

Anthropic是现代人工智能/LLM领域的关键参与者之一,但该领域的霸主仍然是OpenAI,它是突破性GPT模型的制造商,当然也是最能推动公众围绕人工智能展开讨论的公司。

事实上,Anthropic是由一群前OpenAI员工于2021年创立的,在OpenAI与微软合作并开始更像一个商业实体的同时,将人工智能的安全性和可靠性放在首位。

但OpenAI也一直在研究可解释性,并使用了非常相似的方法。在6月初发布的一项研究中,OpenAI可解释性团队宣布,他们在GPT-4中发现了大约1600万个“思维”模式,其中许多模式可被破译,并可映射到对人类有意义的概念上。

OpenAI团队似乎还没有冒险进入地图构建或思维编辑领域,但它也注意到理解大型人工智能模型的内在挑战。该团队写道:“目前,通过稀疏自动编码器传递GPT-4的激活,其性能相当于用大约10倍的计算量训练的模型。为了完全映射前沿LLM中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使我们改进了缩放技术,这也将是一个挑战。”

这两家公司目前都还处于起步阶段。但至少人类现在至少有两种方法可以打开人工智能神经网络的“黑匣子”,并开始理解它是如何思考的。

如果朋友们喜欢,敬请关注“知新了了”!

0 阅读:16

知新了了

简介:专注于新知、科普及趣闻的传播,日耕不辍,天天新鲜。