群发资讯网

很有意思的研究:LLM 能成为计算机吗? --在Transformer 内部构建

很有意思的研究:LLM 能成为计算机吗? --在Transformer 内部构建一台计算机网页链接这篇文章讨论了如何通过改进 Transformer 架构,实现在模型内部直接执行复杂计算。“语言模型可以在研究级别上解决复杂的数学问题,但在涉及多步推理和长上下文的简单计算任务上却表现不佳。即使是两个数字的乘法或解决小型数独题,也几乎不可能完成,除非依赖外部工具。

--那么,要让一个大型语言模型自身像计算机一样可靠和高效,需要什么条件呢?

我们的答案是直接在Transformer 内部构建一台计算机。我们将任意 C 代码转化为模型自身可以在数秒内可靠执行数百万步的令牌。”How I AI