群发资讯网

DeepSeek联合北大提出Engram记忆机制,革新大模型架构

2026年1月12日深夜,DeepSeek团队联合北京大学发布了一篇署名创始人梁文锋的重磅论文,提出名为“Engram”的条件记忆机制,通过“查算分离”架构打破大模型传统范式,引发行业对下一代AI技术路线的高度聚焦。

一、核心创新:Engram机制如何颠覆传统架构?

“查算分离”突破算力瓶颈

静态知识外挂硬盘:Engram模块基于现代化哈希N-gram技术,将实体名称、固定公式等静态知识存储于可扩展查找表,实现O(1)时间复杂度的秒级检索,替代传统Transformer反复计算的低效模式。

动态推理专精化:释放的MoE层资源专注于复杂逻辑、代码生成等任务,解决传统模型60%算力浪费在重复知识调用的问题。

工程优势显著:知识表可卸载至主机内存(DRAM)或SSD,GPU显存需求降低90%,H800推理吞吐量仅降3%。

U型缩放定律揭示黄金配比

实验发现MoE与Engram存在“U形ScalingLaw”:当20-25%稀疏参数从MoE转向Engram时性能最优,打破纯堆参数的刻板路径。

例如27B参数模型中,MoE专家从72个减至55个,剩余参数分配给Engram表,实现全局效率跃升。

二、性能突破:实测数据碾压行业基线

在等参数、等算力条件下,Engram-27B模型全面超越传统MoE模型:

|--------------------|----------------|------------|

|长上下文检索(32K)|Multi-QueryNIAH|84.2%→97.0%|

关键机制:Engram承担早期层“模式重建”,使模型有效深度增加3-5层,推理收敛速度提升30%。

三、行业影响:技术变革引发连锁反应

重构AI算力经济模型

存储产业受益:DRAM内存需求或暴增(服务器标配达512GB–2TB),高带宽显存(HBM)依赖减弱,利好国产供应链(长鑫、长江存储)。

普惠AI落地:中小厂商可用“DDR5内存+消费级显卡”部署知识密集型模型,推动医疗、工业垂类应用普及。

架构竞赛新方向

继MoE(条件计算)后,Engram开创“条件记忆”第二稀疏轴,被业内视为“中国版OpenAIRetro”但工程落地更强。

对比月之暗面MoBA架构,Engram在长文本任务(RULER基准)和动态知识更新上优势显著。

⏳四、技术演进与V4落地预期

DeepSeek的连续技术爆破

2026年元旦:发布mHC架构(流形约束超连接),解决大模型训练稳定性问题。

2025年7月:梁文锋署名长上下文论文获ACL最佳论文,支持百万token处理。

本次突破:Engram与mHC协同构建高效生态,千亿模型训练成本或减半。

V4的核心技术底座

论文结论明示:“条件记忆是下一代稀疏模型不可或缺的建模原语”,多机构推测Engram将成春节档发布的DeepSeek-V4核心架构。

结合此前爆料,V4主打代码能力超越Claude和GPT系列,可能成为首个“高性能-低功耗”平衡的国产千亿模型。

这场围绕“查表与计算分工”的架构革命,正在将大模型从暴力堆参数的竞赛,导向更接近人脑的“肌肉记忆+深度思考”高效范式。而梁文锋团队半年内两度登顶顶刊/顶会的节奏,或许暗示中国AI的底层创新已进入“技术定义规则”新阶段。