DeepSeek联合北大提出Engram记忆机制，革新大模型架构

2026年1月12日深夜，DeepSeek团队联合北京大学发布了一篇署名创始人梁文锋的重磅论文，提出名为“Engram”的条件记忆机制，通过“查算分离”架构打破大模型传统范式，引发行业对下一代AI技术路线的高度聚焦。

一、核心创新：Engram机制如何颠覆传统架构？

“查算分离”突破算力瓶颈

静态知识外挂硬盘：Engram模块基于现代化哈希N-gram技术，将实体名称、固定公式等静态知识存储于可扩展查找表，实现O(1)时间复杂度的秒级检索，替代传统Transformer反复计算的低效模式。

动态推理专精化：释放的MoE层资源专注于复杂逻辑、代码生成等任务，解决传统模型60%算力浪费在重复知识调用的问题。

工程优势显著：知识表可卸载至主机内存（DRAM）或SSD，GPU显存需求降低90%，H800推理吞吐量仅降3%。

U型缩放定律揭示黄金配比

实验发现MoE与Engram存在“U形ScalingLaw”：当20-25%稀疏参数从MoE转向Engram时性能最优，打破纯堆参数的刻板路径。

例如27B参数模型中，MoE专家从72个减至55个，剩余参数分配给Engram表，实现全局效率跃升。

二、性能突破：实测数据碾压行业基线

在等参数、等算力条件下，Engram-27B模型全面超越传统MoE模型：

|--------------------|----------------|------------|

|长上下文检索（32K）|Multi-QueryNIAH|84.2%→97.0%|

关键机制：Engram承担早期层“模式重建”，使模型有效深度增加3-5层，推理收敛速度提升30%。

三、行业影响：技术变革引发连锁反应

重构AI算力经济模型

存储产业受益：DRAM内存需求或暴增（服务器标配达512GB–2TB），高带宽显存（HBM）依赖减弱，利好国产供应链（长鑫、长江存储）。

普惠AI落地：中小厂商可用“DDR5内存+消费级显卡”部署知识密集型模型，推动医疗、工业垂类应用普及。

架构竞赛新方向

继MoE（条件计算）后，Engram开创“条件记忆”第二稀疏轴，被业内视为“中国版OpenAIRetro”但工程落地更强。

对比月之暗面MoBA架构，Engram在长文本任务（RULER基准）和动态知识更新上优势显著。

⏳四、技术演进与V4落地预期

DeepSeek的连续技术爆破

2026年元旦：发布mHC架构（流形约束超连接），解决大模型训练稳定性问题。

2025年7月：梁文锋署名长上下文论文获ACL最佳论文，支持百万token处理。

本次突破：Engram与mHC协同构建高效生态，千亿模型训练成本或减半。

V4的核心技术底座

论文结论明示：“条件记忆是下一代稀疏模型不可或缺的建模原语”，多机构推测Engram将成春节档发布的DeepSeek-V4核心架构。

结合此前爆料，V4主打代码能力超越Claude和GPT系列，可能成为首个“高性能-低功耗”平衡的国产千亿模型。

这场围绕“查表与计算分工”的架构革命，正在将大模型从暴力堆参数的竞赛，导向更接近人脑的“肌肉记忆+深度思考”高效范式。而梁文锋团队半年内两度登顶顶刊/顶会的节奏，或许暗示中国AI的底层创新已进入“技术定义规则”新阶段。

群发资讯网