梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔了颗惊雷。而是他们居然又开发了新的模型！1月21日外媒曝光，梁文锋在DeepSeek发布推理模型R1一周年之际，新模型“MODEL1”的项目名在开源社区悄然出现。说白了，MODEL1在开源社区悄然露头，恰逢R1模型周年庆，这绝非偶然为之的巧合，而是DeepSeek蓄谋已久的布局。先说说这时间点多会挑，一年前R1模型横空出世，靠低成本推理直接在AI圈炸了锅，现在刚满一年，行业里正盯着DeepSeek要搞什么新动作呢，MODEL1就这么“悄无声息”地出现在开源社区，这不就是故意给行业放信号嘛。你想啊，要是真不想声张，完全能藏得更隐蔽，何苦在R1周年庆这个节骨眼让代码痕迹露出来？分明是借去年R1攒下的名气，再掀一波热度，这算盘打得也太精了。而且这模型绝不是临时赶工出来的，早有铺垫。梁文锋1月12号就发了篇论文，讲的是个叫Engram的“条件记忆模块”，核心就是不让所有数据都挤在贵得要死的GPU显存里，把记忆功能转到更便宜的存储设备上，绕开硬件限制。现在MODEL1的代码里全是这路子的优化，什么KV缓存调整、FP8稀疏解码，说白了就是让模型记东西更省地方、算得更快，跟论文里的思路一模一样。这就很清楚了，论文是提前放风，代码曝光是跟进造势，一步步都是设计好的，哪是什么突然冒出来的新东西。再看技术细节，这模型跟之前的V3系列完全是两条路子，代码里专门适配了英伟达新芯片，还能兼容国产芯片，连内存调度的细节都定死了，KV缓存的内存stride要求576B的整数倍，跟V3.2的656B差得清清楚楚。这些底层架构的改动可不是一两天能搞定的，肯定是团队闷头开发了好久，就等着在R1周年庆这个节点放出来。更别说代码里还有动态Top-K稀疏推理、额外KV缓存区这些新机制，既能省算力又能适配多场景，显然是冲着解决行业痛点来的，这种精准的技术突破，没有长期规划根本做不到。 DeepSeek这步棋，其实是在跟整个行业的玩法较劲。现在美国那些AI公司还在拼着砸钱堆算力，DeepSeek偏偏走另一条路，靠算法优化把成本降下来。去年R1训练成本才二十多万美元，是美国同类模型的零头，现在MODEL1更狠，直接把显存占用降了七成，这一下就戳中了很多企业的痛处——不是不想用AI，是用不起贵硬件。他们这么干，就是想把AI技术的门槛再拉低，让更多企业能用得上，这不就是在偷偷抢市场、建生态嘛。你看市场反应就知道这事儿有多炸，消息一出来港股存储股直接闪崩8个点，因为大家怕MODEL1能省显存，高端存储就卖不动了。虽然后来有人解释不是不用存储，是换了更便宜的存储类型，但这也说明MODEL1的影响力多大，DeepSeek一出手就能搅动资本市场，这绝对是早有预判的，不然不可能这么精准地踩中行业和资本的敏感点。还有开源社区这一块，去年R1开源后，中国模型在HuggingFace的下载量都超过美国了，现在MODEL1又放出来，肯定会吸引更多开发者过来，到时候基于它改的模型一多，DeepSeek的生态就更稳了。西方那些模型都开始用DeepSeek-V3当底座，现在再来个更厉害的MODEL1，这不就是要巩固老大地位嘛。而且听说春节前后就要正式发布，到时候正好赶上行业开工，关注度又是一波高峰，这时间线掐得太准了。说穿了，DeepSeek从去年R1开源，到梁文锋发论文，再到MODEL1卡点曝光，每一步都连着呢。他们就是要靠“开源+低成本+精准技术突破”这套组合拳，在中美AI竞赛里走出自己的路，不是跟在美国后面堆算力，而是靠效率和生态赢市场。这哪是巧合，分明是一场蓄谋已久的行业布局，梁文锋这步棋下得是真够深的。

群发资讯网

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔

热门分类

梁文锋又冲上热搜了！ 这次既不是团队内讧也不是技术翻车， 反倒给AI圈扔

热门分类

梁文锋又冲上热搜了！这次既不是团队内讧也不是技术翻车，反倒给AI圈扔