梁文锋又冲上热搜了! 这次既不是团队内讧也不是技术翻车, 反倒给AI圈扔了颗惊雷。而是他们居然又开发了新的模型!1月21日外媒曝光,梁文锋在DeepSeek发布推理模型R1一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。 说白了,MODEL1在开源社区悄然露头,恰逢R1模型周年庆,这绝非偶然为之的巧合,而是DeepSeek蓄谋已久的布局。 先说说这时间点多会挑,一年前R1模型横空出世,靠低成本推理直接在AI圈炸了锅,现在刚满一年,行业里正盯着DeepSeek要搞什么新动作呢,MODEL1就这么“悄无声息”地出现在开源社区,这不就是故意给行业放信号嘛。 你想啊,要是真不想声张,完全能藏得更隐蔽,何苦在R1周年庆这个节骨眼让代码痕迹露出来?分明是借去年R1攒下的名气,再掀一波热度,这算盘打得也太精了。 而且这模型绝不是临时赶工出来的,早有铺垫。梁文锋1月12号就发了篇论文,讲的是个叫Engram的“条件记忆模块”,核心就是不让所有数据都挤在贵得要死的GPU显存里,把记忆功能转到更便宜的存储设备上,绕开硬件限制。 现在MODEL1的代码里全是这路子的优化,什么KV缓存调整、FP8稀疏解码,说白了就是让模型记东西更省地方、算得更快,跟论文里的思路一模一样。 这就很清楚了,论文是提前放风,代码曝光是跟进造势,一步步都是设计好的,哪是什么突然冒出来的新东西。 再看技术细节,这模型跟之前的V3系列完全是两条路子,代码里专门适配了英伟达新芯片,还能兼容国产芯片,连内存调度的细节都定死了,KV缓存的内存stride要求576B的整数倍,跟V3.2的656B差得清清楚楚。 这些底层架构的改动可不是一两天能搞定的,肯定是团队闷头开发了好久,就等着在R1周年庆这个节点放出来。 更别说代码里还有动态Top-K稀疏推理、额外KV缓存区这些新机制,既能省算力又能适配多场景,显然是冲着解决行业痛点来的,这种精准的技术突破,没有长期规划根本做不到。 DeepSeek这步棋,其实是在跟整个行业的玩法较劲。现在美国那些AI公司还在拼着砸钱堆算力,DeepSeek偏偏走另一条路,靠算法优化把成本降下来。 去年R1训练成本才二十多万美元,是美国同类模型的零头,现在MODEL1更狠,直接把显存占用降了七成,这一下就戳中了很多企业的痛处——不是不想用AI,是用不起贵硬件。他们这么干,就是想把AI技术的门槛再拉低,让更多企业能用得上,这不就是在偷偷抢市场、建生态嘛。 你看市场反应就知道这事儿有多炸,消息一出来港股存储股直接闪崩8个点,因为大家怕MODEL1能省显存,高端存储就卖不动了。 虽然后来有人解释不是不用存储,是换了更便宜的存储类型,但这也说明MODEL1的影响力多大,DeepSeek一出手就能搅动资本市场,这绝对是早有预判的,不然不可能这么精准地踩中行业和资本的敏感点。 还有开源社区这一块,去年R1开源后,中国模型在HuggingFace的下载量都超过美国了,现在MODEL1又放出来,肯定会吸引更多开发者过来,到时候基于它改的模型一多,DeepSeek的生态就更稳了。 西方那些模型都开始用DeepSeek-V3当底座,现在再来个更厉害的MODEL1,这不就是要巩固老大地位嘛。 而且听说春节前后就要正式发布,到时候正好赶上行业开工,关注度又是一波高峰,这时间线掐得太准了。 说穿了,DeepSeek从去年R1开源,到梁文锋发论文,再到MODEL1卡点曝光,每一步都连着呢。 他们就是要靠“开源+低成本+精准技术突破”这套组合拳,在中美AI竞赛里走出自己的路,不是跟在美国后面堆算力,而是靠效率和生态赢市场。这哪是巧合,分明是一场蓄谋已久的行业布局,梁文锋这步棋下得是真够深的。
