Deepseek V3，R1，Engram，V4，每一项的发布，都是对业内的一记

Deepseek V3，R1，Engram，V4，每一项的发布，都是对业内的一记狠狠的耳光。V3提出了MLA，用一种非常巧妙的方式压缩了KV Cache，把它们压缩到一个低维向量中，需要时在还原回去，而且利用矩阵运算的交换律，甚至不需要还原回KV，就可以计算attention的结果。标准attention时代，按照V3的671B参数、128K上下文的体量，KV Cache大约需要224GB----就是一个人，只提一个问题，这个问题打满128K上下文，光KV Cache就需要224GB。这224GB需要频繁的来回搬运，放在GPU的核心中计算，再把计算结果存回去。这么大的KV Cache，放到普通内存或者SSD里面根本来不及搬----想象下，你内存里面有224GB的数据现在需要放到CPU里面计算，这需要内存和CPU之间多大的带宽。所以它只能放在HBM中，即高带宽内存，这玩意就是GPU的最重要的组件之一。它负责存，核心负责算，HBM和计算核心之间的数据传输速度是3TB/S，勉强够传。但这玩意贵啊，一颗H100，只有80GB显存，价格是3万刀。这也就是为什么传统的attention没法把参数搞大，没法把上下文搞大的原因。而HBM的成本是GPU贵的一个关键要素，因为全球，能批量生成HBM的，就三家----三星，美光，海力士。而OpenAI去年一口气买了这三家截止2029年40%的HBM产量。。。这时压缩KV Cache几乎就是业内的头等大事。这时候V3提出了MLA的方案，把KV两个128*56的矩阵，压缩到一个512*1的潜在向量L中，这个L如此的巧妙，可以通过另一个矩阵将K和V还原回来，更精妙的是利用矩阵交换律，在计算时不需要真的还原KV，就可以计算出attention的结果。而且压缩后的损失也很小，毕竟从数学上人家能把KV还原，即实现了无损压缩。在这样的压缩比下，同样671B参数，128K上下文打满的情况下，仅需要9GB的显存。无损压缩到惊人的4%。然后V3开源了。之后的事情大家可能不了解，Kimi的技术报告表示，MLA是如此的巧妙，我们直接用在kimi里了。很快OpenAI O1出现，当时业内一片哀嚎，中必输的言论比比皆是。谁知道仅仅4个月，DS端出了R1，提出了GRPO。R1很多层再说，我这里就不献丑了。简单来讲，O1应该是传统强化学习的路子，找了一堆专家去给同一个问题的不同回答打分，然后排序。让模型朝着打分高的回答逐渐靠拢，但是这些专家是很难找的，需要很高的学历。而GRPO没那个财力，他们把精力专注在数学和代码领域，原因很简单，这两个领域的问题，不需要找专家验证，数学的解答，对就是对，错就是错，而代码，放到环境里能跑对就正确，否则就错误。通过这样的方式，GROP让模型不断地对同一个数学或编程问题进行回答，然后判断它对还是不对，另外它又加上了其它的一些判断，比如思考的长度够不够，某些关键节点答案对不对等等，相当于给了一套人为的判断好坏的标准，然后不断地给回答打分，然后淘汰掉低分，选取高分，让低分高分不断的互相卷。然后又又开源了，不说拯救了全球模型厂商，说是拯救了中国模型厂商一点不为过。然后就是长达一年多的沉寂，在国外模型越来越大，上下文越来越长的时候，国内模型跟进已经很吃力了。在25年11月，google正式进入了1M上下文时代，随后26年的2、3月，Anthropic和OpenAI也相继进入了1M上下文时代。1M上下文，换算过来，差不多就是120~150W汉字，能吃下整部三体三部曲还有一部分富余。彼时国内的各大厂商，虽然参数提到了1T，但上下文还在256K以下挣扎。一个冰冷的事实就是，之前MLA的压缩率已经不够了，128K时需要9GB，扩展到1M就需要70GB了。也就是说，只需要一个人，扔进去一部三体三部曲，模型服务商就需要提供70GB的显存去做KV Cache。现实是至少几万人在同时往里扔三体，西游，金庸，刘备文，各种祖传屎山代码......然后4月底，V4出来了。1.6T的参数，应该是全球最大的开源模型，以及万众期待的1M上下文。这次它摒弃了MLA，因为成本太高，它换成了CSA+HCA。因为MLA是对单个token的KV进行压缩，而1M上下文，就不能从单个token压缩去考量，而是要考虑同时压缩多个token。所以CSA将4个token压缩成一个512*1的向量，而HCA更是将128个token压缩成一个512向量，让两种压缩相互交叉，再结合之前发布的mHC多路残差的技术，让这种压缩极大的保留了原句的关键信息又达到了夸张地压缩比。最终V4将1M上下文，从70GB压缩到了恐怖的4GB。即，一个人打满1M上下文，需要提供4GB的显存存储KV Cache。1颗H100，够20个人打满上下文，这是一个完全可以商业化的方案，绝对可以对标国外的顶级闭源模型。你以为接下来的故事，就是它继续开源，然后全球其它厂商的模型也顺利来到了1M上下文的时代了吗？那你就太天真了。DS一想，4GB的KV Cache，还需要存到HBM里面吗，商用的SSD，带宽速度6~12GB/S，传4GB的KV Cache，也就0.6秒，速度完全可以接受，而且SSD容量可以达到30TB。最重要的，SSD什么价格~~~相同容量的价格大约是H100的0.67%，相当于黄金和黄瓜的区别。于是它一边开源，一边将自己的缓存命中价格（也就是用户的提示词，前面有一部分和之前出现的提示词相同，它就能用到这些KV Cache）拉到可怕的2分钱/百万，当然，小米跟DS是同时发布的，小米也是1M上下文，也开源，但罗福莉本人就带着DS的标签，就很难评。DS后续的开源，发技术报告，降价一气呵成，然后事了拂衣去深藏身与名。DS的这个2分钱的缓存命中价，用一句不好听的话说，就是个友情价，他的意思就是“亲爱的DS，你的车速太快，请停下来，等一等你的友商们啊，别把他们一下拍死了”，实际上，这个价格再降90%甚至99%，都有得赚。。。其它厂商呢？哀嚎吗？哭泣吗？没时间等你哭泣，通宵抄吧，闭源又怎么样，你还能比OpenAI和Anthropic厉害？闭源抄开源，别写进报告里，他不丢人，总比死了好。难道你还能找到比csa+hca+mhc+SSD更好的压缩方案吗？可问题是什么？DS说它是开源的，但它是不是可以选择将一些小小的trick不开源？那小小的不开源的trick，将会导致你的成本根本没它那么低。但友商有的选吗？我特别期待某些团队能在评论区打我的脸，让我这个DS吹能得到一些安慰----毕竟这两年多，我真的对某些大厂的大模型团队相当失望。所以对我来说，我不是针对Qwen，我是说，在座的各位，都是乐色

群发资讯网

Deepseek V3，R1，Engram，V4，每一项的发布，都是对业内的一记

热门分类