Deepseek V3,R1,Engram,V4,每一项的发布,都是对业内的一记狠狠的耳光。V3提出了MLA,用一种非常巧妙的方式压缩了KV Cache,把它们压缩到一个低维向量中,需要时在还原回去,而且利用矩阵运算的交换律,甚至不需要还原回KV,就可以计算attention的结果。标准attention时代,按照V3的671B参数、128K上下文的体量,KV Cache大约需要224GB----就是一个人,只提一个问题,这个问题打满128K上下文,光KV Cache就需要224GB。这224GB需要频繁的来回搬运,放在GPU的核心中计算,再把计算结果存回去。这么大的KV Cache,放到普通内存或者SSD里面根本来不及搬----想象下,你内存里面有224GB的数据现在需要放到CPU里面计算,这需要内存和CPU之间多大的带宽。所以它只能放在HBM中,即高带宽内存,这玩意就是GPU的最重要的组件之一。它负责存,核心负责算,HBM和计算核心之间的数据传输速度是3TB/S,勉强够传。但这玩意贵啊,一颗H100,只有80GB显存,价格是3万刀。这也就是为什么传统的attention没法把参数搞大,没法把上下文搞大的原因。而HBM的成本是GPU贵的一个关键要素,因为全球,能批量生成HBM的,就三家----三星,美光,海力士。而OpenAI去年一口气买了这三家截止2029年40%的HBM产量。。。这时压缩KV Cache几乎就是业内的头等大事。这时候V3提出了MLA的方案,把KV两个128*56的矩阵,压缩到一个512*1的潜在向量L中,这个L如此的巧妙,可以通过另一个矩阵将K和V还原回来,更精妙的是利用矩阵交换律,在计算时不需要真的还原KV,就可以计算出attention的结果。而且压缩后的损失也很小,毕竟从数学上人家能把KV还原,即实现了无损压缩。在这样的压缩比下,同样671B参数,128K上下文打满的情况下,仅需要9GB的显存。无损压缩到惊人的4%。然后V3开源了。之后的事情大家可能不了解,Kimi的技术报告表示,MLA是如此的巧妙,我们直接用在kimi里了。很快OpenAI O1出现,当时业内一片哀嚎,中必输的言论比比皆是。谁知道仅仅4个月,DS端出了R1,提出了GRPO。R1很多层再说,我这里就不献丑了。简单来讲,O1应该是传统强化学习的路子,找了一堆专家去给同一个问题的不同回答打分,然后排序。让模型朝着打分高的回答逐渐靠拢,但是这些专家是很难找的,需要很高的学历。而GRPO没那个财力,他们把精力专注在数学和代码领域,原因很简单,这两个领域的问题,不需要找专家验证,数学的解答,对就是对,错就是错,而代码,放到环境里能跑对就正确,否则就错误。通过这样的方式,GROP让模型不断地对同一个数学或编程问题进行回答,然后判断它对还是不对,另外它又加上了其它的一些判断,比如思考的长度够不够,某些关键节点答案对不对等等,相当于给了一套人为的判断好坏的标准,然后不断地给回答打分,然后淘汰掉低分,选取高分,让低分高分不断的互相卷。然后又又开源了,不说拯救了全球模型厂商,说是拯救了中国模型厂商一点不为过。然后就是长达一年多的沉寂,在国外模型越来越大,上下文越来越长的时候,国内模型跟进已经很吃力了。在25年11月,google正式进入了1M上下文时代,随后26年的2、3月,Anthropic和OpenAI也相继进入了1M上下文时代。1M上下文,换算过来,差不多就是120~150W汉字,能吃下整部三体三部曲还有一部分富余。彼时国内的各大厂商,虽然参数提到了1T,但上下文还在256K以下挣扎。一个冰冷的事实就是,之前MLA的压缩率已经不够了,128K时需要9GB,扩展到1M就需要70GB了。也就是说,只需要一个人,扔进去一部三体三部曲,模型服务商就需要提供70GB的显存去做KV Cache。现实是至少几万人在同时往里扔三体,西游,金庸,刘备文,各种祖传屎山代码......然后4月底,V4出来了。1.6T的参数,应该是全球最大的开源模型,以及万众期待的1M上下文。这次它摒弃了MLA,因为成本太高,它换成了CSA+HCA。因为MLA是对单个token的KV进行压缩,而1M上下文,就不能从单个token压缩去考量,而是要考虑同时压缩多个token。所以CSA将4个token压缩成一个512*1的向量,而HCA更是将128个token压缩成一个512向量,让两种压缩相互交叉,再结合之前发布的mHC多路残差的技术,让这种压缩极大的保留了原句的关键信息又达到了夸张地压缩比。最终V4将1M上下文,从70GB压缩到了恐怖的4GB。即,一个人打满1M上下文,需要提供4GB的显存存储KV Cache。1颗H100,够20个人打满上下文,这是一个完全可以商业化的方案,绝对可以对标国外的顶级闭源模型。你以为接下来的故事,就是它继续开源,然后全球其它厂商的模型也顺利来到了1M上下文的时代了吗?那你就太天真了。DS一想,4GB的KV Cache,还需要存到HBM里面吗,商用的SSD,带宽速度6~12GB/S,传4GB的KV Cache,也就0.6秒,速度完全可以接受,而且SSD容量可以达到30TB。最重要的,SSD什么价格~~~相同容量的价格大约是H100的0.67%,相当于黄金和黄瓜的区别。于是它一边开源,一边将自己的缓存命中价格(也就是用户的提示词,前面有一部分和之前出现的提示词相同,它就能用到这些KV Cache)拉到可怕的2分钱/百万,当然,小米跟DS是同时发布的,小米也是1M上下文,也开源,但罗福莉本人就带着DS的标签,就很难评。DS后续的开源,发技术报告,降价一气呵成,然后事了拂衣去深藏身与名。DS的这个2分钱的缓存命中价,用一句不好听的话说,就是个友情价,他的意思就是“亲爱的DS,你的车速太快,请停下来,等一等你的友商们啊,别把他们一下拍死了”,实际上,这个价格再降90%甚至99%,都有得赚。。。其它厂商呢?哀嚎吗?哭泣吗?没时间等你哭泣,通宵抄吧,闭源又怎么样,你还能比OpenAI和Anthropic厉害?闭源抄开源,别写进报告里,他不丢人,总比死了好。难道你还能找到比csa+hca+mhc+SSD更好的压缩方案吗?可问题是什么?DS说它是开源的,但它是不是可以选择将一些小小的trick不开源?那小小的不开源的trick,将会导致你的成本根本没它那么低。但友商有的选吗?我特别期待某些团队能在评论区打我的脸,让我这个DS吹能得到一些安慰----毕竟这两年多,我真的对某些大厂的大模型团队相当失望。所以对我来说,我不是针对Qwen,我是说,在座的各位,都是乐色