存储芯片板块暴跌原因QurboQuant这不是这几天才突然冒出来的新东西
TurboQuant这篇论文最早在arXiv上公开是2025年4月28日,只不过GoogleResearch在2026年3月24日重新发了博客,顶多算是“旧技术被Google官方重新放大”。
单从论文本身看,讲的主要是是怎么把LLM推理里的KVcache和向量检索压缩到更低bit宽,降低内存占用降。乍一听确实利空存储,但是把KVcache压缩、长上下文优化,国内一直做的很多,比如月之暗面KimiLinear,在1Mcontext下,KVcache使用可降最多75%;DeepSeek早在V2提出的MLA也是压缩KVcache;开源推理框架vLLM也长期支持QuantizedKVCache/FP8KVCache。
压缩KVcache本来就是全球普遍在做的事,从未停止过。