周日看了一上午智谱GLM-5.2的技术报告。
说实话1M上下文这个技术方向,底层实现比看起来有意思得多。不是"把窗口开大"这么简单——注意力计算的复杂度跟序列长度是平方关系。1M vs 128K,不是8倍的问题,是64倍计算量的问题。
MiniMax M3用了块状稀疏注意力来解决这个——只关注最重要的KV块,计算量降了28.4倍。GLM的路线应该是类似的思路。
这些技术细节外人可能不关心,但做这行的人知道——1M上下文如果真的好用且推理成本可控,它会改变很多产品的架构设计。RAG可能不需要那么复杂了,长文档不需要切片了。
下周实测见真章。AI 技术 GLM 长上下文