业界首个！记忆张量联手商汤大装置落地国产 PD 分离集群，推理性价比达 A100 的 150%

近日，记忆张量联合商汤大装置宣布，在国产GPGPU上率先跑通业内首个以“记忆—计算—调度”一体化为核心的PD分离商用推理集群。在真实C端负载下实现了单卡并发效率提升20%、吞吐提升75%，综合推理性价比达到同代NVIDIA A100的150%。这一成果标志着国产算力体系在大模型商业化路径上首次具备“体系级”竞争力，为高性能模型的大规模落地打开了全新的降本增效空间。

结构共振让 PD 分离从优化技巧走向推理范式

记忆张量旗下核心产品MemOS作为业内唯一一家以记忆为中心，覆盖从底层推理、到记忆模型，再到应用工程进行系统设计的记忆基础设施，将大模型的认知结构划分为三类记忆，并形成了一条跨时间尺度的调度链路，可以进行精细的决策：哪些计算应该前移到Prefill，哪些必须留在Decode，以及任务的保留、降级或淘汰等。

显然，MemOS更适合和PD分离进行结合——它拥有一整套可以“决定如何用这条通道”的调度逻辑，从而把PD分离原本有限的收益空间尽可能压榨到极致。

在本次联合方案中，商汤大装置提供了让MemOS 三层记忆结构拥有物理载体的顶层系统级基础设施。依托商汤大装置IaaS的高效算力池、智能算力调度等为模型推理提供稳定的基础设施支撑；并借助Ignite框架提供多后端推理适配、KV Cache管理优化、关键算子加速、跨节点通信调优等性能增强，形成体系化的推理优化链路；同时，商汤万象MaaS平台的统一调度策略确保Prefill与Decode服务在高并发场景下始终稳定运行。

在商汤大装置的某国产GPGPU集群上，MemOS的记忆结构被映射成了非常清晰的物理分工：

● P域（Prefill Domain）变成真正的“记忆工厂”，集中承载影子上下文的预测与KV Cache的批量预生成，在P域以高并行、高利用率的方式运行；

● D域（Decode Domain）则被打造为纯粹的“实时交互前台”，专注处理真实用户请求的解码过程，在保持超低TTFT的前提下，承担起R1这一类大模型在C端场景的连续输出与稳定响应；

● 跨节点KV Cache则通过高带宽互联与零拷路径实现“即产即用”，MemOS的激活记忆机制与商汤大装置在某国产GPGPU上打磨出的通信能力形成天然互补，使Prefill产生的KV Cache不再成为传输瓶颈，而是以极低开销进入D域的解码流程中。

这次合作是一次体系级的结构共振：PD分离为MemOS打开了一条真正意义上的高速算力通道，而MemOS则为PD分离提供了精细到记忆单元级别的调度逻辑和业务上下文，基于此，PD分离第一次从一个工程团队内部的“性能小技巧”，变成一套可以被完整描述、完整度量、并在生产环境中长期运行的新推理范式。

综合推理性价比达到同代NVIDIA A100的150%左右

在严格的生产级评测口径下——包括2k输入、1k输出、TTFT＜2s 的SLA约束、72小时以上稳态运行、统一的限流与负载生成策略——记忆张量与商汤大装置联合打造的国产GPGPU集群交出了这样一张答卷：

● 集群整体吞吐量提升超过75%，从Naive部署下的107.85 tokens/s提升到189.23 tokens/s，Prefill与Decode真正做到了算/存解耦；

● 单卡并发能力提升约20%，从25.00并发/卡提升至29.42并发/卡，高峰期排队与溢出的风险明显降低；

● 并且，得益于 Prefill 全量前移和 D 域职责的单一化，TTFT全程稳定小于2秒；KV Cache在热门场景中的命中率提升70%+，这使得需要高频、多轮交互的C端应用，具备了极高的预计算复用率，推理成本被进一步摊薄。

在统一财务与技术口径下，综合推理性价比达到同代NVIDIA A100的150%左右，在严格SLA与相同负载结构下，某国产GPGPU在这一套“记忆原生×PD分离×业务调度”的框架中，第一次实现了对A100的体系级正面超越。

打造记忆原生时代的国产AI基础设施新范式

未来，记忆张量与商汤将在这一范式之上继续深化合作：

● 一方面，围绕更大规模的国产GPGPU集群，构建真正意义上的记忆驱动流水线推理底座，让“影子上下文—激活记忆—PD分离—多级缓存—AIOps”成为一套可观测、可回滚、可演进的基础设施能力；

● 另一方面，在Prefill行为预测自治化、多级激活记忆管理、跨任务长时记忆一致性、面向Agent的轨迹记忆等方向上持续打磨，让这套范式更能承载未来的伴随式AI、具身智能体以及更复杂的长周期任务编排。

从更长远的视角看，这次联合实践带来的最大改变是：国产算力体系第一次拥有了另一条面向未来智能形态的可能“结构性路线”：从参数计算走向记忆计算，从静态推理走向动态流水线，从模型中心走向记忆中心。未来，国产GPGPU不再只是“跟上来”的参与者，而完全有机会成为下一代推理范式的定义者之一。

群发资讯网

业界首个！记忆张量联手商汤大装置落地国产 PD 分离集群，推理性价比达 A100 的 150%

热门分类