[LG]《Accelerating Large-Scale Reasoning

[LG]《Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding》Y Zhao, J Tang, K Zhu, Z Ye... [UC Berkeley & MIT & University of Washington] (2025) 随着推理语言模型（RLMs）在复杂任务中展现出卓越能力，其自动回归生成的长序列输出使推理瓶颈从计算转向内存带宽。每生成一个新词元，模型必须访问一个不断扩大的KV-Cache，导致内存访问呈二次方增长，严重制约了批量推理性能。为解决这一瓶颈，本文提出SparseSpec，一种无需额外训练、基于自我推测的稀疏注意力推理加速框架。SparseSpec创新设计了动态稀疏注意力机制PillarAttn，利用验证阶段（全注意力计算）中获得的注意力分数动态选取关键词元，实现高精度草稿生成。该机制不仅极大减少了KV-Cache访问量，还保持了极高的草稿接受率。除此之外，SparseSpec还联合设计了三大系统优化：统一批次调度器有效平衡草稿与验证阶段的资源使用，延迟验证机制打破CPU与GPU同步瓶颈，实现异步重叠计算，以及动态KV-Cache管理策略，允许高效地将缓存块异步卸载至主机内存，最大化GPU内存利用率。实测表明，SparseSpec在多个模型（包括Qwen3系列）和真实推理任务（如AIME、OlympiadBench、LiveCodeBench）上，较现有最优框架vLLM提升最高2.13倍吞吐量。与其他训练免费方法相比，吞吐率分别提升最高1.56倍至1.76倍。性能提升主要得益于PillarAttn精准的动态稀疏注意力和系统级的负载均衡设计。理论和实践均证明，稀疏自我推测能显著降低内存访问压力，提升长序列生成效率。SparseSpec的关键洞见在于充分利用推理模型自身的注意力分布动态，突破传统静态稀疏限制，实现“无训练开销”的高效加速。未来，SparseSpec可与多令牌预测等轻量级草稿方法结合，进一步推动推理模型在训练和部署阶段的性能极限。其设计理念和优化策略也对多专家模型（MoE）等架构具有良好适配性。总结一句话：在长序列推理时代，SparseSpec用动态稀疏自我推测开启了推理模型推理加速的新纪元，兼顾高效与无损，是推动大规模智能应用的关键技术突破。原文链接：arxiv.org/abs/2512.01278

群发资讯网

[LG]《Accelerating Large-Scale Reasoning

热门分类