
云与 AI 原生技术会议围绕大语言模型 (LLM) 训练与推理两大主题,其中 LLM 推理主题汇集腾讯、NVIDIA、快手、阿里云、美团等行业先锋,分享 Hopper 架构长文本推理优化、DeepSeek 模型全栈加速、DiT 视频推理新方案、全局 KV Cache 高效推理、Dynamo Router 协同设计等前沿实践。从性能突破到落地案例,解锁 LLM 推理效率提升的核心密码,助力 AI 应用高效落地。立即观看,获取头部企业的推理实操干货!
推荐演讲
基于 NVIDIA Hopper 架构的
LLM 长文本推理场景
性能优化实践和探索
会议代码:S81986
会议时间:3 月 17 日上午 10:00 - 10:50(北京时间)
演讲嘉宾:
向乾彪 | 腾讯 AI 推理架构师
会议内容:
在腾讯混元大模型支持的各项服务中,长文本请求消耗的 GPU 计算资源占比高达 60%。随着深度搜索 (DeepSearch) 与智能体 (Agent) 技术的兴起,长文本处理已成为大模型推理服务的主要成本负担与优化核心方向。为此,我们针对长文本场景落地实施了稀疏注意力机制、并行计算策略及键值缓存 (KV Cache) 优化等一系列技术方案,不仅取得了显著的性能提升,还有效降低了线上长文本推理的部署成本。
利用 NVIDIA Dynamo Router 的
LongCat-Flash 高效推理案例研究:
面向智能体时代的模型-系统协同设计
会议代码:S81943
会议时间:3 月 18 日上午 10:00 - 11:00(北京时间)
演讲嘉宾:
钱玉磊 | 美团研发工程师
会议内容:
聚焦 LongCat-Flash 560B MoE 模型的系统级协同设计实践,展示如何实现面向 Agent 场景的极低延时与高性价比推理。在多层次并行调度与动态算子融合的支撑下,LongCat-Flash 在单用户 100 TPS 的高并发场景中,以每百万输出 token 仅 0.7 美元的成本,达成吞吐与成本的最优平衡。该架构通过结构相关的算子编排策略,充分调度 NVLink 高速互连、NIC 网络接口卡、GPU 计算单元及内存带宽等异构资源,构建高吞吐、低延时的推理系统。依托 NVIDIA Dynamo router 等关键组件,系统在生产环境中实现高可用性与动态容错能力,稳态维持推理服务的 SLA 一致性,为智能体时代的大规模推理服务提供可落地的通用范式。
基于全局 KV Cache 存储系统的
高效 LLM 推理加速方案
会议代码:S82360
会议时间:3 月 18 日下午 14:00 - 14:50(北京时间)
演讲嘉宾:
张顺康 | NVIDIA GPU 计算专家团队 (DevTech) 工程师
张为 | 阿里云智能集团资深技术总监
会议内容:
KV Cache 通过“以存储换计算”的方式显著提升了大语言模型 (LLM) 的推理效率。然而,受限于高带宽内存 (HBM) 容量有限且成本高昂,将 KV Cache 扩展至外部高性能存储系统已成为关键优化方向。围绕与 NVIDIA 联合开展的系统级协同优化工作,在满足服务等级目标 (SLO) 的前提下,针对 LLM 推理中动态变化的工作负载,提出一套端到端的全局 KV Cache 解决方案。该方案涵盖:推理引擎与远程存储的深度集成优化,全局 KV Cache 元数据的统一管理与配置策略,面向 KV Cache 访问模式定制的远程存储架构设计。在典型 LLM 推理场景中,该方案实现了显著性能与成本收益:Cache 命中率提升 39%,P99 延迟降低 78%,单位 token 的计算与存储综合成本降至原来的 24%(即降低 76%)。
GTC 2026 线上注册参会攻略
点击链接查看 GTC 2026 注册教程,提前完成线上注册,并将您感兴趣的会议添加进日程:
GTC2026 | 一图解锁线上注册参会全攻略,赢 NVIDIA 定制好礼!
点击链接,了解云与 AI 原生技术会议详情: