群发资讯网

GTC2026 | 立即预约!解锁 LLM 推理新范式

云与 AI 原生技术会议围绕大语言模型 (LLM) 训练与推理两大主题,其中 LLM 推理主题汇集腾讯、NVIDIA、快

云与 AI 原生技术会议围绕大语言模型 (LLM) 训练与推理两大主题,其中 LLM 推理主题汇集腾讯、NVIDIA、快手、阿里云、美团等行业先锋,分享 Hopper 架构长文本推理优化、DeepSeek 模型全栈加速、DiT 视频推理新方案、全局 KV Cache 高效推理、Dynamo Router 协同设计等前沿实践。从性能突破到落地案例,解锁 LLM 推理效率提升的核心密码,助力 AI 应用高效落地。立即观看,获取头部企业的推理实操干货!

推荐演讲

基于 NVIDIA Hopper 架构的

LLM 长文本推理场景

性能优化实践和探索

会议代码:S81986

会议时间:3 月 17 日上午 10:00 - 10:50(北京时间)

演讲嘉宾:

向乾彪 | 腾讯 AI 推理架构师

会议内容:

在腾讯混元大模型支持的各项服务中,长文本请求消耗的 GPU 计算资源占比高达 60%。随着深度搜索 (DeepSearch) 与智能体 (Agent) 技术的兴起,长文本处理已成为大模型推理服务的主要成本负担与优化核心方向。为此,我们针对长文本场景落地实施了稀疏注意力机制、并行计算策略及键值缓存 (KV Cache) 优化等一系列技术方案,不仅取得了显著的性能提升,还有效降低了线上长文本推理的部署成本。

利用 NVIDIA Dynamo Router 的

LongCat-Flash 高效推理案例研究:

面向智能体时代的模型-系统协同设计

会议代码:S81943

会议时间:3 月 18 日上午 10:00 - 11:00(北京时间)

演讲嘉宾:

钱玉磊 | 美团研发工程师

会议内容:

聚焦 LongCat-Flash 560B MoE 模型的系统级协同设计实践,展示如何实现面向 Agent 场景的极低延时与高性价比推理。在多层次并行调度与动态算子融合的支撑下,LongCat-Flash 在单用户 100 TPS 的高并发场景中,以每百万输出 token 仅 0.7 美元的成本,达成吞吐与成本的最优平衡。该架构通过结构相关的算子编排策略,充分调度 NVLink 高速互连、NIC 网络接口卡、GPU 计算单元及内存带宽等异构资源,构建高吞吐、低延时的推理系统。依托 NVIDIA Dynamo router 等关键组件,系统在生产环境中实现高可用性与动态容错能力,稳态维持推理服务的 SLA 一致性,为智能体时代的大规模推理服务提供可落地的通用范式。

基于全局 KV Cache 存储系统的

高效 LLM 推理加速方案

会议代码:S82360

会议时间:3 月 18 日下午 14:00 - 14:50(北京时间)

演讲嘉宾:

张顺康 | NVIDIA GPU 计算专家团队 (DevTech) 工程师

张为 | 阿里云智能集团资深技术总监

会议内容:

KV Cache 通过“以存储换计算”的方式显著提升了大语言模型 (LLM) 的推理效率。然而,受限于高带宽内存 (HBM) 容量有限且成本高昂,将 KV Cache 扩展至外部高性能存储系统已成为关键优化方向。围绕与 NVIDIA 联合开展的系统级协同优化工作,在满足服务等级目标 (SLO) 的前提下,针对 LLM 推理中动态变化的工作负载,提出一套端到端的全局 KV Cache 解决方案。该方案涵盖:推理引擎与远程存储的深度集成优化,全局 KV Cache 元数据的统一管理与配置策略,面向 KV Cache 访问模式定制的远程存储架构设计。在典型 LLM 推理场景中,该方案实现了显著性能与成本收益:Cache 命中率提升 39%,P99 延迟降低 78%,单位 token 的计算与存储综合成本降至原来的 24%(即降低 76%)。

GTC 2026 线上注册参会攻略

点击链接查看 GTC 2026 注册教程,提前完成线上注册,并将您感兴趣的会议添加进日程:

GTC2026 | 一图解锁线上注册参会全攻略,赢 NVIDIA 定制好礼!

点击链接,了解云与 AI 原生技术会议详情: