TPU惹急黄仁勋，200亿美元拿下「TPU之父」核心团队、技术授权

编辑｜张倩、+0

在被谷歌 TPU 挑战霸主地位后，英伟达终于急了？

今天，人工智能芯片初创公司 Groq 发布了一则重磅消息，他们已经与英伟达就 Groq 的推理技术达成了非排他性许可协议。

这个协议并不是说英伟达要把 Groq 买下来，而是挖走 Groq 的几员大将 —— 创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 及多名核心工程师。要知道，Jonathan Ross 曾在谷歌主导 TPU 的开发。2016 年底，他从谷歌离职，并带走了当时 TPU 核心 10 人团队中的 7 位。这批人带走了 TPU 最核心的技术理念和设计经验，在加州山景城共同创办了 AI 芯片公司 Groq。

这批人和他们的知识产权有多值钱？看看交易额就知道了。据 Groq 投资者、Disruptive Technology Advisers 的首席执行官 Alex Davis 透露，这笔交易价值约 200 亿美元，这比该初创公司 9 月份的估值还高出 131 亿美元。

交易过后，Groq 将继续作为独立公司运营，由首席财务官 Simon Edwards 接任 CEO，其 GroqCloud 云服务也将正常运行。

通过这种方式，英伟达可以在不直接购买的情况下获得初创企业的人才和技术，被称为 Reverse Acquihire（反向收购雇佣）。这种方式避免了与传统收购相关的反垄断审查。在过去三年中，微软、Meta 等科技巨头已经达成了多项此类交易，以推进其人工智能发展路线图。

Groq 最引人注目的是其自主研发的 LPU（语言处理单元）芯片。与英伟达主导的 GPU 不同，LPU 专为 AI 推理场景设计，号称运行大语言模型的速度可达 GPU 的 10 倍，能耗却只有十分之一。而这正是英伟达所需要的，因为 TPU 之所以能挑战英伟达的霸主地位，「能耗、延迟方面能打」是一个关键优势。

英伟达 CEO 黄仁勋在内部邮件中表示，计划将 Groq 的低延迟处理器整合到英伟达 AI 工厂架构中，以支持更广泛的 AI 推理和实时工作负载。

TPU 之父带队

Groq 用 LPU 闯出一片天

Groq 成立于 2016 年，其诞生源于对传统计算架构的深刻反思。创始人 Jonathan Ross 曾师从 Yann LeCun，后来在 Google 任职。他参与了谷歌 TPU 项目（当时为 20% 项目），负责设计和实现第一代 TPU 芯片的核心组件。TPU 的成功证明了专用架构在 AI 计算上的巨大潜力，也成为了 Groq 技术的起点。

Google 有一个著名的「20% 自由时间」文化，允许工程师用工作时间的 20% 去做自己感兴趣、但并非老板指派的「私活」或「创新项目」。

Ross 认为，传统的 CPU 和 GPU 架构为了兼顾图形渲染和通用计算，保留了复杂的缓存管理、分支预测及动态硬件调度。这些设计虽然提高了通用性，但导致了计算性能的不可预测性，并非 AI 推理的必要组件。基于此，Groq 确立了「软件定义的确定性」这一核心理念。

LPU（Language Processing Unit）摒弃了传统的硬件调度器，改由编译器在编译阶段精确计算每一步数据的流动和时序。这种设计消除了「缓存未命中」和「分支预测失败」的风险，核心计算单元 TSP（Tensor Streaming Processor）采用流式处理模式，确保数据如流水线般处理，没有任何闲置周期。

在存储方案上，Groq 未采用 Nvidia GPU 常用的高带宽内存（HBM），而是将静态随机存取存储器（SRAM）直接集成在芯片内部。这种设计使单芯片内存带宽高达 80TB/s，是传统 HBM 方案的 20 倍以上。尽管 SRAM 占地面积大导致单芯片容量极小（约 230MB），但其极高的带宽允许 LPU 在 Batch Size 为 1（即单次处理一个请求）的情况下依然保持计算单元满载，从而实现极低的延迟。

由于单芯片内存有限，运行 Llama 3 70B 这样的大模型通常需要数百张芯片级联。为此，Groq 研发了 RealScale 互联技术。该技术不依赖传统的网络交换机，而是通过直接线缆连接，并解决了「晶振漂移」导致的时钟不同步问题。在这一架构下，整个集群实现了全局时钟同步，数百张芯片宛如一枚巨大的虚拟芯片协同工作。

得益于上述设计，Groq 在处理大语言模型时展现出差异化的性能优势：在 Llama 系列模型的推理中，其响应速度可达每秒 500 Tokens（相比之下 ChatGPT 约为 40 Tokens/s），且几乎没有延迟抖动，在实时交互场景中建立了独特的竞争壁垒。

但为了换取这种极致速度，Groq 方案在物理空间和功耗上付出了代价：一个标准机架满载功耗约为 26kW 至 30kW，且需要比 GPU 方案更多的机架数量来承载同等规模的模型参数。

TPU 步步紧逼

英伟达急了？

英伟达这次的大手笔属于形势所迫，因为他们的 AI 芯片霸主地位正面临严峻挑战。

目前，AI 算力市场的需求正从训练转向推理。预计到 2030 年，推理将占 AI 计算总量的 75%，市场规模达 2550 亿美元。但在推理方面，英伟达的芯片并不具备绝对优势，面临谷歌 TPU、Groq LPU 等多方面竞争。

先来说谷歌 TPU。此前，SemiAnalysis 的一篇文章报道称，谷歌新出的 TPU v7 实现了很高的实际模型算力利用率，总体拥有成本比英伟达 GB200 系统低约 30%～40%。也就是说，用上 TPU 之后，企业可以省一大笔钱。而且，谷歌的 TPU 不再局限于自家使用，而是开始大规模出货，预计 2027 年实现年产 500 万颗的目标。

市场的反应也能说明一切：2025 年 10 月，Anthropic 协议通过多达 100 万个 TPU 获取超过 10 亿瓦的谷歌算力；11 月，Meta 开始洽谈于 2027 年在其数据中心使用谷歌 TPU。这样的转向足以给英伟达带来压力。

除了谷歌，Groq 也是不容小觑的竞争对手。早期 Groq 保持相对低调。但随着 2023 年至 2024 年生成式 AI 市场的爆发，行业重心从训练端向推理端延伸，Groq 凭借在模型推理上的速度优势受到关注，资本市场随即跟进。

最引人注目的是，今年 2 月，Groq 与沙特阿美数字公司签订 15 亿美元协议，合作建设全球最大 AI 推理数据中心，初期部署 19000 个 LPU 处理器。2025 年 12 月，Groq 又签署协议加入美国 AI「创世纪计划」，成为 24 家签署公司之一。

今年 9 月，Groq 刚刚完成 7.5 亿美元融资，估值达到 69 亿美元。公司透露，其平台已服务超过 200 万名开发者，较去年的 35.6 万人增长了五倍多。

这些重要事件彰显了 Groq 在 AI 芯片领域的潜力以及团队的硬核研发能力，足以让英伟达动心。

在这场交易之后，英伟达的霸主地位是否可以巩固？我们拭目以待。

参考链接：

https://groq.com/blog/the-groq-lpu-explained

https://news.ycombinator.com/item?id=39431989

https://groq.com/blog/the-groq-lpu-explained

群发资讯网

TPU惹急黄仁勋，200亿美元拿下「TPU之父」核心团队、技术授权

热门分类