群发资讯网

TPU惹急黄仁勋,200亿美元拿下「TPU之父」核心团队、技术授权

编辑|张倩、+0 在被谷歌 TPU 挑战霸主地位后,英伟达终于急了? 今天,人工智能芯片初创公司 Groq 发布了一

编辑|张倩、+0

在被谷歌 TPU 挑战霸主地位后,英伟达终于急了?

今天,人工智能芯片初创公司 Groq 发布了一则重磅消息,他们已经与英伟达就 Groq 的推理技术达成了非排他性许可协议。

这个协议并不是说英伟达要把 Groq 买下来,而是挖走 Groq 的几员大将 —— 创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 及多名核心工程师。要知道,Jonathan Ross 曾在谷歌主导 TPU 的开发。2016 年底,他从谷歌离职,并带走了当时 TPU 核心 10 人团队中的 7 位 。这批人带走了 TPU 最核心的技术理念和设计经验,在加州山景城共同创办了 AI 芯片公司 Groq。

这批人和他们的知识产权有多值钱?看看交易额就知道了。据 Groq 投资者、Disruptive Technology Advisers 的首席执行官 Alex Davis 透露,这笔交易价值约 200 亿美元,这比该初创公司 9 月份的估值还高出 131 亿美元。

交易过后,Groq 将继续作为独立公司运营,由首席财务官 Simon Edwards 接任 CEO,其 GroqCloud 云服务也将正常运行。

通过这种方式,英伟达可以在不直接购买的情况下获得初创企业的人才和技术,被称为 Reverse Acquihire(反向收购雇佣)。这种方式避免了与传统收购相关的反垄断审查。在过去三年中,微软、Meta 等科技巨头已经达成了多项此类交易,以推进其人工智能发展路线图。

Groq 最引人注目的是其自主研发的 LPU(语言处理单元)芯片。与英伟达主导的 GPU 不同,LPU 专为 AI 推理场景设计,号称运行大语言模型的速度可达 GPU 的 10 倍,能耗却只有十分之一。而这正是英伟达所需要的,因为 TPU 之所以能挑战英伟达的霸主地位,「能耗、延迟方面能打」是一个关键优势。

英伟达 CEO 黄仁勋在内部邮件中表示,计划将 Groq 的低延迟处理器整合到英伟达 AI 工厂架构中,以支持更广泛的 AI 推理和实时工作负载。

TPU 之父带队

Groq 用 LPU 闯出一片天

Groq 成立于 2016 年,其诞生源于对传统计算架构的深刻反思。创始人 Jonathan Ross 曾师从 Yann LeCun,后来在 Google 任职。他参与了谷歌 TPU 项目(当时为 20% 项目),负责设计和实现第一代 TPU 芯片的核心组件。TPU 的成功证明了专用架构在 AI 计算上的巨大潜力,也成为了 Groq 技术的起点。

Google 有一个著名的「20% 自由时间」文化,允许工程师用工作时间的 20% 去做自己感兴趣、但并非老板指派的「私活」或「创新项目」。

Ross 认为,传统的 CPU 和 GPU 架构为了兼顾图形渲染和通用计算,保留了复杂的缓存管理、分支预测及动态硬件调度。这些设计虽然提高了通用性,但导致了计算性能的不可预测性,并非 AI 推理的必要组件。基于此,Groq 确立了「软件定义的确定性」这一核心理念。

LPU(Language Processing Unit)摒弃了传统的硬件调度器,改由编译器在编译阶段精确计算每一步数据的流动和时序。这种设计消除了「缓存未命中」和「分支预测失败」的风险,核心计算单元 TSP(Tensor Streaming Processor)采用流式处理模式,确保数据如流水线般处理,没有任何闲置周期。

在存储方案上,Groq 未采用 Nvidia GPU 常用的高带宽内存(HBM),而是将静态随机存取存储器(SRAM)直接集成在芯片内部。这种设计使单芯片内存带宽高达 80TB/s,是传统 HBM 方案的 20 倍以上。尽管 SRAM 占地面积大导致单芯片容量极小(约 230MB),但其极高的带宽允许 LPU 在 Batch Size 为 1(即单次处理一个请求)的情况下依然保持计算单元满载,从而实现极低的延迟。

由于单芯片内存有限,运行 Llama 3 70B 这样的大模型通常需要数百张芯片级联。为此,Groq 研发了 RealScale 互联技术。该技术不依赖传统的网络交换机,而是通过直接线缆连接,并解决了「晶振漂移」导致的时钟不同步问题。在这一架构下,整个集群实现了全局时钟同步,数百张芯片宛如一枚巨大的虚拟芯片协同工作。

得益于上述设计,Groq 在处理大语言模型时展现出差异化的性能优势:在 Llama 系列模型的推理中,其响应速度可达每秒 500 Tokens(相比之下 ChatGPT 约为 40 Tokens/s),且几乎没有延迟抖动,在实时交互场景中建立了独特的竞争壁垒。

但为了换取这种极致速度,Groq 方案在物理空间和功耗上付出了代价:一个标准机架满载功耗约为 26kW 至 30kW,且需要比 GPU 方案更多的机架数量来承载同等规模的模型参数。

TPU 步步紧逼

英伟达急了?

英伟达这次的大手笔属于形势所迫,因为他们的 AI 芯片霸主地位正面临严峻挑战。

目前,AI 算力市场的需求正从训练转向推理。预计到 2030 年,推理将占 AI 计算总量的 75%,市场规模达 2550 亿美元。但在推理方面,英伟达的芯片并不具备绝对优势,面临谷歌 TPU、Groq LPU 等多方面竞争。

先来说谷歌 TPU。此前,SemiAnalysis 的一篇文章报道称,谷歌新出的 TPU v7 实现了很高的实际模型算力利用率,总体拥有成本比英伟达 GB200 系统低约 30%~40%。也就是说,用上 TPU 之后,企业可以省一大笔钱。而且,谷歌的 TPU 不再局限于自家使用,而是开始大规模出货,预计 2027 年实现年产 500 万颗的目标。

市场的反应也能说明一切:2025 年 10 月,Anthropic 协议通过多达 100 万个 TPU 获取超过 10 亿瓦的谷歌算力;11 月,Meta 开始洽谈于 2027 年在其数据中心使用谷歌 TPU。这样的转向足以给英伟达带来压力。

除了谷歌,Groq 也是不容小觑的竞争对手。早期 Groq 保持相对低调。但随着 2023 年至 2024 年生成式 AI 市场的爆发,行业重心从训练端向推理端延伸,Groq 凭借在模型推理上的速度优势受到关注,资本市场随即跟进。

最引人注目的是,今年 2 月,Groq 与沙特阿美数字公司签订 15 亿美元协议,合作建设全球最大 AI 推理数据中心,初期部署 19000 个 LPU 处理器。2025 年 12 月,Groq 又签署协议加入美国 AI「创世纪计划」,成为 24 家签署公司之一。

今年 9 月,Groq 刚刚完成 7.5 亿美元融资,估值达到 69 亿美元。公司透露,其平台已服务超过 200 万名开发者,较去年的 35.6 万人增长了五倍多。

这些重要事件彰显了 Groq 在 AI 芯片领域的潜力以及团队的硬核研发能力,足以让英伟达动心。

在这场交易之后,英伟达的霸主地位是否可以巩固?我们拭目以待。

参考链接:

https://groq.com/blog/the-groq-lpu-explained

https://news.ycombinator.com/item?id=39431989

https://groq.com/blog/the-groq-lpu-explained