国产GPU：身处通用计算黄金时刻，智算万卡是最低标配

日前，摩尔线程宣布AI旗舰产品夸娥（KUAE）智算集群解决方案实现重大升级，从千卡级别大幅扩展至万卡规模。该集群以全功能GPU为底座，专为万亿参数级别的复杂大模型训练而设计，旨在打造能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台。 “摩尔线程推出夸娥（KUAE）万卡智算集群解决方案，希望能够建设一个规模超万卡、场景更通用、生态兼容好的加速计算平台，并优先解决大模型训练的难题”，摩尔线程创始人兼CEO张建中表示：“夸娥万卡智算集群作为摩尔线程全栈AI战略的一块重要拼图，可为各行各业数智化转型提供澎湃算力。”

AI大模型持续扩展趋势下，万卡通用算力成为标配张建中指出，“通用加速计算平台正处在黄金时刻，我们看到了Scaling Law这个演进规律：需要单点规模够大并且通用的算力，才能快速跟上技术演进变化。如果规模够大、计算通用、生态兼容这三点都做好的话，对使用者来说就是非常好用的平台。”

摩尔线程创始人兼CEO 张建中

所谓万卡集群，是指由一万张及以上的计算加速卡（如GPU）组成的高性能计算系统，用以训练基础大模型。该类集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台“超级计算机”，可支持千亿级甚至万亿级参数规模的大模型训练，有助于大幅压缩大模型训练时间，以实现模型能力的快速迭代。一些重要的趋势正在演进：一方面，Transformer架构仍在加速进步，它虽然是目前的主流架构，但是并不会大一统，其他创新架构仍在不断出现，如Mamba、RWKV和RetNet等，旨在提升计算效率，加速迭代创新。另一方面，AI+3D+HPC在实现加速融合，从而带来计算范式的变化。比如AI+3D、AI+仿真计算、AI+FP64科学计算等，这些都需要通用加速计算平台，才能满足更多场景对多元计算的需求。应对上述趋势，一个“大且通用”的加速计算平台越来越成为标配，以缩短训练时间，实现模型能力的快速迭代。国际头部公司正在积极部署千卡乃至超万卡规模的计算集群，比如：Google推出的超级计算机 A3 Virtual Machines，拥有26000块 Nvidia H100 GPU，同时基于自研芯片搭建了TPUv5p 8960卡集群；Meta 今年初公布了2个24576块Nvidia H100的集群，用于支持下一代生成式Al模型的训练。国内市场方面，通信运营商、头部互联网、大型AI研发企业、AI初创企业等都在超万卡集群的建设和使用过程中不断推动技术革新。例如字节跳动、阿里巴巴、百度等互联网公司正在积极推进超万卡集群的建设。其中，字节跳动搭建了12288 卡的Ampere架构训练集群，研发MegaScale生产系统用于训练大语言模型；科大讯飞在2023年建成了首个支持大模型训练的超万卡集群算力平台“飞星一号”。

“国产智算万卡集群——做难而正确的事”万卡集群并不是一万张GPU卡的简单堆叠，而是一个超级复杂的系统工程。张建中指出，万卡集群当前面临的主要问题，包括超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等。这其中涉及诸多的技术难点，仅以超大规模组网互联、集群有效计算效率（MFU）以及训练的高稳定性这三项技术细节来看：超大规模组网互联包括参数面网络、数据面网络、业务面网络、管理面网络等，而不同的网络需要采取不同的组网部署方式。超万卡集群对参数面网络（计算网络）的要求最高，因为它主要用于计算节点之间的参数交换，要求具备高带宽无损能力。并且，参数面网络的速度与稳定性决定着整个集群的运行效率，要通过各种拥塞控制优化机制、负载均衡以及故障快速感知等技术手段，才能保证网络传输的零丢包无损、高吞吐与高稳定等。集群有效计算效率即MFU方面，大量实践表明，集群规模的线性提升无法直接带来集群有效算力的线性提升，因为受限于芯片计算性能（芯片及算子使用效率）、GPU显存的访问性能（内存和I/O访问瓶颈）、卡间互联带宽、有效的分布式并行策略等。在训练的高稳定与高可用方面，由于超万卡集群是由数千台GPU服务器、数千台交换机、数万根光纤/数万颗光模块构成，训练任务涉及上千万器件的共同作业，任何一个部件比如一个网卡、一个光模块或一个GPU故障，整个集群就会宕机导致训练中断。因此，万卡集群高稳定和高可用是个非常大的难题。 “尽管万卡建设难，挑战巨大，但摩尔线程坚信，这是一条难而正确的道路，我们致力于通过夸娥万卡智算集群，为AI大模型与通用人工智能的发展提供坚实的支撑”，张建中表示。以国产全功能GPU为技术底座，摩尔线程的夸娥万卡智算解决方案实现了几大核心的护城河：超大算力，万卡万P：单集群规模超万卡，浮点运算能力达10Exa-Flops，提供PB级显存容量和超高速卡间与节点间互联带宽，实现算力、显存和带宽的协同优化。超高稳定，月级长稳训练：平均无故障运行时间超15天，支持30天以上长稳训练，周均训练有效率超过99%，采用多级可靠机制实现软硬件故障快速定位和训练任务快速恢复。极致优化，超高MFU：MFU最高达60%，通过系统软件、框架、算法优化，支持自适应混合并行策略和显存优化，有效缩减计算时间和显存占用，提升训练效率。全能通用，生态友好：适用于多种架构和模态的大模型，可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型。基于MUSA编程语言和CUDA兼容能力，可实现新模型快速迁移和生态适配，加速业务上线。

相信AGI到来，致力于全功能的通用加速计算平台张建中解释说，集群不是“堆卡“，主要在于单位功耗的算力在提升，而这来源于整个架构的改善、效率的提升，需要整个系统的调优。实际上，从千卡到万卡的升级建设过程中，万卡平均每瓦的算力提升了很多。同时，国产集群具有生态兼容性优势，开发者移植到夸娥集群上，几乎不需要修改代码，迁移成本接近0，可以在数小时之内就完成迁移工作，能够显著节约用户和厂商的资源。依据以往千卡级集群的建设和使用经验来看，如果是首次适配，通常数小时之内就可以在平台上运行起来；而对于已适配的大模型，用户无需额外工作即可运行。对于性能调优来说，是一个相对耗时的过程，因不同模型和芯片厂商的策略而有不同。毫无疑问，在算力规模持续扩大的趋势下，网络通信能力成为一大关键。特别是对于建设万卡以上的集群来说，交换机技术是必备的。据了解，摩尔线程目前在卡间互连采用自研MTLink，现在已经更迭到2.0版本。交换机方面，采用的行业的交换机芯片搭建集群。张建中表示，摩尔线程后续会进行自研，或与行业合作伙伴共同研发下一代的大规模交换机。他认为，AGI一定会到来。随着各种不同算法进步，真正算力平台应用场景的建设，越来越多的大模型应用场景会得到验证。当万卡集群建立起来，Scaling（扩展性）向上，准确度、精度、IQ能力都在提升的话，就会产生实际价值，因此未来的集群建设会是逐步提升的过程。虽然暂时可能无法完全解决全行业的算力短缺问题，但张建中表示有决心解决大模型领域缺少大算力的问题。摩尔线程将提供提供全功能的通用加速计算平台，增加行业选择，激发开发者的创新潜力，鼓励他们探索更广泛的应用场景，以促进更多的创新。

群发资讯网

国产GPU：身处通用计算黄金时刻，智算万卡是最低标配

硬件是与非