【理想发布端侧大模型 “软硬协同设计定律”】日前,理想汽车基座模型 MindVLA 团队和国创决策智能技术研究所联合提出端侧大语言模型的 “软硬协同设计定律”(Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs)。理想称,这一定律有助于实现模型精度与推理延迟的联合优化。
在 AI 领域,协同设计是为了打破软硬件隔离的传统研发方式,以可控的成本最大化硬件效能,并实现模型性能的越级提升。它需要打破软硬件团队的组织壁垒,让算力、算法团队紧密合作。
当前,车载算力平台面临一个核心难题:一方面,以大语言模型为核心的 VLA 系统需要更高的认知智能;另一方面,车载芯片的物理限制(功耗、散热、成本)让传统 “暴力推硬算力” 的模式难以为继。因此,如何让有限的芯片资源发挥最大的智能效能,成为行业竞争的焦点之一。
在上一代基于英伟达 Orin/Thor 的车载计算平台上,理想团队认识到:芯片峰值性能并不等于实际系统效能。理想精心设计的模型架构往往无法充分利用硬件特性,而为了硬件适配做出的妥协又可能损害模型智能。
理想称其提出的 “软硬件协同设计定律” 有以下三大好处:
· 在时间维度,传统模式下芯片升级和模型更新需要研发团队耗费数月设计和选型,软硬协同设计定律可将周期压缩至一周。
· 在硬件层面,当模型结构固化时,芯片升级往往无法充分释放新性能,造成硬件成本浪费。该定律可以指导模型适配芯片的物理特性,无需盲目采用高端芯片即可提供同等智能体验。
· 在应用场景中,该定律能基于具体输入输出参数快速匹配最优模型配置,避免后期反复调优,显著缩短应用开发周期。
基于研发和工程实践,理想还提出以下技术发现:
· 稀疏计算正成为车载 AI 的标准配置,这要求芯片在架构层面原生支持稀疏运算和动态路由能力。
· 内存子系统设计的重要性超越了计算峰值性能,芯片需要重新审视内存带宽和缓存效率的优化策略。
· 针对 Prefill 和 Decode 阶段的不同资源需求特征,芯片应具备动态微架构重构能力,而非依赖固定执行流水线。
· 传统 Transformer 的 4 倍 FFN 扩展比在车载场景下效率偏低,芯片的矩阵运算单元与激活函数单元需要更灵活的配比设计。
· INT8 量化的实际加速效果仅为 1.3-1.6 倍,远低于理论的 2 倍提升,根本原因在于非线性算子和精度转换的额外开销。下一代芯片需要在指令集和运算单元层面提供混合精度计算与算子融合的原生支持。
理想汽车总结认为:没有通用芯片,只有场景最优芯片。最优架构强烈依赖于具体硬件参数,这证明了 “算法定义芯片” 的必要性——只有深度理解上层算法需求,才能设计出最高效的专用计算架构。
据我们了解,理想自研芯片马赫 100 借鉴了 “软硬协同设计定律” 的研究成果,同时它的研发实践也推动了这一定律的完善。
2 月 9 日,理想汽车创始人、CEO 李想发文称,全新理想 L9 用的马赫 100 双芯片,总算力 2560 TOPS。通过采用数据流架构为算法软件提供最大优化空间,单颗马赫 100 的有效算力约为英伟达 Thor U 的 3 倍。在相同场景下,全新理想 L9 的辅助驾驶系统能够实现更高帧率处理,显著缩短系统响应时间。在紧急情况下,车辆能够更早感知潜在风险,更快执行避险操作,为用户安全提供更强保障。汽场全开 (文丨赵宇 编辑丨龚方毅)