罗福莉在推上介绍MiMo-V2-Pro模型的训练过程：团队成员对话一天少于100

罗福莉在推上介绍MiMo-V2-Pro模型的训练过程：团队成员对话一天少于100次的，就不用来了。---------------------MiMo-V2-Pro & Omni & TTS 发布了。这是我们首个真正为智能体时代构建的全栈模型家族。

我称之为一场静默伏击 — 并非因为我们早有预谋，而是因为从对话到智能体范式的转变发生得如此之快，甚至连我们自己都难以置信。这其中的过程既令人兴奋、痛苦，又充满了魅力。

1T 基座模型在几个月前就开始训练了。最初的目标是长上下文推理效率。混合注意力机制（Hybrid Attention）带来了真正的创新，且没有过度设计 — 事实证明，它正是智能体时代最合适的基石。100万上下文窗口。为了极低延迟和成本而采用的 MTP 推理。这些架构决策并非为了赶时髦，而是我们在需求产生前就构建好的结构性优势。

彻底改变一切的是第一次体验复杂的智能体支架 — 我称之为编排式上下文（Orchestrated Context）。第一天我就被震撼了。我曾试图说服团队去使用它，但没奏效。于是我下达了一个死命令：MiMo 团队的任何人，如果到明天对话次数少于100次，就可以离职了。这招起效了。一旦团队对智能体系统潜力的想象力被点燃，这种想象力就直接转化成了研究的加速度。

人们问我们为什么动作这么快。在构建 DeepSeek R1 时我亲眼目睹了这一切。我最诚实的总结是：

— 骨干网络和基础设施研究有着漫长的周期。你需要在回报产生的一年前就拥有战略定力。— 后训练的灵活性是一块不同的肌肉：由产品直觉驱动评估，极度压缩迭代周期，敏锐捕捉范式转移。— 以及那些恒定不变的因素：好奇心、敏锐的技术直觉、果敢的执行力、全身心的投入 — 还有一个容易被忽视的因素：对你所构建的世界发自内心的热爱。

我们会开源 — 当模型足够稳定、配得上开源的时候。

来自北京，深夜，半梦半醒。

How I AI

群发资讯网

罗福莉在推上介绍MiMo-V2-Pro模型的训练过程：团队成员对话一天少于100

热门分类