群发资讯网

罗福莉在推上介绍MiMo-V2-Pro模型的训练过程:团队成员对话一天少于100

罗福莉在推上介绍MiMo-V2-Pro模型的训练过程:团队成员对话一天少于100次的,就不用来了。---------------------MiMo-V2-Pro & Omni & TTS 发布了。这是我们首个真正为智能体时代构建的全栈模型家族。

我称之为一场静默伏击 — 并非因为我们早有预谋,而是因为从对话到智能体范式的转变发生得如此之快,甚至连我们自己都难以置信。这其中的过程既令人兴奋、痛苦,又充满了魅力。

1T 基座模型在几个月前就开始训练了。最初的目标是长上下文推理效率。混合注意力机制(Hybrid Attention)带来了真正的创新,且没有过度设计 — 事实证明,它正是智能体时代最合适的基石。100万上下文窗口。为了极低延迟和成本而采用的 MTP 推理。这些架构决策并非为了赶时髦,而是我们在需求产生前就构建好的结构性优势。

彻底改变一切的是第一次体验复杂的智能体支架 — 我称之为编排式上下文(Orchestrated Context)。第一天我就被震撼了。我曾试图说服团队去使用它,但没奏效。于是我下达了一个死命令:MiMo 团队的任何人,如果到明天对话次数少于100次,就可以离职了。这招起效了。一旦团队对智能体系统潜力的想象力被点燃,这种想象力就直接转化成了研究的加速度。

人们问我们为什么动作这么快。在构建 DeepSeek R1 时我亲眼目睹了这一切。我最诚实的总结是:

— 骨干网络和基础设施研究有着漫长的周期。你需要在回报产生的一年前就拥有战略定力。— 后训练的灵活性是一块不同的肌肉:由产品直觉驱动评估,极度压缩迭代周期,敏锐捕捉范式转移。— 以及那些恒定不变的因素:好奇心、敏锐的技术直觉、果敢的执行力、全身心的投入 — 还有一个容易被忽视的因素:对你所构建的世界发自内心的热爱。

我们会开源 — 当模型足够稳定、配得上开源的时候。

来自北京,深夜,半梦半醒。

How I AI