小米一夜之间甩出三张王牌:MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS三款模型形成完整矩阵(语言 → 多模态 → 语音),不是单点突破,而是系统性布局,Pro 是 Agent 场景的旗舰基座,1T 参数只激活 42B,1M 超长上下文,人工评测逼近 Claude Opus 4.6,定价只要它的 1/5。Omni 做到了音频理解超越 Gemini 3 Pro、图像理解超 Opus 4.6 的全模态能力。TTS 更狠——同一个模型能说、能演、能唱方言,亿级小时数据训练 + 多维度强化学习,语音合成终于不只是"念稿"了。总而言之,小米这波AI三大件不是"卷参数"的面子工程,而是在架构创新、场景训练和生态落地上都做了实质性的技术投入。尤其是 Agent 方向的专项优化和 Omni 的全模态能力,体现了清晰的技术判断,含金量真的不低。
