【英伟达悄悄发了款边缘端模型】英伟达 quietly 发布了 Nemotron

【英伟达悄悄发了款边缘端模型】英伟达 quietly 发布了 Nemotron 3 Nano Omni，一个开源的全模态推理模型。

他们没有选择跟 GPT-5.5 在云端死磕，而是直接瞄准边缘设备。参数规模 30B，实际激活 3B，MoE 架构。上下文窗口拉到百万 token。

英伟达给了两组数据：视频推理任务里，系统容量比之前最好的开源全模态模型高 9.2 倍；多文档推理提升 7.4 倍。当然这是在固定延迟条件下测的。配上 Blackwell GPU 和 NVFP4 量化，处理长文档、长视频这类企业负载，吞吐量目前开源圈里找不到对手。

说白了，英伟达想把模型从数据中心搬到你的设备上。模型开源免费送，但跑起来得用他们的卡和生态。

现在市面上的多模态方案，大多是视觉、音频、语言各训一个然后拼起来。英伟达这次把编码器全塞进一个模型里，不用额外再接感知模块。好处是少了一层编排，延迟能降下来。按官方说法，智能体可以一个循环里同时处理画面、声音和文字。

应用方向上，英伟达列了几个场景：工厂巡检机器人同时看画面、听声音、读工单；车里的助手同时处理语音、仪表盘和环境噪音；金融 AI 一边看文档一边参加会议。设计上留了个口子，可以跟云上的大模型或其他开源模型搭着用，专门负责感知和上下文理解这部分脏活。

Nemotron 3 全系去年下载量过了 5000 万。套路很清楚了，模型免费，生态绑死硬件。从模型层到芯片层，层层咬合。

时间点卡得很有意思。具身智能正热，机器人、自动驾驶、智能工厂都需要在设备端实时推理，还不能太耗电。谁能提供一套端侧全模态方案，谁就能卡住物理 AI 的入口。英伟达显然想抢这个位置。

AI 竞争正在从比谁参数多，转向比谁控制场景。how i aiaiai创造营英伟达英伟达

群发资讯网