英伟达GEAR实验室的八个机械臂在过去几周里自学了如何插入插销、安装显卡和剪断扎带。唯一参与其中的人类是事后撰写论文的人员。
这项技术源自 ENPIRE 框架,该框架由英伟达、卡内基梅隆大学和加州大学伯克利分校的研究人员于周二发表的一篇论文中详细介绍。ENPIRE 将训练机器人的全部工作交给 AI 编码 Agent (即那些已经能够编写和测试自身代码的软件),并允许它们直接在物理硬件上运行该过程。
像 OpenAI 的 Codex、Anthropic 的 Claude Code 和 Moonshot 的 Kimi Code 这样的编码智能体,在过去一年里一直在运行研究人员所谓的“自动研究”——编写代码、测试代码,然后再重写代码,整个过程无需人工干预。这种循环大多停留在屏幕上,重置失败的实验几乎不需要任何成本。而 ENPIRE 则将这种循环带入了现实世界,重置实验意味着要移动一个真实的机械臂。
建造“雄伟Enpire”
该系统将工作分为两个阶段。在第一阶段,由人工引导智能体构建两个永久性工具:一个重置程序,用于将工作区恢复到初始状态;以及一个奖励函数,用于监控摄像头录像并评估成功率——本质上就是一个永不眨眼、永不休息的裁判。该设置只需进行一次,之后每次尝试都会重复使用。
一旦这些工具到位,智能体便会完全接管。它会搜索已发表的研究成果寻找灵感,在模仿学习、强化学习或手写规则等训练方法 中进行选择,然后重写代码并在机器人上测试结果。整个循环过程中无需人工干预,这或许令人感到自由,或许略感不安,取决于你对机器人无人监督地使用剪刀有何看法。
英伟达在八个双臂机器人工作站上进行了这项实验,每个工作站都配备了独立的硬件、计算机和编码 Agent 。这些工作站通过 Git(程序员用来合并代码的工具)交换进度,因此,一个成功的方案可以在几分钟内传播到整个机器人群。




