英伟达华人科学家告诉你，未来的机器人会如何发展？我们现在刷到的那些人形机器

英伟达华人科学家告诉你，未来的机器人会如何发展？

我们现在刷到的那些人形机器人视频，八九成都是"台面上光鲜、台面下很苦"的活儿，因为机器人不是真的懂物理，而是工程师把环境收拾得很干净、把任务限定得很窄、把失败的那几十次剪掉了。

到底什么时候机器人才能从"表演选手"变成"能上班的劳动力"？这个问题，英伟达那边负责具身智能的华人科学家Jim Fan在红杉资本办的活动上没绕弯子，直接把行业最疼的那根筋挑出来了！

他认为机器人不缺胳膊少腿的硬件，缺的是一套能规模化长大的"脑子训练法"，以及配套的数据来源；而这事儿的解法，很大程度要借鉴当年大语言模型怎么从"能接话"一路卷成"能干活"的路径。

他抛了个很好理解的说法，叫"物理图灵测试"：你回家看结果，屋里收拾好了、饭也备好了，但你压根分不清这活儿是人干的还是机器干的，到那一天，才算机器人真正过关。

现在离这道线还远，因为物理世界不讲情面：地板会滑、杯子会滚、桌布会挂住把手、光线会把传感器晃花，机器人要是脑子里没有稳定的"下一步会发生什么"的预判，就会要么卡住、要么硬来、要么把东西弄坏。

那为啥卡这么久？说穿了就两个字：数据。

语言模型命好，互联网堆了几十年文本，抓下来洗一洗就能用；机器人要的数据不是"描述怎么拿杯子"，而是"关节怎么出力、手碰到杯壁力怎么传、杯子边缘会不会打滑"这种连续、带时间线、带力觉的信号。

过去行业最主流的土办法叫遥操作，人戴VR/动捕，手动带着机器人做一遍，让它跟着学。问题是这玩意太难扩：机器会出故障、人会累、流程很贵，算下来每天真正能用的时间窗口很小，跟"要把几万小时级别的高质量交互数据喂饱模型"的需求完全不成比例。

Jim Fan自己就把这个窘境说得很直白：搞语言模型的人天天喊数据快没了，其实机器人这边更惨，你连"化石燃料"都没有，只有一点靠人肉点火的小作坊产量。

所以你看他在台上真正想推的方向，不是再给旧套路打补丁，而是把思路换成两条更狠的捷径。

一是训练目标从"看懂文字指令"转到"预测画面里会发生什么变化"，也就是让模型学会看世界怎么动，再决定自己怎么动。

二是数据来源从"逼着几台真机器慢慢磨"转到"用仿真"，让算力去换数据量。只要你有算力，就能批量生产可训练素材，再把学出来的能力迁回真机。

至于网上传得很热的"VLA已死、世界动作模型上位"这些口号，说白了，过去几年很流行的那套"先拿强大的视觉语言理解做底座、再硬挂一个动作输出"的做法，确实能把很多识别级任务跑起来，但一旦落到更硬的动词：抓、捏、倒、插、折叠、应对突发滑动，就容易露怯，因为它主力吸收的仍然是"语义"信息，而不是系统的物理因果与接触动力学。

Jim Fan 的意思不是"视觉语言没用"，而是提醒你别把优先级放反：要让视觉和动作回到主桌，让模型自己去学"下一秒世界会变成啥样"，动作只是这个预测过程里顺带解出来的东西；预测靠谱，动作才敢用。

对应的新概念本质上就是把这个因果顺序扶正：先看明白物理，再动手，而不是先背熟名词再强行伸手。

你把这几条合一起，会得到一幅更清醒的产业图景：机器人下一阶段的胜负手，不在谁的关节更花哨、谁翻跟头更利索。

再说点更贴近国内的体会：咱们的优势在场景多、供应链强、工程落地快，工厂、仓储、巡检、养老陪护这些地方对"通用智能"的要求未必是啥都能干，而是要可靠、安全、成本说得清、维护跟得上。

那反过来就意味着，别把资源全砸进"发布会型泛化"的军备竞赛里，而要把力气花在能把上面那三件事做实的地方，更系统的仿真资产，比如场景库、物体库、异常库、更严格的真机评估与失败归因、以及能把现场少量真实数据不断回流再训练的闭环。

谁先把这条"数据工厂+仿真迁移+安全部署"跑成日常运营流程，谁才有资格谈终局，而不是只谈愿景。

说到底，Jim Fan 这场演讲最有用的地方，不是给你一句"VLA已死"的爽文标题，而是把一个尴尬真相摆上台面！

那就是机器人行业过去的很多进步，确实靠堆叠硬件与精雕细琢的演示在推进，但想要再上一个量级，就必须把"怎么让机器人在脑袋里预演物理世界"当成主战场，并把数据问题从手工作坊升级成工业化产能。

谁能先把这套产能建起来，谁就把机器人的"就业许可"握在手里。

未来，机器人的发展会给我们的生活带来怎样的新鲜事儿，拭目以待吧！

群发资讯网

英伟达华人科学家告诉你，未来的机器人会如何发展？我们现在刷到的那些人形机器

热门分类

英伟达华人科学家告诉你，未来的机器人会如何发展？ 我们现在刷到的那些人形机器

猜你喜欢

热门分类

英伟达华人科学家告诉你，未来的机器人会如何发展？我们现在刷到的那些人形机器