群发资讯网

英伟达华人科学家告诉你,未来的机器人会如何发展?   我们现在刷到的那些人形机器

英伟达华人科学家告诉你,未来的机器人会如何发展?
 
我们现在刷到的那些人形机器人视频,八九成都是"台面上光鲜、台面下很苦"的活儿,因为机器人不是真的懂物理,而是工程师把环境收拾得很干净、把任务限定得很窄、把失败的那几十次剪掉了。
 
到底什么时候机器人才能从"表演选手"变成"能上班的劳动力"?这个问题,英伟达那边负责具身智能的华人科学家Jim Fan在红杉资本办的活动上没绕弯子,直接把行业最疼的那根筋挑出来了!
 
他认为机器人不缺胳膊少腿的硬件,缺的是一套能规模化长大的"脑子训练法",以及配套的数据来源;而这事儿的解法,很大程度要借鉴当年大语言模型怎么从"能接话"一路卷成"能干活"的路径。
 
他抛了个很好理解的说法,叫"物理图灵测试":你回家看结果,屋里收拾好了、饭也备好了,但你压根分不清这活儿是人干的还是机器干的,到那一天,才算机器人真正过关。
 
现在离这道线还远,因为物理世界不讲情面:地板会滑、杯子会滚、桌布会挂住把手、光线会把传感器晃花,机器人要是脑子里没有稳定的"下一步会发生什么"的预判,就会要么卡住、要么硬来、要么把东西弄坏。
 
那为啥卡这么久?说穿了就两个字:数据。
 
语言模型命好,互联网堆了几十年文本,抓下来洗一洗就能用;机器人要的数据不是"描述怎么拿杯子",而是"关节怎么出力、手碰到杯壁力怎么传、杯子边缘会不会打滑"这种连续、带时间线、带力觉的信号。
 
过去行业最主流的土办法叫遥操作,人戴VR/动捕,手动带着机器人做一遍,让它跟着学。问题是这玩意太难扩:机器会出故障、人会累、流程很贵,算下来每天真正能用的时间窗口很小,跟"要把几万小时级别的高质量交互数据喂饱模型"的需求完全不成比例。
 
Jim Fan自己就把这个窘境说得很直白:搞语言模型的人天天喊数据快没了,其实机器人这边更惨,你连"化石燃料"都没有,只有一点靠人肉点火的小作坊产量。
 
所以你看他在台上真正想推的方向,不是再给旧套路打补丁,而是把思路换成两条更狠的捷径。
 
一是训练目标从"看懂文字指令"转到"预测画面里会发生什么变化",也就是让模型学会看世界怎么动,再决定自己怎么动。
 
二是数据来源从"逼着几台真机器慢慢磨"转到"用仿真",让算力去换数据量。只要你有算力,就能批量生产可训练素材,再把学出来的能力迁回真机。
 
至于网上传得很热的"VLA已死、世界动作模型上位"这些口号,说白了,过去几年很流行的那套"先拿强大的视觉语言理解做底座、再硬挂一个动作输出"的做法,确实能把很多识别级任务跑起来,但一旦落到更硬的动词:抓、捏、倒、插、折叠、应对突发滑动,就容易露怯,因为它主力吸收的仍然是"语义"信息,而不是系统的物理因果与接触动力学。
 
Jim Fan 的意思不是"视觉语言没用",而是提醒你别把优先级放反:要让视觉和动作回到主桌,让模型自己去学"下一秒世界会变成啥样",动作只是这个预测过程里顺带解出来的东西;预测靠谱,动作才敢用。
 
对应的新概念本质上就是把这个因果顺序扶正:先看明白物理,再动手,而不是先背熟名词再强行伸手。
 
你把这几条合一起,会得到一幅更清醒的产业图景:机器人下一阶段的胜负手,不在谁的关节更花哨、谁翻跟头更利索。
 
再说点更贴近国内的体会:咱们的优势在场景多、供应链强、工程落地快,工厂、仓储、巡检、养老陪护这些地方对"通用智能"的要求未必是啥都能干,而是要可靠、安全、成本说得清、维护跟得上。
 
那反过来就意味着,别把资源全砸进"发布会型泛化"的军备竞赛里,而要把力气花在能把上面那三件事做实的地方,更系统的仿真资产,比如场景库、物体库、异常库、更严格的真机评估与失败归因、以及能把现场少量真实数据不断回流再训练的闭环。
 
谁先把这条"数据工厂+仿真迁移+安全部署"跑成日常运营流程,谁才有资格谈终局,而不是只谈愿景。
 
说到底,Jim Fan 这场演讲最有用的地方,不是给你一句"VLA已死"的爽文标题,而是把一个尴尬真相摆上台面!
 
那就是机器人行业过去的很多进步,确实靠堆叠硬件与精雕细琢的演示在推进,但想要再上一个量级,就必须把"怎么让机器人在脑袋里预演物理世界"当成主战场,并把数据问题从手工作坊升级成工业化产能。
 
谁能先把这套产能建起来,谁就把机器人的"就业许可"握在手里。
 
未来,机器人的发展会给我们的生活带来怎样的新鲜事儿,拭目以待吧!