群发资讯网

李想: 让AI像小孩一样长大,它才会开车

想象一下,你家小区门口有个老司机,开了三十年车,人称“车神老王”。他开车有多厉害?雨天路滑,他能提前0.5秒松油门;前面

想象一下,你家小区门口有个老司机,开了三十年车,人称“车神老王”。他开车有多厉害?雨天路滑,他能提前0.5秒松油门;前面有个小孩在追球,他还没看见球,就已经减速了;旁边车道有辆车稍微晃了一下,他就说“这货要变道,我让一下”。

老王开车,从来不看说明书,也不背交规。他就是“凭感觉”。这个感觉是哪来的?不是天生的。老王小时候爬树摔过,知道多高会疼;打篮球抢篮板,知道球往哪弹;骑自行车被汽车别过,知道大车有盲区。他6岁前,就在三维世界里摔打了无数遍。这叫“童年经验”。

现在再看另一个司机:小张,刚拿驾照,理论考试100分,交规倒背如流。但他有个问题——他是从游戏模拟器里学的开车,从来没摸过真车。

他在家玩了一万小时《侠盗猎车手》,每条路都跑过,每个路口都见过。然后有一天,他被直接扔到真车上:“上路吧,你理论满分!”

结果呢?第一个路口就撞了——因为他不知道屏幕里的车和真车,距离感完全不一样。现在的自动驾驶,就是那个小张。你可能会问:不对啊,现在的自动驾驶不是很厉害吗?特斯拉不是能自己开高速吗?

对,它能开高速,但遇到点新鲜的就不行了。比如:路上有个倒下的树,树枝伸出来。AI认出来了,这是树,绕过去了。但它没算树枝的高度——结果车顶被刮花了。因为它不知道树是立体的。

路边有个广告牌,上面印着一个逼真的人像。AI一脚急刹:“有人!”其实那人印在板子上。因为它分不清立体的人和平面的人。

前面有辆大卡车,AI知道要超车。但它算错了距离——因为它以为画面里那个“小”的卡车,就是真的小。它不知道,远处的物体看起来小,但其实很大。

这些错,都是同一个病:AI一直在看二维的画面,却要在三维的世界里开车。

过去的AI,就像一只“平面生物”

为了让你更好理解,咱们来打个更大的比方。

想象有一种生物,叫“平面人”。他一辈子活在一张纸上,只知道前后左右,不知道上下。他看世界,永远是俯视图——就像你在Google地图上看自己的家,只能看到屋顶,看不到窗户。

AI模型

这就是过去的技术比如:鸟瞰视角,把世界拍扁了看。后来平面人进化了,学会了“摸”。他能摸出物体的大小、形状。但他摸不出那是什么——摸到一个圆球,他知道是圆的,但不知道是西瓜还是皮球。因为没颜色、没纹理。

这就是另一种技术叫做占用网络,它知道哪里有东西,但不知道是什么。

平面人怎么学开车?他只能看行车记录仪的视频,一帧一帧地看。他看了一万小时,把所有的路况都背下来了。但他永远不知道,那个看起来很小的车,其实离他很近;那个广告牌上的人,其实是印上去的。

因为他没有“立体感”。

李想介绍他们的新办法:让AI长出“两只眼”

今天晚上,李想专门发了篇文章来描述这个事儿,如果我们老百姓能够看得懂的话,理想这次发布的新模型,核心就一件事:让AI长出两只眼,像人类一样看世界。

这个技术说起来也简单:以前AI看世界,是用多个摄像头分别看,然后拼起来——就像你看拼图,先把每片拼好,再拼到一起。但问题是,每片拼图都是平面的,拼出来也是平面的。

现在不一样了,这个技术让AI一开始就工作在三维空间里。它用多个摄像头,像人的两只眼睛一样,同时看,同时算,直接生成一个立体画面。

这就像你小时候玩的那种“3D立体画册”——戴上眼镜,画里的恐龙就跳出来了。AI现在就是“天生戴着3D眼镜”看世界。

它看到的不是画面,而是真实的空间:那里有个车,车头朝我,距离50米,速度每小时60公里,它在向左微微偏移——可能要变道。

所有的信息,一次算完:空间位置、物体属性、运动轨迹。

这时候,激光雷达变成什么?变成一把尺子。以前它是主角,现在它就是个测量工具,帮AI校准一下近处的距离。就像老司机偶尔瞄一眼后视镜,确认一下距离。

真正让AI开车的,是它的“两只眼”——摄像头+三维理解。

为什么以前没人这么做?因为太费脑子了!你让AI处理三维世界,相当于让一个人一边开车,一边在心里画3D建模。普通人的脑子转不过来,普通芯片也算不过来。

理想现在弄得这个AI,能看清500米以外的物体。比人眼还远。而且它不光看,还能想。

“想清楚了再开”是什么意思?

咱们再打个比方,老王开车,前面有辆车突然刹车。老王脑子里会快速闪过几个画面:那车会不会是看到前面有事故?那事故会不会波及到我?我要是变道,旁边车道有没有车?后面有没有车撞上来?——这些画面,在老王脑子里转一圈,可能只要0.3秒,然后他决定:先减速,不急着变道。

这叫“脑内模拟”,以前的AI不会这个。它只会“看到-反应”:看到前车刹车灯亮,它就刹车。但有时候刹车太猛,被追尾,有时候刹车太晚,追尾别人。

现在这个模型会先在脑子里“预演”几秒:如果我现在刹车,后面那辆车会不会撞我?如果我不刹车,前车会不会停下来?如果我从左边绕,左边那辆车会不会正好也变道?

想清楚了,再决定怎么做,这就像老司机开车,不是靠死记硬背,而是靠预判。

更有意思的是,这套模型不是专门为开车设计的。

同一个模型,给它装上机器人的身体,它就能控制机器人走路、搬东西。给它装上工厂的机械臂,它就能分拣货物。因为它的底层能力是“理解三维世界”——这本来就是所有物理智能的基础。

你可以把它理解成一个“物理世界的通用大脑”。开车只是它学会的第一件事。

就像小孩先学会走路,然后才能跑步、打球、跳舞。走路是基础,不是终点。

如果这个逻辑成立,那么有意思的问题就来了:AI需要“童年”吗?

AI需要童年吗?

人类小孩在0-6岁,做的那些看起来“没用”的事——玩沙子、追蝴蝶、扔球接球、躲猫猫——其实都是在为成年后的复杂技能打基础。没有这些“无用”的玩耍,就没有后来的“有用”的能力。

那AI呢?我们现在教AI,都是“目标导向”:学开车,就给它看行车记录仪;学下棋,就让它下棋;学写诗,就给它看唐诗三百首。我们从来不让AI“玩”——让它在一个虚拟的三维世界里随便跑跑,追追蝴蝶,扔扔球。

万一,“玩”才是AI真正需要的呢?

所以今天晚上,李想专门提出的这个概念,我们现在觉得AI“笨”,不是因为它数据不够多、算力不够强,而是因为它从来没有机会在三维世界里“长大”呢?

理想这个模型迈出了第一步:让AI从“看二维视频学开车”,变成“在三维世界里学开车”。但这只是开始。未来的AI,会不会也需要一个“幼儿园”?在幼儿园里,它不用学任何“有用”的技能,就是跑、跳、扔、接、躲、追——在玩耍中,建立起对物理世界的直觉。

等它“长大”了,再学开车、学搬东西、学做饭。那时候,它可能就像老王一样——不用想,就知道怎么开,不用算,就知道怎么躲。

那才是真正的智能,不是背答案的智能,是懂世界的智能!最后留个问题:如果AI也需要童年,那我们人类现在做的事——让AI从一出生就“卷”着学各种技能——会不会反而害了它?