群发资讯网

Momenta CEO 曹旭东今天在大众ID.ERA 9X发布会后的媒体群访中回

Momenta CEO 曹旭东今天在大众ID.ERA 9X发布会后的媒体群访中回答 VLA 的问题,他从直觉和技术两方面做了解答:

这个非常好的问题啊,其实这个关于VLA,去年已经说过很多次了。

就VLA的话,有可能能work,但即使能work的话,那也是锦上添花,对于整个智驾系统的提升,不会那么大。

但是强化学习和世界模型,都能够把性能实现十倍百倍的提升,进而达到人类的安全性,甚至超越人类的安全性的水平。

这背后的底层逻辑是什么呢?

就是当前的这个VLA,我先说说直觉吧,先不讲技术,直觉上,我们可以拿人类司机来类比。

现在的语言模型,其实啥都能干,说中文也行,说英文也行,做数学题也行,编程也行。

但实际上你会发现,开好车这件事情,不需要这个人会写代码,也不需要这个人会说一口流利的英语,或者会写唐诗。

他只需要对各种各样的驾驶的安全场景,有很好的判断,也就是说对物理世界的规律有很好的理解,并且能够做出及时的反应,这是最重要的。

那也就是说,对于这些极限的场景,首先要见过,要有预判,并且能够锻炼出很好的肌肉记忆。

而这个能力刚好是世界模型具备的,因为它能学习到物理规律,而强化学习又能收集到大量的极限场景,

然后反复地锻炼它的肌肉记忆,让它知道在最危险的情况下,肌肉记忆怎么处理更安全、更安心,对吧?

而VLA这个模型,会写很多代码,会背很多诗,会说很流利的法语,这些对于开车有多大帮助呢?

这就是直觉上的道理。

再说说技术上的道理,就稍微有点技术了。

现在整个VLA的训练方式,是先训练大语言模型,而大语言模型的参数量,一般可能100B左右。

然后,再通过视觉往语言去对齐,之后再是行动往视觉和语言去对齐。

你会发现整个VLA的训练,优先级并不是侧重于驾驶的任务,还是侧重于其他方面。

那也就是说大量的参数其实没有用在开车这件事上,就是好钢没有用在刀刃上。

这就是为什么我们从VLA这个概念刚提出来的时候,就判断VLA在自动驾驶上产生的作用,可能最多是锦上添花,很难雪中送炭。

对,这是关于这个问题的回答。大众9X首发MomentaR7世界模型新能源大牛说自动驾驶