群发资讯网

Momenta 旭东判断 VLA 和世界模型的关系:语言模型其实什么都能表达,能

Momenta 旭东判断 VLA 和世界模型的关系:

语言模型其实什么都能表达,能说不同语言也能编程,但是开好车的事情上不需要这个人会写代码,也不需要会讲英文。

它需要对各种各样有关驾驶的安全场景有很好的判断,也就是对物理世界的规律有很好的理解,并且能够做出及时反应。

第一个要见过,要有预判还能预测出来,有很好的肌肉记忆,这个刚好是世界模型具备的,而强化学习又能收集大量的常有的场景,来反复锻炼它的肌肉记忆。让它知道在危险情况下肌肉记忆如何锻炼更安全、更安心。

现在VLA 的训练范式需要先训练大语言模型,而大语言模型的参数量在100B左右,模型完了以后还需要让行动和语言、视觉去对齐。所以整个VLA的训练优先级不是侧重于驾驶的任务,而是侧重于位移。

也就是说大量的参数没有用在开车之间事情。好钢没有用在刀刃上。这也是我们最初判断VLA在自动驾驶上最多只是锦上添花。