Momenta 旭东判断 VLA 和世界模型的关系：语言模型其实什么都能表达，能

Momenta 旭东判断 VLA 和世界模型的关系：

语言模型其实什么都能表达，能说不同语言也能编程，但是开好车的事情上不需要这个人会写代码，也不需要会讲英文。

它需要对各种各样有关驾驶的安全场景有很好的判断，也就是对物理世界的规律有很好的理解，并且能够做出及时反应。

第一个要见过，要有预判还能预测出来，有很好的肌肉记忆，这个刚好是世界模型具备的，而强化学习又能收集大量的常有的场景，来反复锻炼它的肌肉记忆。让它知道在危险情况下肌肉记忆如何锻炼更安全、更安心。

现在VLA 的训练范式需要先训练大语言模型，而大语言模型的参数量在100B左右，模型完了以后还需要让行动和语言、视觉去对齐。所以整个VLA的训练优先级不是侧重于驾驶的任务，而是侧重于位移。

也就是说大量的参数没有用在开车之间事情。好钢没有用在刀刃上。这也是我们最初判断VLA在自动驾驶上最多只是锦上添花。

群发资讯网