群发资讯网

蔚来这次多了一个 SFT,意义不小

周三现场聊世界模型的时候,我感觉蔚来这次不是只想说“模型更大了”。
前天任少卿文章里把技术架构讲得更清楚:
这次新版本从原来的 世界模型 + 闭环强化学习, 升级成了 世界模型 + 监督微调 + 闭环强化学习。
中间多了一个监督微调,也就是 SFT。
这个听起来很技术,但翻译成人话,就是让模型学习更多“好司机”的行为。
强化学习更像是让模型在场景里不断试、不断优化。 监督微调则更像是用好行为数据去雕刻它的表现。
比如什么时候该柔和,什么时候该果断,什么时候该更合规,什么时候别像机器人一样突然一脚刹。
所以这次版本强调拟人感、基础控车体验、安心和效率兼顾,我觉得不是单纯把策略调保守了。
而是在训练框架里多了一层对“类人驾驶”的精细雕刻。
这也是为什么这次更新里有很多细节: 加减速更柔和,路口刹车更舒服,换道更自然,转向灯时机更合理。
这些不是特别炸裂的新功能, 但它们决定了一个智驾系统到底像不像“会开车的人”。
我觉得智驾下一阶段的竞争,会越来越从“能不能开”,变成“开得像不像人”。