蔚来这次多了一个 SFT，意义不小

周三现场聊世界模型的时候，我感觉蔚来这次不是只想说“模型更大了”。
前天任少卿文章里把技术架构讲得更清楚：
这次新版本从原来的世界模型 + 闭环强化学习，升级成了世界模型 + 监督微调 + 闭环强化学习。
中间多了一个监督微调，也就是 SFT。
这个听起来很技术，但翻译成人话，就是让模型学习更多“好司机”的行为。
强化学习更像是让模型在场景里不断试、不断优化。监督微调则更像是用好行为数据去雕刻它的表现。
比如什么时候该柔和，什么时候该果断，什么时候该更合规，什么时候别像机器人一样突然一脚刹。
所以这次版本强调拟人感、基础控车体验、安心和效率兼顾，我觉得不是单纯把策略调保守了。
而是在训练框架里多了一层对“类人驾驶”的精细雕刻。
这也是为什么这次更新里有很多细节：加减速更柔和，路口刹车更舒服，换道更自然，转向灯时机更合理。
这些不是特别炸裂的新功能，但它们决定了一个智驾系统到底像不像“会开车的人”。
我觉得智驾下一阶段的竞争，会越来越从“能不能开”，变成“开得像不像人”。

群发资讯网

蔚来这次多了一个 SFT，意义不小

热门分类