周末聊聊一个有意思的技术设计:Cursor的Auto-review。
简单说就是:Cursor在AI Agent执行危险操作之前,用另一个小模型先审查一下。"你是不是想删用户的生产数据?等等我先看一眼。"
这个设计很聪明。不让用户每一小步都确认(烦死了),也不让Agent为所欲为(太危险)。而是用一个小模型当"门卫"——低风险直接放行,高风险拦住解释。
测试数据挺有意思:基于6122条真实开发者会话的标签数据训练的。就是说模型知道"真实的危险操作"长什么样,不是凭空猜的。
说实话这种"小模型守门员+大模型执行者"的架构,我觉得是未来AI Agent的标准配置。一个负责快,一个负责稳。AI Agent Cursor 安全