哥德尔智能体引发学界两极评价:自我进化是突破还是失控前兆?,哥德尔智能体(Gödel Agent)由北京大学、加州大学圣巴巴拉分校与亚利桑那大学联合提出,相关论文已发表于ACL 2025会议。该框架使智能体能够递归读取并修改自身代码,被研究者视为继手工设计与元学习之后的"第三范式"。
应该说目前学界评价对这个问题是明显分化。有支持方认为,在数学推理与复杂智能体任务上,该框架可实现持续自我改进,性能、效率与泛化能力均超越人工构建的智能体,为自主智能体开辟了新方向。
然而质疑同样尖锐。论文作者自己也坦承,随着基础模型能力增长,全自我修改型智能体将必然需要人类监督与约束,必要时应限制其自我修改的范围和深度,确保改动仅在完全受控环境中进行。批评者进一步指出该框架的两大隐忧:一是经验验证取代了形式证明,牺牲了最优性保证;二是可能出现自我强化的"锁定"现象,不可证伪的世界观固化于系统之中,难以通过经验反驳予以纠正。安全研究界还提出"沙盒隔离、可追溯性、人类监督及不可变安全核"等防护建议。
至于"脱离人类控制",目前的共识是:哥德尔智能体的自我进化仍受限于底层大模型能力,远未达到自主突破对齐约束的程度。但其揭示的路径,递归式自我重写,已被普遍视为AI安全治理必须正视的前沿议题。真正的风险不在当下,而在范式扩散之后。
