模型能力的一种衡量方法

怎么衡量大模型的能力？

现在的方法是使用一个测试集，去计算大模型的分数。它的缺点是，只能用于横向比较，很难衡量进步速度。

最近，一篇论文提出了一种新的衡量方法[1]。

科学家首先计算，人类完成某一项任务需要多少时间。比如，计算 4 + 5 + 7，人类需要2秒，而计算 37 * 52 * 19，可能需要1分钟。

然后，测试大模型能否以50%的成功率完成这项任务。

研究发现，GPT-2 以50%成功率能够完成的任务，时间范围是两秒；Claude 3.7 Sonnet 是50分钟；O3 接近两小时；Opus 4.6 约为12小时。

也就是说，人类需要12小时才能完成的任务，Opus 4.6 的成功概率是50%。

结果就是上图，可以发现，大模型的进化速度在对数坐标下是一根直线。

每7个月，大模型能够以50%成功率完成的任务，时间范围扩大一倍。按照这个趋势，大模型将在2027年至2031年间，以50%的成功率完成人类专家需要一个月才能完成的任务。

如果这篇论文正确，就意味着年底发布的模型，将比年初强一倍。

References

[1] 一种新的衡量方法: https://emptysqua.re/blog/review-measuring-ai-ability-to-complete-long-software-tasks/

群发资讯网