群发资讯网

模型能力的一种衡量方法

怎么衡量大模型的能力?现在的方法是使用一个测试集,去计算大模型的分数。它的缺点是,只能用于横向比较,很难衡量进步速度。最

怎么衡量大模型的能力?

现在的方法是使用一个测试集,去计算大模型的分数。它的缺点是,只能用于横向比较,很难衡量进步速度。

最近,一篇论文提出了一种新的衡量方法[1]。

科学家首先计算,人类完成某一项任务需要多少时间。比如,计算 4 + 5 + 7,人类需要2秒,而计算 37 * 52 * 19,可能需要1分钟。

然后,测试大模型能否以50%的成功率完成这项任务。

研究发现,GPT-2 以50%成功率能够完成的任务,时间范围是两秒;Claude 3.7 Sonnet 是50分钟;O3 接近两小时;Opus 4.6 约为12小时。

也就是说,人类需要12小时才能完成的任务,Opus 4.6 的成功概率是50%。

结果就是上图,可以发现,大模型的进化速度在对数坐标下是一根直线。

每7个月,大模型能够以50%成功率完成的任务,时间范围扩大一倍。按照这个趋势,大模型将在2027年至2031年间,以50%的成功率完成人类专家需要一个月才能完成的任务。

如果这篇论文正确,就意味着年底发布的模型,将比年初强一倍。

References

[1] 一种新的衡量方法: https://emptysqua.re/blog/review-measuring-ai-ability-to-complete-long-software-tasks/