群发资讯网

DeepSeek更新R1模型论文至86页

观点网讯:1月8日消息,DeepSeek近日更新了关于R1模型的论文,文章篇幅从原本的约20页扩展至86页。

更新后的文章进一步详细展示了LLM(大语言模型)的推理能力可以通过纯粹的强化学习(RL)来训练,且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。

同时,该方式在训练成本上也极具竞争力,DeepSeek-R1-Zero的训练仅耗时198小时。