群发资讯网

DeepSeek更新R1模型论文至86页

2026-01-09 02:36:19 观点机构未分类

观点网讯：1月8日消息，DeepSeek近日更新了关于R1模型的论文，文章篇幅从原本的约20页扩展至86页。

更新后的文章进一步详细展示了LLM（大语言模型）的推理能力可以通过纯粹的强化学习（RL）来训练，且训练出的模型在数学、编码竞赛和STEM领域等可验证任务上取得了优异的成绩。

同时，该方式在训练成本上也极具竞争力，DeepSeek-R1-Zero的训练仅耗时198小时。

阅读：6 点赞：0