我们启动 Open R1 项目 已经两周了,这个项目是为了把 DeepSeek R1 缺失的部分补齐,特别是训练流程和合成数据。
这篇文章里,我们很高兴跟大家分享一个大成果: OpenR1-Math-220k,这是我们打造的第一个大规模数学推理数据集!
除此之外,我们还聊聊社区里一些让人兴奋的进展,比如怎么整理出小而精的高质量数据集来微调模型,以及如何在训练和推理时控制推理模型的“思考步数”。
一起来看看吧!
OpenR1-Math-220k 数据集
DeepSeek R1 的厉害之处在于,它能把高级推理能力“传授”给小模型。DeepSeek 团队生成了 60 万条推理记录,用来微调 Qwen 和 Llama 系列模型,结果证明,不用强化学习,直接从 R1 “蒸馏”出来的效果也很棒。比如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上拿下了 55.5% 的成绩,比更大的 QwQ-32B-Preview 还强。
不过,这些推理记录没公开,这就促使社区自食其力,重新创建了几个类似的数据集。比如 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |