26 分钟
知乎 on MSN如何评价 DeepSeek 的 R1 与 R1-Zero 模型?过去一周,我收到了好多关于DeepSeek新出的R1模型的询问,特别关于他们的强化学习(RL)方法。
1 天
知乎 on MSN华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」选自oatllm.notion.site,机器之心编译,编译:杜伟、蛋酱。 在过去这半个月里,关于 DeepSeek 的一切都会迅速成为焦点。 一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。 在 R1-Zero ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果