Zero Zero - 搜索 News

知乎 on MSN26 分钟

过去一周，我收到了好多关于DeepSeek新出的R1模型的询问，特别关于他们的强化学习（RL）方法。

知乎 on MSN1 天

选自oatllm.notion.site，机器之心编译，编译：杜伟、蛋酱。在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。在 R1-Zero ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点