Zero Zero - 搜索 News

21 小时

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

【新智元导读】最近某个华人团队发现：类似DeepSeek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为强化学习，而不是所谓的「顿悟」。最近，「啊哈时刻」（Aha ...

21 小时

华人团队揭示DeepSeek-R1-Zero无顿悟时刻真相为何在强化学习中

研究团队在回顾过去的实验后指出，顿悟时刻在模型训练的初期阶段就已经显现，换言之，这种自我反思不需要经过强化学习的训练。他们测试了多个不同基础模型的表现，结果令人震惊：在未经过任何训练的部分，模型已经展现出了自我反思的特征。

知乎 on MSN6 小时

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

选自oatllm.notion.site，机器之心编译，编译：杜伟、蛋酱。在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。在 R1-Zero ...

知乎 on MSN6 小时

如何评价deepseek-R1与deepseek-R1-Zero模型？

这款模型最近真的很火，让我想起了当初kimi刚发布的时候。网上关于它的讨论基本都聚焦在“便宜，开源，创新”这几点上，对于吃瓜群众来说足以呼应他们的情绪了，但从开发者的角度来说，我们更想知道，可以从这个“自学成才”的模型中学到什么？ “自学成才” ...

腾讯网21 小时

AI顿悟时刻

DeepSeek的开源策略不仅降低了AI技术的使用门槛，使AI应用生态从“寡头游戏”转向“全民参与”，还使得其影响力迅速扩散到全球。“等等，等等。这一步可能有误。”这是AI首次展现出像人类一样的思维和内心独白——就像人类在解决难题时，突然意识到之前的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果