Zero Zero - 搜索 News

腾讯网4 小时

【巡洋速评】TANCHJIM ZERO Ultima，百元新“卷王”

要说什么价位的塞子最卷，那必然是百元内。天使吉米的上一代ZERO发布以来算算也有两三年的时间了；前不久，天使吉米发布了ZERO的升级版本ZERO Ultima，定价79元（3.5mm版）/89元（TYPE-C ...

2 天

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

【新智元导读】最近某个华人团队发现：类似DeepSeek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为强化学习，而不是所谓的「顿悟」。最近，「啊哈时刻」（Aha ...

什么值得买 on MSN9 小时

入门“卷王”，再创辉煌！TANCHJIM天使吉米ZERO U零式终章

消费数码领域的音频分类，最贴近普世认知的价位段恐怕要数“百元塞”这个概念了，不论是音频发烧玩家入门，还是日常使用的数码向纯解决功能需求的用户，对这 ...

2 天

华人团队揭示DeepSeek-R1-Zero无顿悟时刻真相为何在强化学习中

研究团队在回顾过去的实验后指出，顿悟时刻在模型训练的初期阶段就已经显现，换言之，这种自我反思不需要经过强化学习的训练。他们测试了多个不同基础模型的表现，结果令人震惊：在未经过任何训练的部分，模型已经展现出了自我反思的特征。

来自MSN1 天

华人研究团队揭秘：DeepSeek-R1-Zero或许并不存在「顿悟时刻」

选自oatllm.notion.site，机器之心编译，编译：杜伟、蛋酱。在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。一项非常鼓舞人心的发现是：DeepSeek-R1-Zero 通过纯强化学习（RL）实现了「顿悟」。在那个瞬间，模型学会了自我反思等涌现技能，帮助它进行上下文搜索，从而解决复杂的推理问题。在 R1-Zero ...

来自MSN16 小时

如何评价 DeepSeek 的 R1 与 R1-Zero 模型？

过去一周，我收到了好多关于DeepSeek新出的R1模型的询问，特别关于他们的强化学习（RL）方法。 DeepSeek-R1，尤其是R1-Zero，展示了一个非常了不起的成就：通过纯RL训练，在编程和数学任务上表现出了超强的性能。不过，这里有个常见的误解需要澄清——R1-Zero并不是完全从零开始训练的。它其实是基于DeepSeek-V3-Base这个预训练的大语言模型（LLM）开发的，这个模型本 ...