搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 24 小时
时间不限
过去 1 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
21 小时
DeepSeek-R1-Zero不存在顿悟时刻?华人团队揭秘真相:或只因强化学习
【新智元导读】最近某个华人团队发现:类似DeepSeek-R1-Zero的「顿悟时刻」,可能并不存在。类似复现实验中之所以出现响应变长现象,或许只是因为强化学习,而不是所谓的「顿悟」。 最近,「啊哈时刻」(Aha ...
21 小时
华人团队揭示DeepSeek-R1-Zero无顿悟时刻 真相为何在强化学习中
研究团队在回顾过去的实验后指出,顿悟时刻在模型训练的初期阶段就已经显现,换言之,这种自我反思不需要经过强化学习的训练。他们测试了多个不同基础模型的表现,结果令人震惊:在未经过任何训练的部分,模型已经展现出了自我反思的特征。
知乎 on MSN
6 小时
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
选自oatllm.notion.site,机器之心编译,编译:杜伟、蛋酱。 在过去这半个月里,关于 DeepSeek 的一切都会迅速成为焦点。 一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。 在 R1-Zero ...
知乎 on MSN
6 小时
如何评价deepseek-R1与deepseek-R1-Zero模型?
这款模型最近真的很火,让我想起了当初kimi刚发布的时候。网上关于它的讨论基本都聚焦在“便宜,开源,创新”这几点上,对于吃瓜群众来说足以呼应他们的情绪了,但从开发者的角度来说,我们更想知道,可以从这个“自学成才”的模型中学到什么? “自学成才” ...
腾讯网
21 小时
AI顿悟时刻
DeepSeek的开源策略不仅降低了AI技术的使用门槛,使AI应用生态从“寡头游戏”转向“全民参与”,还使得其影响力迅速扩散到全球。“等等,等等。这一步可能有误。”这是AI首次展现出像人类一样的思维和内心独白——就像人类在解决难题时,突然意识到之前的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈