资讯

作者:cage, haozhen我们在 2025 年 Q1 的大模型季报中提到,在 AGI 路线图上,只有智能提升是唯一主线,因此我们持续关注头部 AI Lab 的模型发布。上周 OpenAI 密集发布了 o 系列最新的两个模型 o3 和 ...
PhD 这些年即将告一段落,这几个月梳理先前的工作,准备 Tutorial,借鉴了不少去年从 RLC 上听 David Silver 讲过的思想,在这个 “RL Finally Generalizes (Shunyu Yao)” 的时代到来之际,也一直想写一篇文章作为整理,恰好最近读 Silver 和 Sutton 一起写的《经验时代》(Welcome to the era of ...
长线看,RL Scaling是进步斜率最大的方向,上周两位RL教父Richard Sutton和David Silver发布了一篇很重要的文章Era of Experience,强调了AI agent的进步将依赖于他们在环境中自主学习的经验。这个和我们最近研究中经常提及的online learning能力不谋而合,我们也会在文章中 ...