本文旨在探寻实现Test-time scaling以及强大推理性能的最简途径。 主要贡献 精心策划小型数据集s1K:该数据集包含1000个问题,并配有推理过程,其构建基于难度、多样性和质量这三个标准,且通过消融实验进行了验证。 开发预算强制策略:通过强行终止模型的 ...
成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?! 这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能 ...
实验中发现,随机选择、选择具有最长推理轨迹的样本或仅选择最大多样性的样本,都会导致性能显著下降。 因此,使用59K个示例的完整数据池(s1K的超集)进行训练,并没有比选择的1K样本带来显著的提升。 用1K数据对现成的预训练模型进行监督微调 (SFT),在 ...
来自MSN16 天
成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了他们采用了一种名为test-time scaling的方法。研究团队构建了一个小型数据集s1K,通过难度、多样性和质量三个标准来筛选,其中包括1000个经过精心 ...
s1K 数据集就是一个很好的例子。它包含 1000 个经过精心挑选的数学问题,以及从 Gemini Flash 蒸馏出的推理轨迹。在选择问题时,研究者注重难度、多样性和质量。通过在 s1K 数据集上对 Qwen2.5-32B-Instruct 进行微调,研究者成功使其在竞赛数学基准测试中超过了 OpenAI ...
当地时间2月6日,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100GPU,耗时26分钟就完成了训练 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果