成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?! 这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能 ...
在 s1 的新工作中,研究人员寻求最简单的方法来实现测试时间扩展。它们构建了一个小型数据集 s1K,其中包含 1000 个问题,并根据三个标准(难度、多样性和质量)与推理轨迹进行配对。 在此基础上,研究人员开发了「预算强制」来控制测试时间计算 ...