在这个过程中,测试时强化学习(TTRL)也显得尤为重要。在AI处理复杂数学问题时,TTRL策略能够动态生成更为简单的积分变体,让模型积累经验,帮助其找到解决原问题的方法。与以往单纯增加输出长度的方式不同,TTRL允许模型在推理时进行“刷题”,有效扩展能力边界。
Ladder Capital ...
梦晨 发自 凹非寺量子位 | 公众号 QbitAI 见识过32B的QwQ追平671的DeepSeek R1后—— 刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事? 新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。 使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛(MIT Integration Bee)上达到90分 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果