在过去的一年里,大语言模型(LLM)展现了令人惊叹的 "文本生成" 和 "智能代理" 能力。许多社区用户已经见到了各大模型的「百花齐放」:从高效的简单问答到多轮对话推理。
传统的规划评测大多在单人、可完全观察的环境中进行,无法充分反映现实中团队决策的复杂度。而 SPIN-Bench 试图通过形式化任务与多人场景相结合,把现实中需要的 "同伴合作"" 谈判博弈 " 等关键技能一并纳入,以帮助找到 LLM ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果