austin theory - 搜索 News

11 天

在过去的一年里，大语言模型（LLM）展现了令人惊叹的 "文本生成" 和 "智能代理" 能力。许多社区用户已经见到了各大模型的「百花齐放」：从高效的简单问答到多轮对话推理。

11 天

传统的规划评测大多在单人、可完全观察的环境中进行，无法充分反映现实中团队决策的复杂度。而 SPIN-Bench 试图通过形式化任务与多人场景相结合，把现实中需要的 "同伴合作"" 谈判博弈 " 等关键技能一并纳入，以帮助找到 LLM ...

一些您可能无法访问的结果已被隐去。

今日热点