研究结论和讨论部分指出,在回答医学问题时,ChatGPT 在三个模型中表现最为出色,Copilot 在某些特定领域(如解释生化数据)有一定潜力,而 Gemini 则表现相对较弱。然而,即使是表现最好的 ChatGPT,与医学教师相比,其准确率也仅为 84%,这意味着通用的 LLMs 在医学教育中的准确性还有待提高,使用时需要谨慎。同时,研究还发现 LLMs ...