在Chatbot Arena(由加州大学伯克利分校 SkyLab 和 LMSYS 的研究者开发,主要用于根据人类偏好评估大语言模型的性能)上,Gemini 2.5 Pro以横扫所有类别的显著优势排名第一,并且比紧随其后的Grok-3整整高出了39分。