首页|Evaluating Gemini in an arena for learning

Evaluating Gemini in an arena for learning

来源：

英文摘要

Artificial intelligence (AI) is poised to transform education, but the research community lacks a robust, general benchmark to evaluate AI models for learning. To assess state-of-the-art support for educational use cases, we ran an "arena for learning" where educators and pedagogy experts conduct blind, head-to-head, multi-turn comparisons of leading AI models. In particular, $N = 189$ educators drew from their experience to role-play realistic learning use cases, interacting with two models sequentially, after which $N = 206$ experts judged which model better supported the user's learning goals. The arena evaluated a slate of state-of-the-art models: Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4o, and OpenAI o3. Excluding ties, experts preferred Gemini 2.5 Pro in 73.2% of these match-ups -- ranking it first overall in the arena. Gemini 2.5 Pro also demonstrated markedly higher performance across key principles of good pedagogy. Altogether, these results position Gemini 2.5 Pro as a leading model for learning.

作者：Parsa Mahmoudieh、Pierre-Alexandre Kamienny、Sara Wiltberger、Shakir Mohamed、Shashank Agarwal、Shubham Milind Phal、Sun Jae Lee、Theofilos Strinopoulos、Wei-Jen Ko、Yael Gold-Zamir、Yael Haramaty、Yannis Assael、LearnLM Team、Abhinit Modi、Aditya Srikanth Veerubhotla、Aliya Rysbek、Andrea Huber、Ankit Anand、Avishkar Bhoopchand、Brett Wiltshire、Daniel Gillick、Daniel Kasenberg、Eleni Sgouritsa、Gal Elidan、Hengrui Liu、Holger Winnemoeller、Irina Jurenka、James Cohan、Jennifer She、Julia Wilkowski、Kaiz Alarakyia、Kevin R. McKee、Komal Singh、Lisa Wang、Markus Kunesch、Miruna P?slar、Niv Efron

作者单位：

学科分类：教育

推荐引用：Parsa Mahmoudieh,Pierre-Alexandre Kamienny,Sara Wiltberger,Shakir Mohamed,Shashank Agarwal,Shubham Milind Phal,Sun Jae Lee,Theofilos Strinopoulos,Wei-Jen Ko,Yael Gold-Zamir,Yael Haramaty,Yannis Assael,LearnLM Team,Abhinit Modi,Aditya Srikanth Veerubhotla,Aliya Rysbek,Andrea Huber,Ankit Anand,Avishkar Bhoopchand,Brett Wiltshire,Daniel Gillick,Daniel Kasenberg,Eleni Sgouritsa,Gal Elidan,Hengrui Liu,Holger Winnemoeller,Irina Jurenka,James Cohan,Jennifer She,Julia Wilkowski,Kaiz Alarakyia,Kevin R. McKee,Komal Singh,Lisa Wang,Markus Kunesch,Miruna P?slar,Niv Efron.Evaluating Gemini in an arena for learning[EB/OL].(2025-05-30)[2025-06-13].https://arxiv.org/abs/2505.24477.点此复制

Evaluating Gemini in an arena for learning

Evaluating Gemini in an arena for learning

评论