击碎了「大模型会做数学题」这个神话

寂静回声 · 发表于 2025-4-4 10:07:56

ETH等团队的一项研究一经发布，就引起了圈内热议。这项研究彻底撕开遮羞布，直接击碎了「LLM会做数学题」这个神话！
鉴于此前它们在AIME上的出色表现，MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估，结果令人大吃一惊——所有大模型的得分，都低于5%！DeepSeek-R1表现最好，得分为4.76%；而表现最差的OpenAI o3-mini（high）比上一代o1-pro（high）还差，得分为2.08%。
总分42分，5%其实就是2.1分，DeepSeek得分最高，2分。
论文地址：https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf

		自动登录	找回密码
密码			立即注册

击碎了「大模型会做数学题」这个神话

浏览过的版块