寂静回声 发表于 2025-4-4 10:07:56

击碎了「大模型会做数学题」这个神话

ETH等团队的一项研究一经发布,就引起了圈内热议。这项研究彻底撕开遮羞布,直接击碎了「LLM会做数学题」这个神话!
鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊——所有大模型的得分,都低于5%!DeepSeek-R1表现最好,得分为4.76%;而表现最差的OpenAI o3-mini(high)比上一代o1-pro(high)还差,得分为2.08%。
总分42分,5%其实就是2.1分,DeepSeek得分最高,2分。
论文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf
https://s3.bmp.ovh/imgs/2025/04/04/582db0213d11b64c.jpg
https://s3.bmp.ovh/imgs/2025/04/04/61f4f832fd11b71d.jpg

页: [1]
查看完整版本: 击碎了「大模型会做数学题」这个神话