击碎了「大模型会做数学题」这个神话

寂静回声 发表于 2025-4-4 10:07:56

ETH等团队的一项研究一经发布，就引起了圈内热议。这项研究彻底撕开遮羞布，直接击碎了「LLM会做数学题」这个神话！
鉴于此前它们在AIME上的出色表现，MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估，结果令人大吃一惊——所有大模型的得分，都低于5%！DeepSeek-R1表现最好，得分为4.76%；而表现最差的OpenAI o3-mini（high）比上一代o1-pro（high）还差，得分为2.08%。
总分42分，5%其实就是2.1分，DeepSeek得分最高，2分。
论文地址：https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf
https://s3.bmp.ovh/imgs/2025/04/04/582db0213d11b64c.jpg
https://s3.bmp.ovh/imgs/2025/04/04/61f4f832fd11b71d.jpg

页: [1]

机械荟萃山庄's Archiver

击碎了「大模型会做数学题」这个神话