机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 73|回复: 0

击碎了「大模型会做数学题」这个神话

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
182629
发表于 3 天前 | 显示全部楼层 |阅读模式
ETH等团队的一项研究一经发布,就引起了圈内热议。这项研究彻底撕开遮羞布,直接击碎了「LLM会做数学题」这个神话!
鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊——所有大模型的得分,都低于5%!DeepSeek-R1表现最好,得分为4.76%;而表现最差的OpenAI o3-mini(high)比上一代o1-pro(high)还差,得分为2.08%。
总分42分,5%其实就是2.1分,DeepSeek得分最高,2分。
论文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf  



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-4-7 18:18 , Processed in 0.105771 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表