苹果炮轰推理模型全是假思考

寂静回声 发表于 2025-6-11 10:19:58

苹果最新大模型论文，在AI圈炸开了锅。
有人总结到：苹果刚刚当了一回马库斯，否定了所有大模型的推理能力。
这篇论文称推理模型全都没在真正思考，无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”，所谓思考只是一种假象。
这篇论文称推理模型全都没在真正思考，无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”，所谓思考只是一种假象。

再遇到真正高复杂度的任务时所有模型都会崩溃，即使给他们足够的时间和计算资源也无济于事。

作者中包括谷歌大脑创始人之一Samy Bengio（图灵奖得主Yoshua Bengio的弟弟）。
苹果团队认为现有评估主要集中在既定的数学和编码基准上，看模型最终答案是否正确，但可能存在数据污染（模型训练时见过类似题目）。并且，这些评估大都缺乏对“思考过程质量”的分析，比如中间步骤是否逻辑一致、是否绕弯路等。
为了克服这些限制，更客观测试推理模型的推理能力，他们设计了4类谜题环境。
巧妙之处在于，四类谜题的难度可以精确控制，同时保持逻辑结构的一致性，研究者能够系统观察模型在不同复杂度下的行为变化，比如生成的每一步移动是否正确、是否重复试错。
https://mp.weixin.qq.com/s/WRPjXZRm4QRGOUzsJ4FxGA
https://s3.bmp.ovh/imgs/2025/06/11/2e0ca10ccdf5f059.jpg
https://s3.bmp.ovh/imgs/2025/06/11/7753210e99791877.jpg
https://s3.bmp.ovh/imgs/2025/06/11/590187f81a074e3d.jpg
https://s3.bmp.ovh/imgs/2025/06/11/5776958fa738f05f.jpg

373527271 发表于 2025-6-11 10:25:38

科学和技术都是可以质疑的，在不断质疑中修正和发展，最终造福全人类。
对AI质疑是好事，且绝对有益的，目前的AI不具备人类思维和逻辑推理的
能力。
但是不妨碍AI现在水平已经应用在很多领域了。

747282747 发表于 2025-6-11 10:28:45

“AI技术应该叫统计科学而不是推理模型”

2266998 发表于 2025-6-11 12:09:58

哈，我很早说过，我不用！因为影响生意！耽误赚钱，身处唐朝，蒸汽机很遥远，也许有！

天火蓝绝 发表于 2025-6-12 09:11:29

思考一个问题啊：假如说将来AI发展成熟了，所有活都让AI和机器人做了。那么人类就没有用了啊。

wf2725864 发表于 2025-6-12 18:57:10

AI太虚了

页: [1]

机械荟萃山庄's Archiver

苹果炮轰推理模型全是假思考