寂静回声 发表于 2025-8-25 10:00:17

AI图像推理能力再被拷打

拷打AI的难度还在升级?这不,图像推理又出现了新难题。(这事发生在GPT-5发布之前)
问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?
https://s3.bmp.ovh/imgs/2025/08/25/f1fb9b79a5e3f2f4.jpg
针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。
其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。
而国内大模型,如DeepSeek、通义Qwen3的答案分别为14和9。
出现这些不同答案的原因是什么呢?核心原因:大模型对组成的大立方体的规格理解不同。
o3将最终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。
而AI的错误源于它对图片中小立方体的结构和数目的分析错误。
Gemini 2.5 Pro将最终组成的大立方体的规格理解为4x4x4。
而DeepSeek和Qwen都将最终的大立方体规格设定为了3x3x3。
对于最终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。
不过,结合提示多次尝试,也有大模型能够渐渐找准方向。

网友针对这些错误答案提供了一些解决办法:
例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。【图10】
网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑最长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。
因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。
如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):那么o3得到的答案也是正确的。
https://s3.bmp.ovh/imgs/2025/08/25/2f9db3e257d69331.jpg

页: [1]
查看完整版本: AI图像推理能力再被拷打