机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 91|回复: 0

AI图像推理能力再被拷打

[复制链接]

2万

主题

2万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
191372
发表于 7 天前 | 显示全部楼层 |阅读模式
拷打AI的难度还在升级?这不,图像推理又出现了新难题。(这事发生在GPT-5发布之前)
问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?

针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。
其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。
而国内大模型,如DeepSeek、通义Qwen3的答案分别为14和9。
出现这些不同答案的原因是什么呢?核心原因:大模型对组成的大立方体的规格理解不同。
o3将最终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。
而AI的错误源于它对图片中小立方体的结构和数目的分析错误。
Gemini 2.5 Pro将最终组成的大立方体的规格理解为4x4x4。
而DeepSeek和Qwen都将最终的大立方体规格设定为了3x3x3。
对于最终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。
不过,结合提示多次尝试,也有大模型能够渐渐找准方向。

网友针对这些错误答案提供了一些解决办法:
例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。【图10】
网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑最长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。
因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。
如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):那么o3得到的答案也是正确的。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-9-1 16:01 , Processed in 0.086501 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表