机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 345|回复: 0

在这个问题上 全球大模型都成了废物

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
170259
发表于 2024-7-17 14:07:07 | 显示全部楼层 |阅读模式
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?记者测试了12个大模型,有8家答错。答对的大模型解题都比较相似,但答错的模型则各有各的逻辑和表达。例如全球公认第一梯队的大模型ChatGPT回复称,小数点后面的数字“11大于9”,因此9.11大。










有人提出,大模型回答错误可能是语境问题。比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。同时,对于答错的大模型记者进一步追问或者否认,几乎所有大模型都承认自己之前回答错误,并给出了正确答案。

实际上,如果追根溯源,引发这一问题的是上周末国内一个综艺相关的热搜。节目中,两名歌手的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。

为什么号称智能的大模型答不好小学生数学题?今年6月,7个大模型在高考测试中语文和英语考试水平普遍不错,但数学这科全不及格,最高分也只有75分。老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。这意味着,大模型的公式记忆能力较强,但是无法在解题过程中灵活应用。

一些行业人士原因归结于大语言模型的架构问题,大语言模型往往是通过预测下一个词的监督学习方式进行训练。简单来说,向大模型输入大规模的文本数据集,模型会根据文本来预测下一个词的概率分布。通过不断比较预测和实际的结果,语言模型逐步掌握了语言规律,学会了预测并生成了下一个词。

一位算法工程师认为,生成式的语言模型更像文科生而不是理科生。语言模型在这样的数据训练中学到的是相关性,而数学推理更需要的是因果性,数学是高度抽象和逻辑驱动的。这意味着大模型除了学习世界知识外,还应该有思维的训练,从而具备推理演绎能力。

此外,大部分行业人士都会想到分词器的数字切分问题。技术人员解释,早期分词器经常把连续的若干数字切在一起形成一个Token,比如“13579”,可能被切成3个Token ,“13”是一个,“57”是一个,“9”是一个。哪些数字被切在一起,取决于数据集合里的统计情况。在这种不确定情况下,要想做多位数字数值计算,是非常困难的。

不过,上述问题也正在慢慢被解决,在思维能力上更核心的可能还是训练语料的问题。大语言模型主要通过互联网的文本数据进行训练,而这些数据中数学问题相对较少。值得一提的是,大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-9-8 10:39 , Processed in 0.106834 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表