Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

寂静回声 · 发表于 2024-11-17 16:58:32

最近，Nature上的一项研究，全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示，与其说LLM是科学理论，不如说它们更接近工具，比如广义导数。

许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。
然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！
论文地址：https://www.nature.com/articles/s41598-024-79531-8
基于一个全新的基准数据集，研究者对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和 Bard）进行了评估。
他们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。
约翰欺骗了玛丽，露西也被玛丽欺骗了。在这种情况下，玛丽是否欺骗了露西？
史蒂夫拥抱了莫莉，莫莉亲吻了唐娜。在这种情况下，莫莉被吻了吗？
杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻，安德鲁被玛丽亲吻。在这种情况下，玛丽被吻了吗？
鲍勃亲吻了唐娜，芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下，爱丽丝被拥抱了吗？
为了建立实现类人表现的基准，他们在相同的提示下，对400名人类进行了测试。
基于n=26,680个数据点的数据集，他们发现，LLM准确性有偶然性，但答案却有很大波动。

研究者认为，LLM之所以在简单理解任务中无法提供准确且稳定答案，是因为这些模型缺乏对语言的真正理解：它们生成的词语如同语义「黑箱」，只是近似于语言的表面统计和解析过程中较「自动化」的部分。
事实上，不仅是较低的准确率，而且LLM响应的较低稳定性也表明，它们缺乏一种类人的算法，能够将句法信息直接映射到语义指令上，同时对不同判断的容忍度也明显较低。
而人类则拥有一个不变的组合操作器，用于调节语法和语义信息，因此在这方面明显不易出错。
此外，LLM并不适合作为语言理论，因为它们的表征能力几乎是无限的，这使得它们的表征既是任意的，又缺乏解释性基础，属于通用函数逼近器这一类别，而后者已被证明能够逼近任何数学函数。

LLM无法作为认知理论，它们因为在自然语言数据上进行训练，并生成听起来自然的语言，这并不意味着它们具备类人处理能力。
这仅仅表明，LLM可以预测训练文本中某些「化石模式」。
宣称模型掌握了语言，仅仅因为它能够重现语言，就好比宣称一个画家认识某人，只因为他可以通过看她的照片在画布上重现她的面容一样。

		自动登录	找回密码
密码			立即注册

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

本帖子中包含更多资源