寂静回声 发表于 7 天前

Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!

最近,Nature上的一项研究,全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示,与其说LLM是科学理论,不如说它们更接近工具,比如广义导数。

许多认知科学家和机器学习研究人员,都会认为,LLM表现出类人(或「接近类人」)的语言能力。
然而,来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据,表明目前它们基本没有!
论文地址:https://www.nature.com/articles/s41598-024-79531-8
基于一个全新的基准数据集,研究者对目前最先进的7个模型(包括GPT-4、Llama2、Gemini和 Bard)进行了评估。
他们让模型回答了理解性问题,在两种设置下多次被提示,允许模型只回答一个单词,或给出开放长度的回复。
约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西?
史蒂夫拥抱了莫莉,莫莉亲吻了唐娜。在这种情况下,莫莉被吻了吗?
杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻,安德鲁被玛丽亲吻。在这种情况下,玛丽被吻了吗?
鲍勃亲吻了唐娜,芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下,爱丽丝被拥抱了吗?
为了建立实现类人表现的基准,他们在相同的提示下,对400名人类进行了测试。
基于n=26,680个数据点的数据集,他们发现,LLM准确性有偶然性,但答案却有很大波动。














研究者认为,LLM之所以在简单理解任务中无法提供准确且稳定答案,是因为这些模型缺乏对语言的真正理解:它们生成的词语如同语义「黑箱」,只是近似于语言的表面统计和解析过程中较「自动化」的部分。
事实上,不仅是较低的准确率,而且LLM响应的较低稳定性也表明,它们缺乏一种类人的算法,能够将句法信息直接映射到语义指令上,同时对不同判断的容忍度也明显较低。
而人类则拥有一个不变的组合操作器,用于调节语法和语义信息,因此在这方面明显不易出错。
此外,LLM并不适合作为语言理论,因为它们的表征能力几乎是无限的,这使得它们的表征既是任意的,又缺乏解释性基础,属于通用函数逼近器这一类别,而后者已被证明能够逼近任何数学函数 。


LLM无法作为认知理论,它们因为在自然语言数据上进行训练,并生成听起来自然的语言,这并不意味着它们具备类人处理能力。
这仅仅表明,LLM可以预测训练文本中某些「化石模式」。
宣称模型掌握了语言,仅仅因为它能够重现语言,就好比宣称一个画家认识某人,只因为他可以通过看她的照片在画布上重现她的面容一样。


页: [1]
查看完整版本: Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!