寂静回声 发表于 2024-9-12 14:31:34

国产大模型靠刷榜吹牛逼

本帖最后由 寂静回声 于 2024-9-12 14:34 编辑

大模型目前的评测体系,从来就不复杂,就是考试,纯纯的考试。评测数据集相当于试卷,模型就是正在考试的学生,最后交卷,看谁的分高。
听起来是不是很科学?理论上是的,但是大模型评测领域有一个非常严重的BUG,就是评测集,就是考试试卷,是公开的,所有人在考试之前,都可以看到考卷。
为什么评测机构要公开评测集?不公开不就行了?
答案是不行,高考和学校的考试,是权威的考试,我不差你一个,你爱考不考,我就是天,我就是规则,所以,他们当然不会公开试卷,一切以公平说话。
但是大模型领域,太新了,这些评测榜单,比如SuperCLUE、C-Eval、HuggingFace,话语权没那么大,供需关系倒过来了,如果机构在评测时用什么问题以及对应什么答案是什么一直不公开,如果机构的评测逻辑与工具、评分方法与过程是封闭的“黑盒子”,那一定会被招来无数质疑,先被干躺的是这些评测机构你信不信。
两害相权取其轻,所以就变成了现在的情况了。

人们总是单纯的,总是喜欢量化的,也总是喜欢用一些固定的标准,来恒定一个东西的好与差。所以在这一年半的国产百模大战中,我们经常能听到各种奇奇怪怪的第一,每个国产模型,都说自己超越GPT4o了,把它按在脚下摩擦。
6月27日:“ 讯飞星火V4.0不仅在8个国际主流测试集中排名第一,领先国内大模型,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现了对GPT-4 Turbo的整体超越。”
5月21日:"在 LMSYS最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与 GPT4o 并列世界第一。"
3月26日:"沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一"





上面是文心一言4.0T,下面是chatgpt4o








所以你就明白,为什么星火大模型和文心大模型那么烂,都成天榜单第一。
N多模型,直接把评测集的数据训在了模型里面,从而直接屠榜
况且,有的排行榜,那是真的不能看,比如前段时间看到的一个权威机构的文生视频排行榜,用量化指标来恒量视频生成质量。
别的我不说了,我就说你把智谱清影排在可灵上面,你自己去问问智谱的人,他们敢接这个第二吗?智谱是一家很实诚的公司,所以他们品牌市场也没拿这玩意去做宣传,你要是一些别的公司,又得PR起飞了。
这个榜单创作者们看到也只会笑笑,大家不傻,真的。

国产大模型几个APP在用户手机留存时间不会超过半年,半年后全删了,没用。

这就像学校里考试,我们每个人都公平的在考场上,一起考试答题,大家各凭本事一决胜负。
但是偏偏有个学生,平时满分750他只能考个299,但是这次,他在考试前,已经提前知道了所有卷子的题目和答案,都在脑子里背了下来,只有一些语文之类的主观题没有满分,其他全是满分,考了720分。
那你会觉得,他考了720分,是因为他真的牛逼吗?
现在的大模型榜单,还有各种乱七八糟的AI产品榜单,参考看看可以,但是不要奉为圣经,更不要当真,拿来做你跟别人吵架的凭据。
大模型的评测,跟这种考试,没有任何区别。
当所有的大模型,都用MMLU、MATH、IFEval、GSM8K之类的基准测试来衡量自己模型的能力,那这些基准测试,也就不再是一个好的基准了。

连chatgpt最近两个月个人用户使用量都大幅度下降。
因为免费的4o-mini其智商特别差,比国产通义大模型还差。


页: [1]
查看完整版本: 国产大模型靠刷榜吹牛逼