国产大模型靠刷榜吹牛逼

寂静回声 发表于 2024-9-12 14:31:34

本帖最后由寂静回声于 2024-9-12 14:34 编辑

大模型目前的评测体系，从来就不复杂，就是考试，纯纯的考试。评测数据集相当于试卷，模型就是正在考试的学生，最后交卷，看谁的分高。
听起来是不是很科学？理论上是的，但是大模型评测领域有一个非常严重的BUG，就是评测集，就是考试试卷，是公开的，所有人在考试之前，都可以看到考卷。
为什么评测机构要公开评测集？不公开不就行了？
答案是不行，高考和学校的考试，是权威的考试，我不差你一个，你爱考不考，我就是天，我就是规则，所以，他们当然不会公开试卷，一切以公平说话。
但是大模型领域，太新了，这些评测榜单，比如SuperCLUE、C-Eval、HuggingFace，话语权没那么大，供需关系倒过来了，如果机构在评测时用什么问题以及对应什么答案是什么一直不公开，如果机构的评测逻辑与工具、评分方法与过程是封闭的“黑盒子”，那一定会被招来无数质疑，先被干躺的是这些评测机构你信不信。
两害相权取其轻，所以就变成了现在的情况了。

人们总是单纯的，总是喜欢量化的，也总是喜欢用一些固定的标准，来恒定一个东西的好与差。所以在这一年半的国产百模大战中，我们经常能听到各种奇奇怪怪的第一，每个国产模型，都说自己超越GPT4o了，把它按在脚下摩擦。
6月27日：“ 讯飞星火V4.0不仅在8个国际主流测试集中排名第一，领先国内大模型，并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现了对GPT-4 Turbo的整体超越。”
5月21日："在 LMSYS最新排名中，零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7，中国大模型中第一，已经超过 Llama-3-70B、Claude 3 Sonnet；其中文分榜更是与 GPT4o 并列世界第一。"
3月26日："沙利文发布了《2024年中国大模型能力评测》，评测显示，百度文心一言稳居国产大模型首位，拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一"

上面是文心一言4.0T，下面是chatgpt4o

所以你就明白，为什么星火大模型和文心大模型那么烂，都成天榜单第一。
N多模型，直接把评测集的数据训在了模型里面，从而直接屠榜
况且，有的排行榜，那是真的不能看，比如前段时间看到的一个权威机构的文生视频排行榜，用量化指标来恒量视频生成质量。
别的我不说了，我就说你把智谱清影排在可灵上面，你自己去问问智谱的人，他们敢接这个第二吗？智谱是一家很实诚的公司，所以他们品牌市场也没拿这玩意去做宣传，你要是一些别的公司，又得PR起飞了。
这个榜单创作者们看到也只会笑笑，大家不傻，真的。

国产大模型几个APP在用户手机留存时间不会超过半年，半年后全删了，没用。

这就像学校里考试，我们每个人都公平的在考场上，一起考试答题，大家各凭本事一决胜负。
但是偏偏有个学生，平时满分750他只能考个299，但是这次，他在考试前，已经提前知道了所有卷子的题目和答案，都在脑子里背了下来，只有一些语文之类的主观题没有满分，其他全是满分，考了720分。
那你会觉得，他考了720分，是因为他真的牛逼吗？
现在的大模型榜单，还有各种乱七八糟的AI产品榜单，参考看看可以，但是不要奉为圣经，更不要当真，拿来做你跟别人吵架的凭据。
大模型的评测，跟这种考试，没有任何区别。
当所有的大模型，都用MMLU、MATH、IFEval、GSM8K之类的基准测试来衡量自己模型的能力，那这些基准测试，也就不再是一个好的基准了。

连chatgpt最近两个月个人用户使用量都大幅度下降。
因为免费的4o-mini其智商特别差，比国产通义大模型还差。

页: [1]

机械荟萃山庄's Archiver

国产大模型靠刷榜吹牛逼