国产大模型已经走入加拉帕戈斯时刻
短短两年时间:大模型的战争,就从 GPT 一马当先,到国产大模型百模大战,再到行业格局固定,只剩大模型五虎和几个互联网大厂。在此期间,伴随模型大小一同膨胀的,则是算力、人才、电力、数据中心无数基础资源的不断加码。于是,全球范围内,英伟达的股价一路披荆斩棘,一年暴涨 7 倍,市值超越苹果;各大机构大模型团队,从研究员到助理,从教授到学生,接到的猎头电话,频率甚至超过了来自移动联通的套餐升级问候。
然而,参数的加码是无限的,资源是有限的,热潮当中,长期无限制的基础模型竞赛,真的是一个正确的方向吗?
加拉帕戈斯陷阱,指的是加拉帕戈斯群岛由于千万年来与世隔绝,产生了与大陆极为不同的稳定生态系统,可一旦面对来自外来物种入侵,就面临被淘汰的危险。
而在日本的商业社会中,日本电装最早在 1994 年发明二维码,结果发扬光大的却是中国的微信、支付宝;20 世纪日本人做出了全球保质期最久、最优秀的存储芯片,全世界却在韩国人的带领下爱上了良率不高却足够便宜的三星存储;再后来,新能源时代,日本人一步到位发展起了最清洁的燃料电池,但新能源汽车却在特斯拉的带领下,集体奔赴锂电池的星辰大海。
正如同日本的诺贝尔奖数量并不直接决定其产业的强势与否,对于 AI 产业,只卷基础大模型,或许会是一段时间里,行业最大的失误。
一个最直接的原因就是,当所有资源全部被押注在基础大模型的研发上时,直接带来的,或许不是技术的突飞猛进,而是相同成果一遍遍的复现,反而带来算力与研发资源的极大浪费。
就拿算力来说,一般来说,训练大模型的显卡标准配置为 A100 与 H100。当前,一张 A100 售价大约 8 万人民币,一张 H100 大约 15 万人民币;而将他们组装成服务器,一个 8 卡的 A100 服务器大约 130 万人民币,装配了 8 张 H100 显卡的服务器价格大约 200 万元。而将其对应到模型侧,训练一个千亿模型,大约需要用 1PB 数据,如果在 10 天内完成,需要至少一万张 A100,对应购买服务器的起步费用,就是 17 亿。
所以大模型的私有化部署,根本不可行。央企也折腾不起,更何况现在央企员工开资都费劲呢。又因为上层搞起了央企大模型运动,所以这帮央企就玩起了文字游戏,个个号称自研大模型。他拿什么显卡和数据训练大模型的呢。实际上全是基于RAG技术的生成式AI,以前说过,生成式AI的定义非常宽泛,只要能生成新数据,不是非有大模型不可。而央企内部搞的知识库显然也用不上大模型的高端思维,更何况大模型习惯性的胡说八道,倒不如RAG技术的引用来源。但这种冠以“大模型”的生成式AI多了,互联网大厂搞的通用大模型就更没央企用户。更收不到钱不能变现,而从普通消费者身上收钱,那更是不可能。因为通用大模型还不具备没了它就活不下去的程度,而大失业又让普通人更节衣缩食。
此外,OpenAI 训练 GPT-5 需要数万张英伟达 H100 芯片,也就是说,相应的服务器成本,将达到 30 亿人民币上下,如果再算上数据中心成本、人力成本、电力成本,以及无数次推到重来的可能,需要的成本,几乎相当于国内头部大模型独角兽的融资总额之多。但是美国公司对使用公有云比较放开,不会像国内这样,既不愿意上云,也没钱自建私有化部署。
大模型研发要钱,而在没有确定的营收之前,创投是核心的现金来源。但创投数据库 IT 桔子的数据显示,近两年来,无论 AI 的融资规模还是数量,相比 2017 年前后的 CV 热潮,都大有不足。但研发成本上,大模型却是上个时代 CV 的数倍之多。
于是,AI 行业一个怪圈出现了:早期,每当 Open AI 有新版本的大模型发布时,过不了三个月,国内一大批企业,就会引用第三方数据于开源数据集跑分,开始不断论证自家模型对各个版本 GPT 实现超越。
在这背后,为了迎合打榜需求,over-fitting(过拟合)也成为一个 AI 圈特有的现象,由于训练过程中,模型对某一或者某几个打榜用的开源数据集拟合过于精细,以至于模型记住了不少开源数据集特有的噪声,从而打榜分数居高不下,但实际应用中,效果却往往却一言难尽。
Larry Ellison 强调说开发出大模型的门槛是1000亿美金,是说真正自己开发,
有自己的框架,有自己的精调数据和实践,不是用Huggingface上面的开源模型。
这个资金量只有阿里,腾讯,华为,百度,字节可以尝试一下,也仅仅是尝试一下。
页:
[1]