机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 557|回复: 0

破案了 那个整体拷贝外国开源大模型的国产AI原来是

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
174369
发表于 2023-11-15 15:12:53 | 显示全部楼层 |阅读模式





11月14日,针对开源社区Hugging Face提出的“除了两个张量被重命名外,大模型Yi完全使用了 Llama 的架构”一事,零一万物向21世纪经济报道记者回应称,“在大量训练实验过程中,由于实验执行的需要对代码做了更名,我们尊重开源社区的反馈,将代码进行更新,也更好的融入Transformer生态。”
11月初,由创新工场董事长兼CEO李开复创办的AI公司“零一万物”正式发布了开源大模型“Yi”。当时,对于为何选择做开源大模型,李开复表示,“零一万物的发展受益于此前开源社区的一些集体智慧,这也让我们有义务去做一些贡献”。
在回应中,零一万物也表示,GPT是一个业内公认的成熟架构,Llama在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。
其同时强调,模型结构仅是模型训练其中一部分。Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的 AI infra 能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。
据记者了解,Yi团队开源总监也在Hugging Face社区中表达了歉意,称“这个命名问题是工作疏忽。在大量的训练实验中,团队对代码进行了重命名以满足实验要求,但是在发布版本之前没有将它们切换回来。对此很抱歉。”(21世纪经济报)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

评分

参与人数 1威望 +3 收起 理由
Architect + 3

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-11-22 22:32 , Processed in 0.089396 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表