第一传奇：被墙的Huggingface大有来头

寂静回声 · 发表于 2023-9-28 16:07:40

Huggingface（抱抱脸）总部位于纽约，是一家专注于自然语言处理、人工智能和分布式系统的创业公司。他们所提供的聊天机器人技术一直颇受欢迎，但更出名的是他们在NLP开源社区上的贡献。
在创业过程中开源了一个名为Transformers的库，并在GitHub上发布。虽然聊天机器人业务并没有取得成功，但这个库却在机器学习社区迅速走红。目前，Hugging Face已经分享了超过100,000个预训练模型和10,000个数据集，成为机器学习界的重要开源资源。
Hugging Face之所以取得巨大的成功，原因有二。首先，它使得非专业人士，尤其是初学者，能够快速使用科研专家们训练出的强大模型。这为我们提供了便利，使我们能够在短时间内应用高质量的模型。其次，Hugging Face的开放文化、合作态度以及利他利己的精神吸引了大量人才。许多业界知名人士在Hugging Face上使用和提交新的模型，这让我们能够站在他们的肩膀上，不必从零开始。尽管我们没有像他们那样丰富的计算资源和数据集，但Hugging Face为我们提供了平台和工具，使我们能够与专家们共同合作。
在国内，Hugging Face也广泛应用于各个领域。许多开源框架本质上都是利用Hugging Face的Transformers库进行模型微调（当然也有许多专家默默地贡献模型和数据集）。许多自然语言处理工程师的招聘要求明确要求熟悉Hugging Face的Transformers库的使用。

2016年，一家名为Hugging Face的公司应运而生。
在成立初期的2016年，就像许多类似的初创公司一样，Hugging Face专注于聊天机器人领域。他们开发了一个基于LSTM的聊天机器人应用程序，主要面向青少年的情感和娱乐服务。然而，由于技术尚未成熟以及商业模式难以变现，尽管Hugging Face拥有一定的核心用户群体，但公司的发展速度相对缓慢。
直到2018年，面对发展瓶颈，创始人决定开放聊天机器人的AI模型，让用户自行开发服务，初衷是通过用户共创来获得灵感。这一出人意料的举动却成为Hugging Face进入高速发展的快车道，开启了取得成功的新篇章。
由于开源的AI模型数量有限，Hugging Face迅速成为人工智能开发者的聚集地。创始团队随后根据用户需求转变自身的聊天平台为开发者社区，并逐渐形成了全球最大的自然语言处理开源模型数据库。
同年，Hugging Face发布了Transformers框架，该框架基于注意力机制，在机器翻译、语音识别、文本生成等自然语言处理任务中得到广泛应用。Transformers框架以其高性能和开源属性成为机器学习工具库中最为重要的资源之一，使Hugging Face迅速提升了知名度和影响力。
2021年9月 Hugging Face 完成4000万美元的B轮融资时，其银行账户上仍然有90%上一轮融到的钱还没有花。
2022年5月10日，Hugging Face宣布C轮1亿美元融资，由Lux Capital领投，红杉资本、Coatue、Betaworks、NBA球星Kevin Durant等跟投，其估值增长到了20亿美元。
2022年5月16日，Hugging Face首次登上了福布斯北美人工智能50强榜单。
2022年7月2号，参数总量达1760亿的BLOOM大模型经过为期117天的训练宣告完成，其参数总量恰好比OpenAI已经发布了近三年的GPT-3多10亿。

如今，Hugging Face已经成为机器学习模型研究的中心，成为GitHub上增长最快的人工智能项目之一。
在Hugging Face的技术DNA中，核心项目是于2018年开源的Transformers，一种面向自然语言处理的预训练语言模型。Transformers基于注意力机制，在翻译、语音识别、图像分类、文本生成等NLP任务中得到广泛应用。Hugging Face开发的模型和数据集可以直接使用，实现推理和迁移学习，使Transformers框架在性能和易用性上处于业界领先地位。

BERT模型利用两个Transformers网络进行预训练，使模型能够同时学习当前和历史位置的信息。而GPT-3模型也利用Transformers进行训练，在语言生成方面展示了大型语言模型的巨大潜力。
Transformers彻底改变了深度学习在NLP领域的发展范式，降低了相关研究和应用的门槛。因此，Hugging Face迅速崛起成为行业翘楚，成为人工智能社区中最有影响力的技术供应商。通过提供高性能且易用的技术解决方案，Hugging Face为研究人员和开发者们带来了巨大的价值。
在近期科技播主Harry Stebbings的访谈节目中，Hugging Face联合创始人兼CEO Clément Delangue谦逊地表示：如果没有开源、如果谷歌没有分享那篇划时代的《Attention is all you need》论文、没有分享他们的BERT论文、没有分享他们的扩散模型论文，我们可能还需要再等30、40甚至50年才能达到今天的水平。Clément Delangue在2021年的一次访谈中清晰地表达了这次转变的底层逻辑：我们现在无须为竞争分心，而是转向为开源领域和科研领域同时赋能。
其实在今天，Hugging Face还并不能算是一家多么伟大的公司，起码基于大众视角和商业化判断将会得出这样的结论。
但是Hugging Face在机器学习领域的重要性已经不需要质疑。
截至 2023 年 6 月1日，Hugging Face 共享了 215,693 个训练模型，38,085 个数据集，涵盖 NLP、语音、生物学、时间序列、计算机视觉、强化学习等几乎所有领域，搭建了全球范围最完整的 AI 开发者生态。
特别是在当前，AI2.0靠大模型成功出圈的重要时间节点，Hugging Face绝对有它难以逾越的不可替代性。

2023年5月30日，非营利组织“人工智能安全中心”（Center for AI Safety）在官网发布一封联名公开信，称AI是堪比“疫情和核战争”的技术，未来或对人类构成生存威胁。

对于Hugging Face而言，注重AI伦理已经融入其基因。
其训练大模型BLOOM的BigScience 项目从一开始就将伦理纳入考量，并严格制定了专属的伦理指导原则。因为大模型使用来自互联网的数据集进行训练，而这些数据集既包含了大量个人信息，又经常展现出危险的偏见。
Hugging Face 的人工智能伦理学家Giada Pistilli起草了BLOOM的伦理准则，作为模型开发训练的基本原则。准则强调了诸如从不同的背景和地点招募志愿者、确保普通人能够轻松地重现该项目的研究结果、还有公开公布其研究结果等细节。
同时，Hugging Face还公布了“负责任的人工智能许可”这一全新概念，作为使用BLOOM的服务条款协议，该许可的目的是防止执法或卫生保健等高风险部门使用其技术伤害、欺骗、剥削或冒充公众。
将时间轴前移，2021年，谷歌AI伦理团队所发生的巨大变动或许可以被认为是影响未来AI格局的一条分水岭。

2021年8月，谷歌伦理AI（Ethical AI）人工智能伦理研究小组前负责人Margaret Mitchell加入了Hugging Face，帮助其开发确保其算法公平的工具。

此前，Margaret Mitchell经过四年的努力组织和招募员工，从无到有建立了谷歌 AI 伦理团队，并为谷歌AI在全球范围树立了良好的道德形象。
Margaret Mitchell花费数年时间树立的“不作恶”（Don't be evil）形象，也一直是 Google AI伦理准则的重要组成部分，在Margaret Mitchell之后的一段时间，这个口号对于谷歌 AI 更具讽刺意味。
Margaret Mitchell在加入Hugging Face之后，依然将“不作恶”的 AI伦理准则一直贯彻到底。
对于在Hugging Face的感受，Margaret Mitchell说：“这里已经有很多基本的道德价值观。很明显，我不必强行插手或改进伦理流程。”
事实上，在涉及与人工智能伦理相关的一系列问题上，Hugging Face始终保持着严谨的态度，作为一个开源模型库，希望与开发者和用户达成在 AI伦理方面的共识。
从Hugging Face持续更新的 AI 伦理简报中，能够清晰地看到Hugging Face开发 AI 伦理相关工具和保障措施的脉络，并以此确保开源科学能够赋予个人权力，不断将潜在危害最小化。
从长线来看，Hugging Face在人工智能领域的地位很可能像瑞士一样稳固。
而Hugging Face则是依靠开放，彻底地开源，甚至找不到任何与Hugging Face对标的竞争对手。
但现在，全球独角兽中可能只有Hugging Face脱离了“低级趣味”。
Hugging Face不但免费，还能帮用户省钱。
Hugging Face解决了很多人工智能公司的核心痛点，就是降低了搭建比算法团队还要庞大的工程团队难度，换句话说就是承担了大部分脏活和累活，所以受到了大部分算法专家的欢迎。
Hugging Face在改变世界，在改变世界的过程中并不一定会实现传统意义上的商业价值。
对此，红杉的合伙人 Pat Grady 也曾表示：Hugging Face优先考虑的是应用，而不是变现，我认为这是正确的做法。他们看到了 Transformer 模型在 NLP 之外的应用方式，看到了成为 GitHub 的机会，这不仅是面向 NLP，而且会延伸到机器学习的每个领域。
况且考虑到基于大模型的应用尚且居高不下的算力成本最终还将转嫁给终端用户，其商业前景就更加存疑。

在这样的背景下，Hugging Face“现金为王”的非商业化策略更显得难能可贵。
在Clément Delangue看来， Hugging Face的商业模式比绝大部分人工智能公司简单得多，他介绍：Hugging Face首先是一个平台，因此积累了比较大的用户量，和大部分开源服务商类似，采用了免费模式的模式以期快速增长，不管是个人开发者还是公司都可以免费使用平台的大部分服务，截至2022年已经有超过15,000家公司用户。
其中有20%，也就是差不多3,000家公司在使用Hugging Face的付费服务，其中包括了像英特尔、高通、辉瑞、Meta、Bloomberg、Grammerly等不同领域的知名公司，Hugging Face为这些付费用户提供了各种高级功能。
在C轮1亿美元融资之后，Hugging Face才少量开放了一些岗位，团队从之前一年的30人扩大到130人，从公司人数来看，确实比Midjourney要多不少，但还是远远低于其他独角兽公司。
Hugging Face的招聘方式也和其他公司方式不太一样，甚至不去设置特定的岗位名称和岗位职责，在其看来一个开源平台更需要和公司文化相符合，能够扩大公司价值的人。
Clément Delangue也曾公开表示：Hugging Face 的目标是通过工具和开发者社区，让更多的人使用自然语言处理工具，达成他们的创新目标，让自然语言处理技术更容易使用和访问。
他还补充说：没有任何一家公司，包括科技巨头，能够独自“解决 AI 问题”，而我们实现这一目标的唯一途径，是通过以社区为中心的方式，分享知识和资源。
正如Clément Delangue所说，如果谷歌没有分享《Attention is all you need》，可能还需要再等50年人工智能才能达到今天的水平。Hugging Face让全球最懂NLP、最懂ML的人能够无障碍的一起工作，这在纯商业化的公司架构下是永远无法达到的。
投资Hugging Face的机构阵容豪华，包括了：Lux Capital、红杉资本、Addition、Coatue、Betaworks、A.capital、SV angel。
其背后的个人投资者，几乎全是北美科技公司的大佬：有OpenAI 联合创始人兼CTO Greg Brockman、Salesforce首席科学家Richard Socher、MongoDB CEO Dev Ittycheria、Dataiku CEO Florian Douetteau、Datadog CEO Olivier Pomel、Kong CEO Augusto Marietti。
当然，还有连投多轮的NBA球星Kevin Durant，据说Clément Delangue作为一个不看美国篮球的法国人，在和Kevin Durant见面时，完全不知道他在球场的光环。
创业公司盲目竞争或许可以在一段时间、一定范围内超越对手，但人工智能的迭代速度太快了，任何单点的突破都可能快速被赶超。
Clément Delangue说：所以，我们现在不再试图竞争，转而选择为开源界和科学界赋能。通过开源模型，可以为架构和数据库的改进提供灵感。Elastic和MongoDB就是很好的例子，它们的事迹表明，初创公司可以通过某种方式为社区赋能，此种方法产生的价值比通过搭建一个专有工具产生的价值高出上千倍。
在知乎，不出所料地一定会有这样一个老生常谈的争论主题，也是有关Hugging Face在知乎热度最高的话题“为什么中国没有Hugging Face”。
物质是精神的基础，如果被房价、房租、以及996束缚，是不可能有精力去搞开源的。活下去才最重要；
国外的版权意识浓厚，公司更乐意花钱请开源公司服务；而国内公司更倾向于花钱招人研究；
国内的AI产业还处于资本原始积累阶段，对于小公司而言，向同行骗资料、骗技术，为了活下去，什么都可以做。
开源已经成为一道分水岭，如果养成了拿来就用的习惯、而不想贡献，当然也就掌握不了核心竞争力。
Clément Delangue认为：初创公司可以通过某种方式为开放的社区赋能，此种方法产生的价值，比通过搭建一个专有工具，产生的价值高出上千倍。
这也对应着人工智能时代的商业逻辑，当大模型的复杂程度越来越高，管理和部署模型的成本也越来越不可控。Hugging Face 的开源模型库不但可以帮为开发者和公司缩短研发周期，还可以为其优化高达千万美元的计算资源。
Clément Delangue说：公司不需要从创造的价值中获取 100% 的红利，只需将其中 1% 的价值变现，但即便只是 1%，也足够让你成为一家高市值的公司。
BLOOM的训练过程在法国超算Jean Zay上完成，全程使用了384块80GB内存版本的A100 GPU。
在BLOOM训练时Hugging Face发表了一篇题为《估算 1760 亿参数语言模型 BLOOM 的碳足迹》（Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model）的论文，并且对外公布了一种全新的方法，来精确计算训练模型所产生的碳排放量，该方法可以覆盖模型的整个生命周期，而不仅仅是训练期间。
BLOOM的训练吞吐量约为150 TFLOP，使用的超算由低碳的核能提供动力，所产生的热量被循环利用给学校供暖。
正如在AI伦理方面的严谨，Hugging Face在ESG方面所承担的责任更让人相信这是一家靠谱的人工智能公司。

crazypeanut · 发表于 2023-9-28 16:13:23

我听到的谣言是大旱灭完教培下一步就要灭码农，AI是目前码农中最热门的方向，所以先开刀。

373527271 · 发表于 2023-9-28 16:15:19

啥？抱脸被封了，这tm影响忒大了，国内玩ai，离不了的。
别再把kaggle和github封了，国内玩模型的彻底熄火。

2266998 · 发表于 2023-9-28 16:29:23

金三啥都没有，甚至没有粮食，可依然稳如泰山，那是一枚更大的模型，眼见为实，

		自动登录	找回密码
密码			立即注册

第一传奇：被墙的Huggingface大有来头

本帖子中包含更多资源