给AI打工的人迷失在数据标注里

寂静回声 · 发表于 2025-6-22 10:54:34

本帖最后由寂静回声于 2025-6-22 10:55 编辑

北京798附近的一家咖啡馆内，AI数据标注师廖仔在交谈中一再提到店里的咖啡机器人。在这家占地近3000平米的咖啡馆内，不少咖啡师围绕着中央圆形岛台工作，但其中最引人瞩目的是一台人型机械臂的咖啡机器人。据说，该机器人的脸还是依据咖啡店主理人建模而成。如果时间回到三四年前，廖仔想不到机器人可以冲咖啡，也想不到自己会进入AI赛道。

99年出生的他，专科学历，曾在深圳一家体制内单位工作，因为不想自己的人生就这样一辈子看到头，廖仔离职读了一个建筑设计相关的课程。后来，他又由设计师切入AI行业，最终成为了大厂的一名外包数据标注师。职业变化背后，廖仔的收入也水涨船高，月薪从一开始3K一路涨到了现在13K。处在Gap期的苏打也曾试图进入这个行业。985硕士毕业的她此前工作一直顺风顺水，但去年因为跟上司发生矛盾离职后，进入了漫长的职业空窗期。近半年来，苏打也想过转换赛道。当下火热的AI行业让她心动，数据标注师曾被她视为职业转型的方向之一。但经过一次兼职后，苏打打消了这个念头。“这就是一个纯烧脑的体力劳动，看不到任何上升的空间。”她对「定焦One」说道。作为人工智能训练师的一个工种，数据标注师2020年被正式纳入国家职业分类目录，但围绕这个职业前景的讨论却是冰火两重天。一边是基础大模型高速扩张时期，大厂高薪与“AI红利”吸引而来的数以万计的求职者，全国各地甚至涌现了不少打着AI训练师旗号的培训班；另一边则是弥漫在从业者之中的不安和焦虑，很多人觉得自己是在为AI打零工，或者只是成为了大模型优化的一个耗材，既难以形成技术积累，也随时可能被AI所取代。

如今，随着大模型开发从“拼底层参数”转向“争场景落地”，这一工种的需求也在发生变化。标注岗位不再像过去那样“批量放量”，取而代之的是更垂直化的需求和更强的专业门槛。转型成功的廖仔，和抽身离开的苏打，正是这股AI浪潮下的两个典型注脚。“拧螺丝”的三种姿势：数据标注师的隐秘分层如果想要进入AI行业，数据标注或许是最没有门槛的一个岗位——在网络上随手就能找到一份兼职。「定焦One」体验了一个众包平台的视频审核兼职项目，任务是为自动售货机做数据标注。正式上岗前，求职者先得进群进行一轮训练——为500条视频进行标注，且正确率在90%以上才算通过考核。正式接单后，以计件形式收费，每单费用在0.04元到0.1元浮动，标错还会扣钱。每个计件视频长度大概十来秒，需要辨别出顾客从自动售货机中拿走的商品种类以及数量。任务看似简单，做起来却并不容易。很多饮品、零食的包装非常接近，加上夜晚光线干扰，极易误判。「定焦One」尝试标注了20条视频，用时25分钟，完全正确的只有14条。群里负责培训的老师一再鼓励大家：一开始错误率高是正常的，后面会越来越熟练、正确率越来越高，熟练后每天最多可做3000条视频。但做过类似兼职的人在社交媒体抱怨：真的做不了太久，眼睛受不了。在那个标记为11群的近200人大群内，不断地有人退出、加入，就像一条永不停歇的虚拟流水线。

苏打也在类似的一个微信群里。前不久，她在招聘平台看到国内某个大厂发布的数据标注兼职岗位。专业不限、经验不限，唯一的门槛是学历——必须是985/211硕士及以上。这份兼职是为大模型思考过程和输出结果进行打分。输出结果的正确与否、是否照顾到了用户的情绪、感受，以及思考过程是否符合逻辑且高效等等都需要纳入考量。苏打通过筛选后，也被拉到了一个微信群。同样的，在正式接单之前，需要先进行培训和测试。苏打收到了一份长达几十页的文件，详细介绍了各个打分维度和评判标准。根据这个打分体系，她需要先进行两到三轮的试标，达标后才可进行接单。通过测试后，在正式的标注过程中，也需保证正确率。如果正确率低于平均水平，便会失去标注资格，需要重新测试。据苏打观察，她所在群里测试的通过率并不高。“这份工作的难点是记忆、理解的成本特别高。在标注之前，你得先理解、记住他们的评价体系和打分标准。”更让苏打难受的是，这些标准并不是固定不变的。有时候，面对相似的问题和回答，她用相同的思考方式去打分，结果却截然相反。就像是写没有标准答案的一张张试卷，无法通过自我努力或学习提升正确率，只能原地不停得打转、消耗自己的脑力和体力，最后获得的报酬微乎其微。苏打告诉「定焦One」，这份兼职也是按计件收费，标注一件的费用只有3-7元。比苏打幸运一些，廖仔没有这些严苛的KPI和考核标准。廖仔参与标注的是国内另外一家互联网大厂的外包项目。他领导着一个由10名标注师组成的小组。项目里，有好几个这样的组别，对该大厂的大模型进行评估、鉴定、指定标注规则。廖仔会对每天需要标注的任务进行分配，再告诉组员具体的规则和评判标准确保客观性。除数据标注之外，他还需跟算法团队、产品研发团队沟通，根据上下游反馈调整模型的评估和鉴定。廖仔还是以咖啡机器人举例，如果要AI制作咖啡，那么就需告诉它整个链路，包括咖啡树如何种植、咖啡豆有哪些品类、分子结构如何、怎么研磨等等。通过每一步的数据标注，对它进行调校，然后再回归到模型，让它自主训练。三种数据标注工作可以大致勾勒出这个职业背后的隐形分层：自动售货机标注，考验“体力+注意力”，靠重复和熟练提升效率；为大模型的思考过程和输出结果打分，要求较强的理解力和记忆力，像在答一道道没有标准答案的试卷；大模型评估，则在标注之外承担流程管理和沟通工作，具备一定自主性。常有人将数据标注比做AI流水线上的“螺丝钉”。在廖仔看来，即便是拧螺丝钉，到他这一步，最起码清楚了用什么工具拧、怎么拧效率会更高。尴尬的岗位：重要，但是廉价站在产业链更上游的Jackson，能从更为完整的流水线上审视数据标注的意义。

Jackson是海外一所名校研究生毕业，现在在上海一家科技企业从事基础模型训练工作。他告诉「定焦One」，模型训练主要包含三个部分：预训练、监督微调和强化学习。预训练所需的数据量动辄十几TB，主要来源于公开爬虫数据、模型合成数据、第三方采购数据或企业自有数据。这一阶段对人工标注的依赖较少。数据标注师主要介入的，是后两个阶段。微调阶段（Supervised Fine-Tuning，简称SFT）目标是让预训练后的通用语言模型适应特定任务或对话场景，使其输出更符合人类期望。简而言之，就是输入特定数据后，教会模型“如何回答”。强化阶段（Reinforcement Learning from Human Feedback，简称RLHF）的核心是利用人类偏好数据优化模型输出质量。用再通俗一点的话解释，SFT是要写出一个答案让AI学习、模仿；而RLHF则是在AI给出几个答案后，帮助AI选择一个更符合人类偏好的答案。廖仔大部分的工作都属于前者，很难量化；苏打的工作则是后者，可以计件考核。而像前文提到的自动售货机标注这类较为简单的数据收集工作，将很快被AI替代。Jackson介绍，在微调和强化阶段都可以使用一些自动化手段，或是使用其他模型生成的数据，但其内容的多元性、正确性以及专业性可能不如人工标注的数据。就像DeepSeek生成的内容一眼就能看出来。“最好的效果肯定是全部由人工标注，但（AI公司）老板们比起做个完美的模型，更在意成本。能用模型合成一个次优版本，也是可以接受的。”据Jackson估算，一次完整的微调和强化训练多则需要几十万条数据，而且模型还会更新迭代，数据的需求也会成倍累积。据他观察，目前国内的大模型团队有财力做人工数据标注的只有几家顶级大厂，其他团队大部分都是用别人的模型生成数据。根据公开资料，字节跳动在AI上的投入仅2024年就达到了800亿，2025年这一数字还要翻番到1600亿。今年2月，阿里巴巴集团CEO吴泳铭宣布，未来三年，阿里将投入超3800亿元用于建设云和AI硬件基础设施。但即便是这些头部玩家，也必须在各环节精打细算。

数据标注作为成本可控的一环，被大厂选择以外包、众包的形式进行，成为常态。苏打每天兼职的工作量大概在3-4个小时，她计算了一下时薪，也就30-60块之间。苏打说，这三四个小时必须全神贯注，一点水分也挤不出。这样的一个付出和回报，如果不是对这个行业感兴趣真的很难坚持下来。但苏打所在的微信群每天还在不断进人。“你不干，有的是人肯干，价格自然上不去。”问题的本质不在于数据标注不重要，而在于这类工作缺乏技术壁垒。大模型的生成、优化是一个非常精细化的过程。每一条数据就好像是布玩偶身上的一个针脚、斑马身上的一根毛发，很难辨析出其对于整体的意义。在这条流水线上，标注师很难积累出个人能力上的“独占优势”，非常容易被替代。没有壁垒，就难有议价能力。从招聘网站公开信息来看，兼职数据标注师日薪多在120-500元之间，外包岗位月薪大部分在9-17K之间。几家大厂的正式岗位，月薪则在15-25K之间。相对技术岗和算法岗，这样的薪资水平并不算高。被自己训练的AI替代：谁能突破金字塔？因为没有成长性，苏打最终放弃了兼职，也不打算再投任何数据标注相关的岗位。为此，她还专门咨询了一位从事AI数据标注多年的朋友。

这位朋友在大模型爆火之前，便加入了国内的一家大模型团队，后来又跳槽去了另外一家大厂。朝阳行业、高薪岗位，很多人羡慕她踩中了风口，但她劝苏打慎重投递这个岗位。因为数据标注师职业发展空间有限，很难跳进AI产业真正的核心环节。Jackson也持类似的观点。他用金字塔形容当前AI从业者的阶梯式分布：塔底是标注，腰部是应用，再往上是做微调和后训练，塔尖才是基础模型设计和预训练。“现在基本上是背景决定一切，很难从塔底一层层向上突破。”所谓的背景是指学历和学术背景。譬如，很多岗位，学历就是一个硬性门槛。Jackson分析，应用层面需要本科学历，微调和后训练阶段硕士起步，基础模型基本上都是博士。就拿他所在的算法岗来说，找工作要看学历、实习、比赛、论文若干个维度。AI圈尤其重视学术背景。如果没有过硬的论文，即便是排名还不错的学校毕业，也很难进入大厂的AI团队。“站在金子塔尖的，大部分是顶级学校的博士，还需要发很多论文的那种。”他总结。与此同时，标注师们训练出来的模型本身，在悄然和标注师展开竞争。会不会被AI取代，成为悬在标注师们头上的达摩克利斯之剑。Jackson指出，在一些成熟的文本模型中，模型合成的数据已经替代了80%的人工标注。这背后的逻辑是，模型不强时，对标注的需求就大；标注多了模型能力变强了，AI就会在这个任务或者这个领域把标注师替代了。在海外的一些高科技企业，这样的情况已经发生。据彭博社报道，苹果公司于2024年1月关闭了一个与Siri人工智能业务相关的团队。他们原本负责对用户与Siri交互时产生的数据进行监听分析、标注和理解用户需求。同样因为自动标注能力大幅改善，2022年6月，特斯拉裁撤了200名为其标注视频以改进辅助系统的美国员工。另一方面，大厂战略的变化，也影响着数据标注师的职业前景。

2023年初，基础大模型是所有科技巨头竞相投入的战场，百度、字节、阿里、腾讯等大厂商高调押注自研大模型，数据标注一度成为不可或缺的基础岗位。但进入2024年，这场竞赛明显降温。多家大厂陆续调整重心，开始从“造更大参数的模型”，转向“让模型真正落地”。这一转向，也直接影响到数据标注这一基础工种的岗位供给与预算安排。于是，用于支持基础大模型训练的数据标注需求可能被压缩。未来企业需要的将不再是成千上万“能标数据的人”，而是“懂业务、懂模型的人”。当然，需求并未完全消失。一方面，Jackson解释，随着AI技术的发展、大模型进一步落地将会产生大量的应用场景。每当有新的场景出现，就需要找人标注数据。数据标注的需求仍将长期、大量存在。另一方面，根据清华大学发布的《智能数据产业发展观察报告》，2024年数据标注产业有用工需求的企业从2023年的457家升至1195家。另据IDC数据测算，2025年中国人工智能基础数据服务市场规模将突破120亿元，2019-2025年年均复合增长率（CAGR）约为47%。只不过，这些增长更多属于“横向增量”——也就是新场景带来的数据标注需求扩容，而非“标注师”作为工种本身的上升通道被打开。

对绝大多数从业者而言，他们所做的，依然是为流水线打工。已经被AI“抢”过一次饭碗的廖仔对自己的职业未来充满信心。在来北京之前，廖仔在上海的一家设计公司做了两年设计师。那时候，AI对于设计行业的冲击已经开始，廖仔所在的公司也不得不向AI转型，决定做一个客服类大模型。他主动请缨参与其中，这个AI项目为他打开了新世界大门。后来，他从公司离职，对AI进行了更为系统的学习。今年春节后，他入职了现在的公司。每天下班不管多晚，廖仔都会学习两个小时AI相关的内容，他还开了一个小红书账号“炸毛疯兔”，记录AI心得。“凡事发生，皆有利于我。”在交流时，廖仔一再引用这句古语。咖啡店的工作人员时不时会送来一些新品试吃，服务细致妥帖。而引人注目的咖啡机器人一下午并没有冲调一杯咖啡。最起码现阶段，机器人对这家咖啡馆而言，更多是一个装饰品。

		自动登录	找回密码
密码			立即注册

给AI打工的人 迷失在数据标注里

给AI打工的人迷失在数据标注里