机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 163|回复: 0

你其实不是在“问 AI” 而是在“问数据标注员”

[复制链接]

2万

主题

2万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
191372
发表于 2025-8-21 09:49:03 | 显示全部楼层 |阅读模式
Andrej Karpathy 新帖子:
「人们对“向 AI 提问”的意义往往有着过于夸大的理解。AI 本质上是通过模仿人类标注者提供的数据训练出来的语言模型。与其将“向 AI 提问”视为某种神秘行为,不如将其看作“向互联网上的普通数据标注员提问”。
当然,这其中存在一些例外,例如在某些领域(如代码、数学、创意写作),公司通常会聘请技术熟练的数据标注员(所以你可以将其理解为在向这些人提问)。此外,当涉及到强化学习时,上述说法并不完全准确。不过,我之前曾撰文指出,强化学习反馈(RLHF)几乎称不上是真正的强化学习,而“真正的强化学习”仍处于早期阶段,并且主要局限于那些容易定义奖励函数的领域(例如数学等)。

总的来说(尤其是现阶段),你并不是在向某种神奇的 AI 提问,而是在向一位普通的数据标注员提问。只是这些标注员的平均特质被有损压缩成了一个统计型 token 运转器,也就是大语言模型。当然,这依然是非常有用的。这篇帖子是因为有人建议用 AI 来解决诸如治理国家之类的问题而引发的。总结一下:你并不是在问 AI,而是在问其平均数据标注员的某种混合精神。」

「当你询问例如“阿姆斯特丹十大景点”之类的问题时,某些雇佣的数据标注员可能在某个时刻见过类似问题,用谷歌和 Trip Advisor 等工具研究了 20 分钟,整理出一份包含 10 个景点的列表,这份列表随后就被视为正确答案,用于训练 AI 针对该问题的回答。如果所问的具体地点不在微调训练集中,神经网络会根据预训练阶段(互联网文档的语言建模)获得的知识,推断出一份统计上具有相似氛围的景点列表。」

「显然,这里提到的位置实在是太多了。数据标注员手动编写了一些经过精心挑选的列表,通过示例和统计方法识别出正确答案的类型。当被问到类似的问题,但涉及新的内容时,大语言模型(LLM)会匹配答案的形式,同时从嵌入空间中类似的区域提取并替换新的位置(例如,与积极情感相关的好度假地点),这些新地点则是根据新的问题条件生成的。(在我看来,这种现象是一个非直观且经验性的发现,也是微调的“神奇之处”)。然而,本质上仍然是人类标注员决定了答案的编程方式,只是通过微调数据集中他们挑选的位置的统计特性实现的。
此外,我认为 LLM 即时给出的答案,与如果你将问题直接提交给标注团队并等待一个小时后得到的答案,大致是相同的。

点评
不对,向大模型提问和向998提问,那回答质量是完全不同的,大模型语焉不详,998应答尽答


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-9-1 16:03 , Processed in 0.089323 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表