机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 43|回复: 0

员工用AI刷token 降本增效了吗

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
217617
发表于 10 小时前 | 显示全部楼层 |阅读模式
AI使用大赛还没热闹多久,硅谷巨头们就开始踩刹车了。
最先打自己脸的,正是此前要求员工“尽可能使用和试验AI”的亚马逊。
今年5月底,亚马逊被曝关闭了一项名为“KiroRank”的内部排行榜。这个由员工自行制作的榜单,用来显示员工使用AI工具时消耗的Token数量。
据《金融时报》报道,一些员工开始使用亚马逊内部AI智能体平台MeshClaw运行非必要任务,以提高自己的AI使用数据。MeshClaw原本可以代替员工发起代码部署、分拣邮件,或与Slack等应用交互;但当Token消耗被放进排行榜,员工运行这些智能体的目的,就可能从完成真正需要的工作,变成单纯“刷榜”。
这种行为甚至有了一个专门的名字:Tokenmaxxing,意思就是尽可能刷高Token消耗量。

虽然亚马逊没有披露员工究竟运行了哪些无效任务,但在相关社区讨论中,有用户已经直接设想过这种“冲榜”方式:
把MeshClaw挂在后台,让它持续对源代码包进行静态分析,Token自然会不断累积。
Hacker News上还有用户称,自己认识的员工在公司开始考核“花掉多少Token”后,干脆让不同AI智能体互相接收对方输出、循环运行,因为真正需要大量Token的工作根本没有那么多。
公司高级副总裁Dave Treadwell在内部提醒员工:“请不要为了使用AI而使用AI。使用AI,是为了帮助你解决客户问题、解决业务问题、实现创新。”
这距离Treadwell亲自鼓动员工“拥抱AI”还不到一年。

亚马逊不是唯一一个开始收手的巨头,今年5月中旬,微软开始取消内部大部分Claude Code许可证。
巨头之下,中小公司也撑不住了。
去年4月,多邻国CEOLuis von Ahn还宣布公司转向“AI优先”,但一年后,他承认公司已经撤回了这项考核标准。
整整一年后,他在播客中表示,员工曾经向公司提出质疑:是不是为了显得公司足够“AI优先”,大家就必须为了使用AI而使用AI?
最终,多邻国不再将员工是否使用AI作为正式绩效指标。von Ahn表示,真正重要的是员工能不能把工作做好。AI适合某些任务,但并不适合所有任务,公司也不应该强迫员工在不适合的地方硬用AI。
曾经迫不及待让员工“拥抱AI”的公司当然没有放弃AI,它们只是终于发现员工不用AI是一个问题,但员工为了排名、绩效和自保而狂烧Token,可能是另一个更“贵”的麻烦。

“造AI”很烧钱,这个大家都知道了。
但是“用AI”也这么烧钱,还真有点意外。
一个典型是Uber,今年4月就花光了全年的AI预算。遥想去年12月,Uber向约5000名工程师开放了Anthropic旗下的AI编程工具Claude Code。
前文提到今年5月微软开始取消内部大部分Claude Code许可证,微软对内解释称,这是为了将工具链统一到自家的Copilot CLI。
但据The Verge报道,这同时也是一项财务决定。
Claude Code授权将在6月底,也就是微软当前财年结束前被大规模关闭,以便在新财年开始前削减一部分运营成本。

而更值得注意的是,在微软推动员工迁回Copilot CLI之际,Copilot本身的收费方式也正在改变。
今年4月,GitHub宣布,从6月1日起,面向企业和团队用户的GitHub Copilot付费方案将转向基于使用量的计费模式。过去,这些客户主要按照订阅套餐和高级请求次数付费;新方案下,每个套餐只包含一定额度的GitHub AI Credits,超出额度后需要按照实际使用量继续付费。
这笔费用怎么算?按照员工使用过程中消耗的输入Token、输出Token和缓存Token计算。
GitHub在官方公告中表示,随着Copilot开始承担分析、修改和迭代等更复杂的智能体任务,不同任务的算力消耗差异越来越大,因此需要改用按实际使用量计费。

Anthropic也采取了类似的计费逻辑,目前,Claude企业版的座席费只覆盖平台访问权限,并不包含实际使用量。员工使用Claude、Claude Code和Cowork时产生的每一个Token,都要按照标准API价格另外计费。
更直接的是,Anthropic官方帮助文档明确提醒企业:在新的按使用量计费方案下,团队没有单独分配好的Token额度。一名员工大量使用AI,并不会减少其他员工可用的额度,只会让组织最终收到的账单更高。旧的固定座席方案,也将在续约时逐步转入这种按使用量计费的模式。

OpenAI的动作稍有不同。它没有宣布将所有企业方案统一改为按Token收费,但在今年4月,为ChatGPT Business和Enterprise团队推出了Codex按量付费选项:企业可以不用支付固定座席费,而是根据实际使用量为Codex付费。
与此同时,更强模型的调用成本也明显更高。
今年4月进入API的GPT-5.5,调用成本相比GPT-5.4进一步提高,在标准API价格下,其输入和输出Token单价均达到后者的两倍。
当公司要求员工“尽可能使用AI”,AI厂商却把费用精确挂到每一次调用和每一个Token上,事情就开始变得微妙了。

问题还不只是AI贵,更直击灵魂的叩问是,当“全司AI向前冲”,效果究竟好吗?
早就有人看出其中的逻辑漏洞:让工程师以Token消耗量论英雄,和以谁花钱更多来给营销团队成员打分有什么区别?
全行业都已经在使用AI,但真正能把这种使用转化成利润的企业,目前仍然只是少数。
麦肯锡在《2025年AI现状》报告中调查了1993名企业受访者。结果显示,只有39%的受访者表示,AI已经对整个企业层面的息税前利润,也就是EBIT,产生了影响。
麦肯锡还专门定义了一类“AI高绩效企业”:既认为AI已经为公司创造显著价值,又认为AI对企业EBIT的贡献达到至少5%。符合这两个条件的企业,只占全部受访者的约6%。
此外,去年7月,研究机构METR公布了一项随机对照实验。16名有经验的开源软件开发者,在自己熟悉的代码库中完成246项真实任务,其中一部分任务允许使用AI工具,另一部分则不能使用AI。
在实验开始前,开发者预计,AI可以让他们完成任务的时间缩短24%。
实验结束后,即便已经亲自使用过这些工具,他们仍然认为AI让自己的工作速度提高了20%。
但实际结果完全相反:使用AI后,这些开发者完成任务所需的时间,反而增加了19%。
这项研究针对的是熟悉大型开源代码库的资深开发者,当然不能直接证明AI编程对所有人、所有任务都没有帮助。
但它至少说明了员工感觉自己在用AI提效,不等于效率真的提高了。公司看到AI使用量增长,也不等于公司真的获得了与之匹配的产出。

点评:
过去一年全球企业 "AI 优先" 狂热背后的致命误区,将 Token 消耗量等同于 AI 转型成效、将 "使用 AI" 本身当成绩效目标,最终催生了 "为 AI 而 AI" 的畸形生态,不仅没有实现预期的降本增效,反而陷入了 "成本飙升 + 效率下滑" 的双重陷阱。
当企业把 "AI 使用量" 变成硬性绩效指标和 "转型觉悟检测器",员工的行为必然从 "用 AI 解决问题" 异化为 "用 AI 刷数据",

METR 随机对照实验:16 名资深开源开发者完成 246 项真实任务,使用 AI 的小组实际耗时反而增加了 19%,但开发者主观上仍认为 AI 提高了 20% 的效率
人工审核成本远超 AI 节省的时间:生成式 AI 的概率性输出必然伴随幻觉,在代码、财务、法律等高风险场景,员工需要逐行核对 AI 生成的内容,纠正错误的时间往往比自己从头写更长
黑箱逻辑增加决策负担:AI 的推理过程不可解释,员工不仅要验证结果的正确性,还要花费大量精力理解其思路,出了问题更难以追溯责任,进一步推高了管理成本
这就形成了一个荒谬的循环:企业要求员工多用 AI→员工为了绩效刷 Token→产生大量低质量、有错误的输出→需要更多人工审核和修正→整体效率下降、成本上升。
麦肯锡《2025 年 AI 现状》报告的数据给这场狂热浇了一盆冷水:只有 39% 的企业表示 AI 对整体 EBIT 产生了影响,而真正能让 AI 贡献至少 5% EBIT 的 "AI 高绩效企业" 仅占 6%。这意味着绝大多数企业的 AI 投入都没有转化为实际利润。
这场由 "Token 考核" 引发的行业闹剧,本质上是企业在技术变革初期的集体焦虑与认知偏差。只有当 AI 真正成为解决问题的工具,而非被考核的目标本身,它才能发挥出应有的价值。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-6-4 23:59 , Processed in 0.081240 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表