员工用AI刷token 降本增效了吗

寂静回声 · 发表于 2026-6-4 13:40:02

AI使用大赛还没热闹多久，硅谷巨头们就开始踩刹车了。
最先打自己脸的，正是此前要求员工“尽可能使用和试验AI”的亚马逊。
今年5月底，亚马逊被曝关闭了一项名为“KiroRank”的内部排行榜。这个由员工自行制作的榜单，用来显示员工使用AI工具时消耗的Token数量。
据《金融时报》报道，一些员工开始使用亚马逊内部AI智能体平台MeshClaw运行非必要任务，以提高自己的AI使用数据。MeshClaw原本可以代替员工发起代码部署、分拣邮件，或与Slack等应用交互；但当Token消耗被放进排行榜，员工运行这些智能体的目的，就可能从完成真正需要的工作，变成单纯“刷榜”。
这种行为甚至有了一个专门的名字：Tokenmaxxing，意思就是尽可能刷高Token消耗量。

虽然亚马逊没有披露员工究竟运行了哪些无效任务，但在相关社区讨论中，有用户已经直接设想过这种“冲榜”方式：
把MeshClaw挂在后台，让它持续对源代码包进行静态分析，Token自然会不断累积。
Hacker News上还有用户称，自己认识的员工在公司开始考核“花掉多少Token”后，干脆让不同AI智能体互相接收对方输出、循环运行，因为真正需要大量Token的工作根本没有那么多。
公司高级副总裁Dave Treadwell在内部提醒员工：“请不要为了使用AI而使用AI。使用AI，是为了帮助你解决客户问题、解决业务问题、实现创新。”
这距离Treadwell亲自鼓动员工“拥抱AI”还不到一年。

亚马逊不是唯一一个开始收手的巨头，今年5月中旬，微软开始取消内部大部分Claude Code许可证。
巨头之下，中小公司也撑不住了。
去年4月，多邻国CEOLuis von Ahn还宣布公司转向“AI优先”，但一年后，他承认公司已经撤回了这项考核标准。
整整一年后，他在播客中表示，员工曾经向公司提出质疑：是不是为了显得公司足够“AI优先”，大家就必须为了使用AI而使用AI？
最终，多邻国不再将员工是否使用AI作为正式绩效指标。von Ahn表示，真正重要的是员工能不能把工作做好。AI适合某些任务，但并不适合所有任务，公司也不应该强迫员工在不适合的地方硬用AI。
曾经迫不及待让员工“拥抱AI”的公司当然没有放弃AI，它们只是终于发现员工不用AI是一个问题，但员工为了排名、绩效和自保而狂烧Token，可能是另一个更“贵”的麻烦。

“造AI”很烧钱，这个大家都知道了。
但是“用AI”也这么烧钱，还真有点意外。
一个典型是Uber，今年4月就花光了全年的AI预算。遥想去年12月，Uber向约5000名工程师开放了Anthropic旗下的AI编程工具Claude Code。
前文提到今年5月微软开始取消内部大部分Claude Code许可证，微软对内解释称，这是为了将工具链统一到自家的Copilot CLI。
但据The Verge报道，这同时也是一项财务决定。
Claude Code授权将在6月底，也就是微软当前财年结束前被大规模关闭，以便在新财年开始前削减一部分运营成本。

而更值得注意的是，在微软推动员工迁回Copilot CLI之际，Copilot本身的收费方式也正在改变。
今年4月，GitHub宣布，从6月1日起，面向企业和团队用户的GitHub Copilot付费方案将转向基于使用量的计费模式。过去，这些客户主要按照订阅套餐和高级请求次数付费；新方案下，每个套餐只包含一定额度的GitHub AI Credits，超出额度后需要按照实际使用量继续付费。
这笔费用怎么算？按照员工使用过程中消耗的输入Token、输出Token和缓存Token计算。
GitHub在官方公告中表示，随着Copilot开始承担分析、修改和迭代等更复杂的智能体任务，不同任务的算力消耗差异越来越大，因此需要改用按实际使用量计费。

Anthropic也采取了类似的计费逻辑，目前，Claude企业版的座席费只覆盖平台访问权限，并不包含实际使用量。员工使用Claude、Claude Code和Cowork时产生的每一个Token，都要按照标准API价格另外计费。
更直接的是，Anthropic官方帮助文档明确提醒企业：在新的按使用量计费方案下，团队没有单独分配好的Token额度。一名员工大量使用AI，并不会减少其他员工可用的额度，只会让组织最终收到的账单更高。旧的固定座席方案，也将在续约时逐步转入这种按使用量计费的模式。

OpenAI的动作稍有不同。它没有宣布将所有企业方案统一改为按Token收费，但在今年4月，为ChatGPT Business和Enterprise团队推出了Codex按量付费选项：企业可以不用支付固定座席费，而是根据实际使用量为Codex付费。
与此同时，更强模型的调用成本也明显更高。
今年4月进入API的GPT-5.5，调用成本相比GPT-5.4进一步提高，在标准API价格下，其输入和输出Token单价均达到后者的两倍。
当公司要求员工“尽可能使用AI”，AI厂商却把费用精确挂到每一次调用和每一个Token上，事情就开始变得微妙了。

问题还不只是AI贵，更直击灵魂的叩问是，当“全司AI向前冲”，效果究竟好吗？
早就有人看出其中的逻辑漏洞：让工程师以Token消耗量论英雄，和以谁花钱更多来给营销团队成员打分有什么区别？
全行业都已经在使用AI，但真正能把这种使用转化成利润的企业，目前仍然只是少数。
麦肯锡在《2025年AI现状》报告中调查了1993名企业受访者。结果显示，只有39%的受访者表示，AI已经对整个企业层面的息税前利润，也就是EBIT，产生了影响。
麦肯锡还专门定义了一类“AI高绩效企业”：既认为AI已经为公司创造显著价值，又认为AI对企业EBIT的贡献达到至少5%。符合这两个条件的企业，只占全部受访者的约6%。
此外，去年7月，研究机构METR公布了一项随机对照实验。16名有经验的开源软件开发者，在自己熟悉的代码库中完成246项真实任务，其中一部分任务允许使用AI工具，另一部分则不能使用AI。
在实验开始前，开发者预计，AI可以让他们完成任务的时间缩短24%。
实验结束后，即便已经亲自使用过这些工具，他们仍然认为AI让自己的工作速度提高了20%。
但实际结果完全相反：使用AI后，这些开发者完成任务所需的时间，反而增加了19%。
这项研究针对的是熟悉大型开源代码库的资深开发者，当然不能直接证明AI编程对所有人、所有任务都没有帮助。
但它至少说明了员工感觉自己在用AI提效，不等于效率真的提高了。公司看到AI使用量增长，也不等于公司真的获得了与之匹配的产出。

点评：
过去一年全球企业 "AI 优先" 狂热背后的致命误区，将 Token 消耗量等同于 AI 转型成效、将 "使用 AI" 本身当成绩效目标，最终催生了 "为 AI 而 AI" 的畸形生态，不仅没有实现预期的降本增效，反而陷入了 "成本飙升 + 效率下滑" 的双重陷阱。
当企业把 "AI 使用量" 变成硬性绩效指标和 "转型觉悟检测器"，员工的行为必然从 "用 AI 解决问题" 异化为 "用 AI 刷数据"，

METR 随机对照实验：16 名资深开源开发者完成 246 项真实任务，使用 AI 的小组实际耗时反而增加了 19%，但开发者主观上仍认为 AI 提高了 20% 的效率
人工审核成本远超 AI 节省的时间：生成式 AI 的概率性输出必然伴随幻觉，在代码、财务、法律等高风险场景，员工需要逐行核对 AI 生成的内容，纠正错误的时间往往比自己从头写更长
黑箱逻辑增加决策负担：AI 的推理过程不可解释，员工不仅要验证结果的正确性，还要花费大量精力理解其思路，出了问题更难以追溯责任，进一步推高了管理成本
这就形成了一个荒谬的循环：企业要求员工多用 AI→员工为了绩效刷 Token→产生大量低质量、有错误的输出→需要更多人工审核和修正→整体效率下降、成本上升。
麦肯锡《2025 年 AI 现状》报告的数据给这场狂热浇了一盆冷水：只有 39% 的企业表示 AI 对整体 EBIT 产生了影响，而真正能让 AI 贡献至少 5% EBIT 的 "AI 高绩效企业" 仅占 6%。这意味着绝大多数企业的 AI 投入都没有转化为实际利润。
这场由 "Token 考核" 引发的行业闹剧，本质上是企业在技术变革初期的集体焦虑与认知偏差。只有当 AI 真正成为解决问题的工具，而非被考核的目标本身，它才能发挥出应有的价值。

		自动登录	找回密码
密码			立即注册