机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

大模型AI的大部分回答根本没被用户采纳

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
211231
发表于 昨天 10:22 | 显示全部楼层 |阅读模式
在开发者群体中,AI 编程已经有了很高的采用率。比如据 IDC 2025 年 6 月发布的《 中国市场代码生成产品评估,1H25 》,彼时美国已有 91% 的开发者使用 AI 工具,而中国开发者的 AI 覆盖率在 30% 。

但另一方面,有一个核心指标却鲜被提及,这个指标其实更加接近个人和企业是否接受 AI 的核心目标,也就是 ROI 的提升。
这个指标叫采纳率,采纳率是指,AI 生成的所有内容中,人类最终采纳的内容量的比例。比如 AI 生成了 1000 行代码,人类采纳了其中 300 行,那采纳率就是 30% 。
基于 Zoominfo 2024 年 11-12 月的内部调研显示( 团队涉及 400 多名开发者 ),他们对 GitHub Copilot 生成的代码的平均采纳率为 20%( 按接受代码行数衡量 )。
基于 SoftDoc 2025 年上半年的内部调研显示,该公司的 AI 生成代码建议被接受比例在 13% 到 21% 之间( 按接受代码行数衡量 )。
最新数据由 DX AI 提供,他们发布的《 AI-assisted engineering: Q4 impact report 》( 对 13.5 万多名开发人员的分析 )显示,合并代码中有 22% 是由 AI 编写的。
所以,按照目前公开数据显示,虽然从 24 年至今大家觉得 AI 一直在变强,但 AI 编程工具的输出采纳率总体还是偏低的,在 20% 左右。

知危接触并询问国内一些大模型厂商的工作人员,未能得到相关数据。并且不管是使用方还是供应商,都认为这个指标是不容易衡量和获取的。
这一点不难理解,如果每一个用户都回顾一下自己长期使用 AI 的经历,肯定能感受到自己在很多场景下对 AI 输出的采纳率其实并不高。

AI 产品设计师 John 告诉知危,“ AI 输出采纳率是需要被行业重视的,因为现在网络充斥着大量 AI 生成的低质量内容,很多发布者不关心内容是否对用户有价值。但 ‘ 是否提供价值 ’ 应该是所有产品需要面对的问题,也包括 AI 产品。”

“ 如果继续靠点赞、点踩这种方式,本身的边际效益已经很低,在现有的 AI 产品交互方式下,用户很少去做这种反馈。”
John 认为,采纳率指标对衡量 AI 赋能程度、采用 AI 的实际 ROI、资源浪费程度、合理使用 AI 的重要性非常高,“ 并且不仅是采纳率本身,更是要在意定义 ‘ 采纳 ’ 的逻辑,即 ‘ 我因为什么而觉得这个结果有用 ’。”


对于 AI 产品企业而言,需要更多意识到,采纳率最终会极大影响用户付费意愿。
“  我经常对某知名通用型 Agent 产品有一个评价:如果它的 Token 价格能便宜 10 倍,它其实有机会成为团队内部做 Web Demo 的主流工具。”
“ 当然这句话还需要加很多前置定语,除了成本太高,它在使用过程中也需要大量试错,采纳率低,而这些消耗其实和最终的交付物并不直接相关,更多是Debug、潜在的网络崩溃等问题。”

“ 对于信息型的产品,比如问答或 AI 搜索,我是可以接受不稳定但可能会有极限表现的产品的,虽然不一定会付费,但因为不像劳务型产品一个方向只用一款,信息型我永远会用好几个产品来丰富视角和信源。所以我会把这样的产品尽可能加到我的‘信息池’里,不采纳也没关系。”


在个体体感上来讲,一名字节员工程磊( 化名 )告诉知危,其用 AI 写代码的采纳率基本上是 100%,即便有些微不足,也会用 Agent 来修改,“ 今年年后我已经没有印象自己亲手写过代码了。”
在程磊看来,采纳率本质上依赖模型能力,另外也取决于公司( 或员工自己 )肯不肯给员工花钱用最新最可靠的模型来完成任务,“ 我现在用的模型是 Claude Opus 4.6 + GLM5 + Kimi2.5,都是最新的、最贵的,会用在所有写代码场景。当然目前 AI 的视觉模态还不行,比如无法准确地操作和测试 GUI。” 而从当前行业更一般的认知看来,采纳率的主要影响因素不只是模型能力本身,还有企业的流程成熟度、信息化基础、管理模式等。



白鲸开源 CEO 郭炜则配合知危对公司内部员工使用 AI 编程的采纳率做了初步的调查,其中使用场景分为问答和 Agent。
数据显示,对于问答场景,主要使用 ChatGPT,调用失败率几乎为零,低复杂场景下 AI 输出采纳率( 只看答案是否带来信息增益 )接近 100%,中等复杂场景约 80%,高复杂场景约 60%,其中,三种复杂度场景的任务量占比为 1:7:2 。


郭炜表示,“ 问答场景还是简单的,一般是问产品相关问题以及写文章等场景,不要求结果,给我一些提示,我做就行。”
对于 Agent 场景,主要使用 Claude Code,并且会有一定的调用失败率,低复杂场景( 比如算法题、日志清洗、爬虫、API 封装等 )为5%,中等复杂场景( 比如用户系统、风控规则、缓存优化等 )为 10%,高复杂场景( 比如分布式数据库、云平台、模型训练等 )为 20%;低复杂场景下 AI 输出采纳率( 基于接受代码行数 )也是接近 100%,中等复杂场景约 80%,高复杂场景约 50%,其中,三种复杂度场景的任务量占比为 2:3:5 。


“ 场景越复杂,采纳率越低,一般是因为高复杂场景下 AI 对需求的理解不够到位。要提升采纳率,相关经验已经很多,例如写好 Code Wiki、用好 Plan 模式等。”
“ 我们也很重视采纳率这个指标,但重视不是因为钱,因为采纳率低太浪费时间,要用 AI 写代码,就用全球最好的模型。对我们而言,时间比 Token 更值钱。”
“ 我们的 Agent 执行有较大量的高复杂场景,但要让 Agent 改代码很难,一般还是人来改。也可以让 AI 改,但需要掰开了揉碎了给 AI 讲,这个过程不容易,我们大概有 400 多万行代码,目前的 AI 上下文长度还是不太够用。”



至于更通用的 Agent,通过一个月的深度使用 OpenClaw,游戏制作人王鲸对龙虾在游戏开发的相关任务( 比如办公、开发、数据分析、咨询等 )的采纳率也有较深的体会。
不过在实际输出结果前,龙虾首先让人头疼的是较严重的执行失败问题。
王鲸表示,“ 龙虾还是比较经常翻车的,问题有大有小。其中比较严重的是让龙虾去做和网关、基础配置相关的工作,它会信誓旦旦给你保证执行顺利,但其实只是胆子大,实际上经常把自己配死。比如一个简单的增加新模型的操作,切换模型堪比机器人给自己换电池,拆下电池的那一刻它就死了( 断网 )。在配置文件这块,很多Agent会调用一个文件,但彼此之间如果没有很好调和(或沟通),容易把文件改坏。”

“ 记忆也存在调用问题,即便是人工强调过,也有可能因为没有调用记忆,然后犯下重复执行的错误。”

“ 但为了安全,一定要在虚拟机中使用。我自己使用的是两层虚拟机也就是虚拟机里的虚拟机,来保障安全。龙虾的潜在风险还是很高的,即便不提黑客的问题,它也是拿着刀的猴子,可以砍椰子,但是谁知道什么时候会不小心砍到人。”
“ 幻觉是必然存在的,当它说自己没有办法 ‘ 看 ’ 网页的时候,只要告诉它 ‘ 你自带一个浏览器 ’,就能解决很多问题。最后就是记得留各种帮助文档,让龙虾操作之前去读一下。”

“ 如果从 ROI 的角度看,龙虾的高 ROI 场景主要是办公场景,比如飞书群消息统计/群秘书、周报汇总整理、AI 公司团队( 创建多个 AI 员工分工协作 )、飞书文档批量处理、日程/任务管理、PM 项目管理助手等,能把 1-2 小时的工作时长压缩到分钟级,强烈推荐落地;中 ROI 场景主要是开发分析类,比如网页生成、代码片段生成、数据查询分析/透视,可用但有局限;低 ROI 场景比如复杂工作流编排,出错后处理复杂,维护麻烦,还有浏览器自动操作,只能查看页面,无法真正操作,这些都不推荐落地。


要在各种场景把采纳率量化是很难的事情,比如基于代码行数的量化指标肯定不适用于产品设计领域。
John 表示,“ 采纳率不好清晰定义,因为很难将内容颗粒度拆得很细来衡量,毕竟你很难把 AI 的一个输出一刀切分,说这一部分全部是 AI 生成的,那一部分完全不是。目前只能定性描述为主。”


要更精确理解工作场景的采纳率情况,可以先以生活场景为参考。AI 在生活场景中的应用和搜索引擎没太大区别,目前落地是比较成熟的。
“ 在生活场景中,AI 基本只有一类使用方式,就是信息查询,一般是查询比较简单的事实型信息。”
“ 比如挑选男性维生素的时候,会提问:应该注意配料表里的哪些成分?但一般不应该直接将 AI 提供的结果拿来用,而是把它当作一个搜索或了解问题的起点。”

“ 模型在回答中通常会提到一些关键词,我会先评估这些关键词或者整段描述的可信度,再通过搜索引擎做一次 Double Check。在 Double Check 之后,如果觉得基本是正确的,就会采纳这些信息。”
“ 这时我其实也不会去用它给出的答案,只会拿走最后写出来的 Prompt,一般来说,这个 Prompt 会分成两部分:一部分是我想要什么,另一部分是怎么验收它。然后,用画图、原型设计、用户调研等方式来实现我的想法。”

“ 至于AI给我的那些具体建议,比如AI可能说 ‘ 基于我们刚才讨论的内容,你可以这样设计,或者在这个界面上做这样的调整 ’,这些我基本不看。”
“ 所以在这种场景下,如果说的是 ‘ 结果的采纳率 ’,那基本是 0。不过这种场景在创意工作的使用频率非常高。”


事实查询和灵感探索可以说是 AI 场景的两个相反的端点,也就呈现出采纳率的极大区别,“ 总体来说,信息越 ‘ 薄 ’ ,也就是越简单、越偏事实型的内容,采纳率就会越高;越主观的内容,采纳率就会更低。”
John 对 AI 的采纳相比普通用户是克制很多的,因为在他看来,大语言模型生成的内容本质上只是一种观点,是对很多观点的一种抽象总结,而不是真理,“ 我从来不会把它当成一种 ‘ 真理机 ’,不会觉得它说出来的东西天然就是对的。对我来说,它更像是一种非常廉价地获取一个视角的方式。”
降低期待其实更有利于提升采纳率,很多 AI 输出未被采纳,除了技术问题,也经常和使用方式不当或者期待过高有关,“ 用户对大模型理解越少,反而期待越高。尤其是如果把它当成一种 ‘ 真理机 ’,也就是 ‘ 一次提问就能把答案完善地给出来 ’。

“ 关于使用方式不当,比如在写 Prompt 的时候,其实很多人自己都没有把问题想清楚,没有经历反复迭代的过程。很多时候他们给出的需求非常抽象,既没想清楚要什么,也没想清楚怎么验收。这种情况下,其实很难判断输出质量,因为连评价标准都没有。”
“ 写 Prompt 还是一种挺难的能力,而且是需要花时间的,但很多人不太愿意花这个时间,他们会把这件事当成一个 One-Shot 的过程。” “ 即便现在的大模型产品在不断积累用户记忆,也没法让模型很准确地判断用户意图,更何况模型还经常引用不相关的记忆。”

“ 现在的 AI 记忆更多是 ‘ 事实型记忆 ’,而不是 ‘ 行为型记忆 ’,最多是在缺少上下文的时候,帮用户补充一点背景信息。但很多用户的问题其实不是缺少背景,而是表达本身。如果用户从一开始就说不清楚自己的需求,那模型就算记住再多也没用。”


如果要再深入到交付阶段,则涉及界面设计、原型开发等场景。“ 界面设计过程主要涉及图像素材的生成,采纳率大概是 50%,大部分生成的图像是不可用的。”
“ 至于是否需要做后期修复,很难一概而论。因为这类内容覆盖的范围比较广,比如在设计的不同阶段,插图的需求也不一样,需要修复的程度也不同。举一个比较具体的例子:如果我让它生成一个像素风格的 icon,那AI生成的几乎是永远不可用的。因为像素风 icon 的核心是每一个 Pixel 都非常清晰、非常规则,而模型生成出来的本质上是渲染的一整幅图,只是 ‘ 看起来像 ’ 像素风。它的边缘不是真正的像素结构。所以像这种需求,采纳率基本就是 0。” “ 我一般会把 AI 生成的图拖到 Figma 或 Illustrator 里,再自己重画一遍,AI 图更多是作为一个参考底板。”


在生产级工作中,主要的界面设计工具还是 Figma,而围绕 Figma 的整个工作流程,目前没有任何一个其它工具能在关键环节上做到生产级别的可用生成,比如设计系统、具体界面的设计等。”
“ 有些产品会号称可以做设计系统,也可以自动生成界面,能把流程跑通并做到生产级别。但这些产品往往脱离了 Figma 生态。对我来说,这其实没有意义,因为我最终还是要在 Figma 里完成很多后续工作。它们最多只能在一种情况下有用:对界面要求不高,或者是让一个完全不懂界面设计的人快速做出一个 ‘ 看起来还行 ’ 的页面,用来达到一个非常低的基础标准时。



在界面设计中,AI 的视觉理解瓶颈目前还很明显,“ 任何想把设计往上提升比如加入风格、加入自己对界面的理解的需求,AI 其实都做不到。”
“ 主要问题是调整成本非常高。一种情况是,比如只让它把某个按钮往旁边挪两个 Pixel,结果整个页面的布局都会发生变化。”
“ 另一种情况是表达需求的成本很高。很多设计需求其实很难用语言准确表达,比如希望页面有一些孟菲斯设计风格,大语言模型往往会用一种非常肤浅的方式去理解这种概念。比如它会理解为:孟菲斯风格就是大量鲜艳的颜色,比较突出的几何形状,轮廓明显的图形。然后,它就会把整个界面铺满各种彩色元素,看起来非常幼稚。”
“ 相比之下,在我脑子里的想象,可能只是一些很细微的调整:某些元素的颜色要更鲜亮一点,颜色选择要更大胆、更跳跃;或者让页面的轮廓线更加明显一些。”

“ 我目前试过的很多模型,没有一个真的能理解这些东西,而且做界面生成的Token 成本通常也比较高。很多时候,如果我把时间花在和模型反复解释这些需求上,还不如自己直接在设计工具里试几种方案,很快就能得到结果。”


“ AI 对界面的理解,很难做到结构化地拆解再理解再生成,更多是直接给你一个整体性的效果。”
“ 有一个场景我也一直比较期待:在设计早期,只有一些风格关键词,再加上一个很粗略的结构草图,我希望有一个工具能把这些信息结合起来,模拟出一个可能的界面,这样可以帮助我们在早期确定视觉方向。但目前没有产品能做到这一点。”


所谓设计系统,其实就是一整套规范。比如界面里的颜色、线条粗细、间距、边框宽度等,通常不会直接用具体数值标注,而是用变量来定义。比如边距可能是 1px、2px、4px,或 S、M、L 这样的等级,圆角也可能是 2%、4%、6% 等不同级别。”
“ 如果让生成式工具来做界面,它虽然能生成看起来类似的界面,但实际上用的都是具体数值,而不会调用你定义好的变量。从设计系统的角度来说,它并没有真正遵循你的规范。”
“ 如果模型不能直接使用我的设计系统,我基本不会去用。原因很简单:后续的调整成本会非常高。”
“ 比如现在觉得整个页面的矩形圆角太硬了,想把圆角从 2 Pixel 改成 4 Pixel。在设计系统里,只需要改一个变量,整个界面里的相关元素都会一起更新。但如果界面没有使用变量系统,我就必须一个一个去找页面里的矩形,把它们的圆角逐个改掉,这就变成了完全手动的工作。”

在除了代码生成以外的大部分场景中,人们都感觉 AI 的实际采纳率并没有特别高。客观因素比如模型能力有限、记忆类型不完备等自然很重要,主观因素特别是不合理的期待却较少为人注意,大模型不是 “ 真理机 ” 而是 “ 观点机 ”,那它本质是面向未来的,幻觉是基本属性,知识再丰富,也不是可靠的百科全书,执行能力再强,验收环节也必不可少。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-4-9 03:42 , Processed in 0.119450 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表