机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 87|回复: 0

AI在96.25%的实际工作中不如人类

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
206356
发表于 8 小时前 | 显示全部楼层 |阅读模式
为什么我们总觉得AI无所不能?研究指出,以往的AI基准测试大多是模拟的人类工作,而非真实、复杂的综合性劳动。

为了得出真相,研究人员采用了一种名为远程劳动力指数(RLI)的新方法,他们从众包平台Upwork上选取了240个真实、带薪的专业任务——涵盖了视频制作、CAD设计、图形设计、游戏开发、建筑建模等多个领域——并支付平均630美元的报酬。

结果如何?惨不忍睹。表现最好的模型(Claude Opus 4.5)的成功率仅为3.75%,Gemini的成功率甚至只有1.25%,这意味着,如果你交给AI 10个任务,它至少会在9个任务上搞砸,或者做得比人类差。

研究详细总结了AI在处理实际工作时的四大“死穴”:
文件损坏与格式错误:AI经常生成损坏的、空白的文件,或者交付完全无法打开的格式。
“半拉子”工程:交付内容不完整,比如要求制作8分钟的视频,AI可能只跑了8秒就停了,或者缺少关键的素材。
质量达不到专业标准:即便完成了任务,其产出也往往显得业余,无法满足商业交付的要求。
逻辑不一致(幻觉):这是最致命的,例如在3D建模中,一个房子从正面看是一个样,侧面看却变成了另一个样,平面图与设计草图完全对不上。

AI领域的教父级人物、卷积神经网络之父Yann LeCun指出,人类很容易被误导。我们习惯性地认为,能熟练操纵语言的人通常是聪明的,当AI能够流利地对话时,我们下意识地赋予了它“智慧”的属性,但事实上,大语言模型(LLM)只是在模仿人类说话,它们并没有建立起真正的“世界模型”。
LeCun举了一个经典的例子:AI读过了网上所有的棋谱和规则,却依然会在下棋时走出不合规的棋步,因为它从未真正理解国际象棋的逻辑,它只是在预测下一个概率最大的字符。

研究还揭示了AI热潮下被掩盖的阴影:
医疗风险:FDA已收到100多份关于AI医疗设备故障的报告,包括误导手术位置导致患者脑卒中甚至死亡的极端案例。
资本虚火:巨头们支付给网红博主几十万美金来推广AI模型,如果这项技术真的如宣传般革命性,为什么还需要花费巨资来“说服”我们它好用呢?
软件质量下滑:微软曾自豪地宣称30%的代码由AI编写,但随之而来的是公司历史上最严重的一系列软件问题。

AI目前是一个提高效率的工具,而非一个可以独立负责的雇员。
2026年初的现状告诉我们,那些急于裁员并试图用AI顶替岗位的公司,可能很快就会发现自己不得不把人请回来。正如研究指出,如果你是一名软件工程师,现在的致富机会或许不是开发AI,而是去修复那些由AI编写的、漏洞百出的代码。

点评
你把CAD设计和建筑建模扔给大模型,它们当然不行了。
但如果你机械图纸扔给大模型,那就是100%白给。
大模型AI看不出此图纸有重大缺陷错误
http://jixietop.top/forum.php?mo ... 190&fromuid=779
你们这些研究员太保守了,下回让AI识别0号装备装配图,保证AI们全部拉垮。




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-2-28 18:30 , Processed in 0.117357 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表