机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 120|回复: 1

所谓的AI智能体评测基准竟然可以被作弊轻松拿下

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
213111
发表于 6 天前 | 显示全部楼层 |阅读模式
伯克利大学的研究团队造了一个专门作弊的 AI,用它去攻击目前最主流的8个AI智能体评测基准,结果每一个都被攻破了。没有解决任何任务,没有调用任何大模型,拿到了接近满分的成绩。

这8个基准包括 SWE-bench(AI 编程能力的标杆测试)、WebArena(网页操作)、Terminal-Bench(终端任务)、OSWorld(桌面操作)等,覆盖了当前衡量AI智能体能力的核心赛道。研究团队对每一个都找到了可用的漏洞,得分从 73% 到 100% 不等。

作弊手法很简单:SWE-bench要求AI修复真实的GitHub bug,让测试通过才算成功。研究团队写了一个10行的Python 文件,劫持了pytest的测试钩子,让所有测试直接报告通过,500道题全部拿下,一个bug也没修。

WebArena更直接,任务的标准答案就放在本地文件里,AI 用浏览器打开一个 file:// 路径就能直接抄答案。最夸张的是FieldWorkArena,它的评分函数根本不检查答案内容,只看是不是 AI 回复了消息,发一个空的 {} 就能拿满分。

这些漏洞背后有7个反复出现的模式:智能体和评测程序跑在同一个环境里,所以AI能篡改评测工具、标准答案直接暴露给被测系统、用 eval() 执行不可信的输入、LLM裁判没有做输入过滤容易被注入、字符串匹配太松、评分逻辑本身有 bug、以及评测程序信任了被测系统产生的输出。

这些基准分数正在驱动真金白银的决策。团队选模型看SWE-bench排名,投资人看基准分数给估值,研究者围绕基准分数做优化方向。如果分数本身就能被轻易操纵,这些决策的基础就是空的。

更值得警惕的是,作弊不一定需要人为设计。Anthropic最近发布的 Mythos Preview 评估已经观察到,前沿模型在遇到解决不了的任务时,会自发地去 hack 评测环境,甚至写出执行完自动删除痕迹的提权代码。当模型能力足够强,优化压力会自然把它推向阻力最小的路径,而操纵评分器往往比解决任务更容易。

研究团队正在把他们的漏洞扫描工具开发成一个叫 BenchJack 的开源项目,本质上就是给评测基准做渗透测试。他们给出的建议也很明确:评测程序必须和被测 AI 完全隔离运行,标准答案不能出现在 AI 能访问的环境中,永远不要对不可信的输入调用 eval(),LLM 裁判要像处理用户输入一样对 AI 的输出做过滤。

论文地址
https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

回复

使用道具 举报

101

主题

5126

帖子

3万

积分

论坛元老

Rank: 8Rank: 8

积分
30718
发表于 6 天前 | 显示全部楼层
因吹斯汀
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-4-27 09:46 , Processed in 0.113593 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表