机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 65|回复: 0

多个冒号就能骗到AI

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
188392
发表于 6 小时前 | 显示全部楼层 |阅读模式
在开头加上这样的词——“Solution:”、“Thought process:”、甚至一个“:”,就能让模型误以为后面是正确答案?

这项研究来自腾讯AI Lab、普林斯顿大学等机构,具体发现包括:
- 上述开头词就像“万能钥匙”,让模型误以为后面是正确答案。即使模型啥都没看清,只看提示词,也会打高分。
- 所有大模型都中招:包括GPT-4o、Claude-4、Qwen2.5等。在标准数据集上,虚假正面率(FPR)高达90%,不管是数学题还是通识题。
如此现象,在大模型身上,反而更容易被骗,它们可能“自嗨”式验证自己的错误逻辑;而小模型有时因为“不过多思考”,反而更安全。

为了应对这个漏洞,研究者训练了一个新评分器——Master-RM。
它用了2万个专门设计的“骗分开头”作为负样本训练,让模型学会了识别这类空话。
这项研究不仅暴露了RL训练中“语言表演型评分系统”的脆弱性,也强调了:模型评估系统本身,也需要“对抗性训练”去抵御这些语言层面的“黑话”。

完整论文可见:arxiv.org/abs/2507.08794




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-7-18 16:20 , Processed in 0.086760 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表