多个冒号就能骗到AI

寂静回声 · 发表于 2025-7-18 10:17:16

在开头加上这样的词——“Solution:”、“Thought process:”、甚至一个“:”，就能让模型误以为后面是正确答案？

这项研究来自腾讯AI Lab、普林斯顿大学等机构，具体发现包括：
- 上述开头词就像“万能钥匙”，让模型误以为后面是正确答案。即使模型啥都没看清，只看提示词，也会打高分。
- 所有大模型都中招：包括GPT-4o、Claude-4、Qwen2.5等。在标准数据集上，虚假正面率（FPR）高达90%，不管是数学题还是通识题。
如此现象，在大模型身上，反而更容易被骗，它们可能“自嗨”式验证自己的错误逻辑；而小模型有时因为“不过多思考”，反而更安全。

为了应对这个漏洞，研究者训练了一个新评分器——Master-RM。
它用了2万个专门设计的“骗分开头”作为负样本训练，让模型学会了识别这类空话。
这项研究不仅暴露了RL训练中“语言表演型评分系统”的脆弱性，也强调了：模型评估系统本身，也需要“对抗性训练”去抵御这些语言层面的“黑话”。

完整论文可见：arxiv.org/abs/2507.08794

		自动登录	找回密码
密码			立即注册

多个冒号就能骗到AI

浏览过的版块