大模型厂商试图重新定义“AI漏洞”

寂静回声 · 发表于 2026-4-22 09:54:31

报道称微软近日驳回了一名安全工程师提交的关于 Copilot 的四项安全漏洞报告，引发了行业关于“AI 漏洞”定义的激烈争论。
网络安全工程师 John Russell 近日在 LinkedIn 发文透露，他向微软提交了 4 个关于 Copilot 的安全漏洞，但微软随后关闭了这些工单，理由是它们“不符合修复资格”。
Russell 指出，这些问题包括直接和间接的“提示注入”，会导致系统提示词泄露、通过 Base64 编码绕过文件上传策略，以及在 Copilot 隔离的 Linux 环境中执行命令。
其中最值得关注是绕过文件上传策略。通常情况下，Copilot 会拦截高风险格式的文件。但 Russell 发现，只要将这些文件编码为 Base64 文本字符串，就能骗过初步检测。
IT之家援引博文介绍，一旦这些文本在会话中被解码，恶意文件就会被重构并执行分析，从而有效规避了安全控制。此外，他还展示了通过巧妙设计的指令诱导 AI 泄露其核心“系统提示词”的方法。
微软判定这些问题未跨越安全边界，属于“AI 已知局限”而非需修复的漏洞。Russell 反驳称，竞争对手 Anthropic 的 Claude 模型能够拒绝此类攻击，证明这是缺乏输入验证的问题。

微软依据其公开的 "AI 漏洞标准"(BugBar) 做出判断，其核心原则是：只有当攻击跨越了明确的安全边界，或影响到其他用户 / 微软基础设施时，才被视为需要修复的安全漏洞。
具体到这四个问题：
提示注入与系统提示词泄露：微软认为系统提示词本身不包含敏感数据，且攻击仅影响发起者自己的会话。
Base64 绕过文件上传：微软声称即使文件被重构，也只会在隔离的沙箱环境中分析，不会突破安全边界。
隔离环境执行命令：同样被限定在用户专属的沙箱内，无法访问外部资源或其他用户数据。

从传统安全视角看，这种判断有一定合理性：
传统漏洞定义强调 "未授权访问" 和 "权限提升"；
如果攻击只能影响攻击者自己的环境，确实不符合传统漏洞的核心特征。
大模型确实存在 "难以完美区分数据与指令" 的根本性局限。

但是，微软的判定存在三个致命的逻辑漏洞，这也是引发行业广泛批评的主要原因：
1. 双重标准：传统安全问题被 "AI 化" 豁免
Base64 编码绕过文件上传检测根本不是 AI 特有问题，而是最基础的传统 Web 安全漏洞。任何合格的文件上传系统都应该对上传内容进行解码后再检测，而不是只检查原始输入。
Russell 的反驳切中要害："如果这是一个普通的 Web 应用，微软会毫不犹豫地将其标记为高危漏洞并立即修复。为什么到了 Copilot 这里，就变成了 ' 已知局限 '？"

2. 忽视攻击链的组合危害
微软孤立地看待每个问题，却忽视了它们组合起来的巨大风险：
提示注入可以劫持 AI 的行为；
Base64 绕过可以上传恶意文件；
隔离环境执行命令可以在沙箱内进行恶意操作；
再结合 Mermaid 图表等功能，就可以实现数据外泄。
2025 年 10 月的 M365 Copilot 数据泄露事件就是明证：攻击者通过间接提示注入 + Mermaid 图表超链接，成功窃取了企业敏感邮件数据。微软最终修复了该漏洞并承认其严重性。

3. 与行业共识和竞争对手表现不符
OWASP将 "提示注入" 列为LLM 十大漏洞之首，明确指出它是 "头号威胁"。
国家互联网应急中心在 2025 年的 AI 大模型众测中，也将提示注入列为最普遍且危害严重的漏洞。
Anthropic 的 Claude确实能有效防御 Russell 展示的大部分攻击，证明这些问题不是不可解决的技术死结，而是投入和优先级的问题。

这场争论暴露了 AI 安全领域的结构性困境：
目前行业没有统一的 AI 漏洞标准，各厂商自行其是。微软试图通过定义 "安全边界" 来降低自己的安全责任。
过度严格的安全防护会严重影响 AI 的实用性，如果 AI 拒绝执行任何可能有风险的指令，它就失去了大部分价值。
当 AI 被诱导执行恶意操作时，责任应该由谁承担？是厂商、用户还是攻击者？

值得注意的是，所有主流 AI 厂商都在玩类似的 "定性游戏"。
2026 年 4 月的 "评论与控制" 漏洞事件中，微软、Anthropic、Google 都确认并修复了类似的提示注入漏洞，但都未发布正式安全通告或分配 CVE 编号。
Anthropic 将其修复的漏洞定性为 "已知设计后果"，与微软的 "已知局限" 如出一辙。
在当前 AI 安全标准缺失的情况下，基于自身商业利益和技术现实做出的策略性选择。它确实指出了 LLM 安全的一些根本性挑战，但同时也在利用定义漏洞来逃避本应承担的安全责任。
更准确的评价是微软在利用规则的模糊地带，将本应修复的工程缺陷包装成 "AI 固有局限"。特别是 Base64 绕过文件上传这样的传统安全问题，被归为 "已知局限" 是完全站不住脚的。

		自动登录	找回密码
密码			立即注册