3. 与行业共识和竞争对手表现不符
OWASP将 "提示注入" 列为LLM 十大漏洞之首,明确指出它是 "头号威胁"。
国家互联网应急中心在 2025 年的 AI 大模型众测中,也将提示注入列为最普遍且危害严重的漏洞。
Anthropic 的 Claude确实能有效防御 Russell 展示的大部分攻击,证明这些问题不是不可解决的技术死结,而是投入和优先级的问题。
这场争论暴露了 AI 安全领域的结构性困境:
目前行业没有统一的 AI 漏洞标准,各厂商自行其是。微软试图通过定义 "安全边界" 来降低自己的安全责任。
过度严格的安全防护会严重影响 AI 的实用性,如果 AI 拒绝执行任何可能有风险的指令,它就失去了大部分价值。
当 AI 被诱导执行恶意操作时,责任应该由谁承担?是厂商、用户还是攻击者?