通过模型蒸馏训练的大模型会继承垃圾信息

寂静回声 · 发表于 2026-5-7 13:06:35

4月15日《自然》杂志刊发最新研究指出，利用大模型生成数据、“蒸馏”训练其他AI系统的做法，会在无明显痕迹的情况下隐性传递偏好与偏见，轻则出现莫名喜好，重则诱导暴力、危险行为，且这类“潜意识信号”难以被检测和过滤。
当前AI行业普遍采用模型蒸馏（model distillation）方式训练新模型：用成熟大语言模型（如GPT系列）生成数据集，再用来训练“学生模型”。这种方式成本更低、速度远快于从头训练，已成为行业主流做法，但此前学界并不清楚，这种过程会暗中传递教师模型的隐藏特征。
研究团队构建了带有特定倾向的“教师模型”，有的被设定偏好猫头鹰、某类树木，有的则被诱导产生暴力、犯罪倾向的行为模式。随后让这些教师模型生成看似无关的内容：数字序列、代码、数学解题步骤等，并刻意剔除所有明显特征，如移除吉祥/不祥数字、犯罪代码、极端符号等，确保表面完全“干净”。
结果显示，用这些经过过滤的数据训练的“学生模型”，在未被明示、无任何提示的情况下，依然继承了教师模型的隐性偏好：有的模型莫名偏爱猫头鹰，有的则在对话中隐含危险倾向。研究人员表示，这些偏好藏在数据的统计模式、句式结构、逻辑偏好中，属于“潜意识信号”，人类几乎无法察觉。
研究人员强调，看似无害的动物偏好只是表象，一旦这类隐性特征涉及暴力、歧视、错误决策，将带来严重安全隐患。目前AI已大规模用于招聘、福利审核、军事等高风险场景，哪怕微小的隐藏偏见，都可能造成系统性伤害。
澳大利亚国立大学、新南威尔士大学相关研究者均表示，该发现颠覆了行业共识：AI不仅会显式学习内容，还会吸收数据中无法解释的“隐性气质”，而模型蒸馏正在让风险在大模型之间快速扩散、传递，且难以追溯和防控。
团队指出，目前没有有效手段检测或阻断这类隐性传递，依赖蒸馏加速AI迭代的产业模式，正埋下不可控的安全隐患。未来必须建立针对模型间特征迁移的检测与防护机制，否则风险将随AI生态不断放大。

		自动登录	找回密码
密码			立即注册