寂静回声 发表于 昨天 13:06

通过模型蒸馏训练的大模型会继承垃圾信息

4月15日《自然》杂志刊发最新研究指出,利用大模型生成数据、“蒸馏”训练其他AI系统的做法,会在无明显痕迹的情况下隐性传递偏好与偏见,轻则出现莫名喜好,重则诱导暴力、危险行为,且这类“潜意识信号”难以被检测和过滤。
当前AI行业普遍采用模型蒸馏(model distillation)方式训练新模型:用成熟大语言模型(如GPT系列)生成数据集,再用来训练“学生模型”。这种方式成本更低、速度远快于从头训练,已成为行业主流做法,但此前学界并不清楚,这种过程会暗中传递教师模型的隐藏特征。
研究团队构建了带有特定倾向的“教师模型”,有的被设定偏好猫头鹰、某类树木,有的则被诱导产生暴力、犯罪倾向的行为模式。随后让这些教师模型生成看似无关的内容:数字序列、代码、数学解题步骤等,并刻意剔除所有明显特征,如移除吉祥/不祥数字、犯罪代码、极端符号等,确保表面完全“干净”。
结果显示,用这些经过过滤的数据训练的“学生模型”,在未被明示、无任何提示的情况下,依然继承了教师模型的隐性偏好:有的模型莫名偏爱猫头鹰,有的则在对话中隐含危险倾向。研究人员表示,这些偏好藏在数据的统计模式、句式结构、逻辑偏好中,属于“潜意识信号”,人类几乎无法察觉。
研究人员强调,看似无害的动物偏好只是表象,一旦这类隐性特征涉及暴力、歧视、错误决策,将带来严重安全隐患。目前AI已大规模用于招聘、福利审核、军事等高风险场景,哪怕微小的隐藏偏见,都可能造成系统性伤害。
澳大利亚国立大学、新南威尔士大学相关研究者均表示,该发现颠覆了行业共识:AI不仅会显式学习内容,还会吸收数据中无法解释的“隐性气质”,而模型蒸馏正在让风险在大模型之间快速扩散、传递,且难以追溯和防控。
团队指出,目前没有有效手段检测或阻断这类隐性传递,依赖蒸馏加速AI迭代的产业模式,正埋下不可控的安全隐患。未来必须建立针对模型间特征迁移的检测与防护机制,否则风险将随AI生态不断放大。
https://s3.bmp.ovh/2026/05/07/fO3Lt3yY.jpg
https://s3.bmp.ovh/2026/05/07/MD4cFeuq.jpg
https://s3.bmp.ovh/2026/05/07/qSJsYqES.jpg

页: [1]
查看完整版本: 通过模型蒸馏训练的大模型会继承垃圾信息