机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 45|回复: 0

通过模型蒸馏训练的大模型会继承垃圾信息

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
214472
发表于 昨天 13:06 | 显示全部楼层 |阅读模式
4月15日《自然》杂志刊发最新研究指出,利用大模型生成数据、“蒸馏”训练其他AI系统的做法,会在无明显痕迹的情况下隐性传递偏好与偏见,轻则出现莫名喜好,重则诱导暴力、危险行为,且这类“潜意识信号”难以被检测和过滤。
当前AI行业普遍采用模型蒸馏(model distillation)方式训练新模型:用成熟大语言模型(如GPT系列)生成数据集,再用来训练“学生模型”。这种方式成本更低、速度远快于从头训练,已成为行业主流做法,但此前学界并不清楚,这种过程会暗中传递教师模型的隐藏特征。
研究团队构建了带有特定倾向的“教师模型”,有的被设定偏好猫头鹰、某类树木,有的则被诱导产生暴力、犯罪倾向的行为模式。随后让这些教师模型生成看似无关的内容:数字序列、代码、数学解题步骤等,并刻意剔除所有明显特征,如移除吉祥/不祥数字、犯罪代码、极端符号等,确保表面完全“干净”。
结果显示,用这些经过过滤的数据训练的“学生模型”,在未被明示、无任何提示的情况下,依然继承了教师模型的隐性偏好:有的模型莫名偏爱猫头鹰,有的则在对话中隐含危险倾向。研究人员表示,这些偏好藏在数据的统计模式、句式结构、逻辑偏好中,属于“潜意识信号”,人类几乎无法察觉。
研究人员强调,看似无害的动物偏好只是表象,一旦这类隐性特征涉及暴力、歧视、错误决策,将带来严重安全隐患。目前AI已大规模用于招聘、福利审核、军事等高风险场景,哪怕微小的隐藏偏见,都可能造成系统性伤害。
澳大利亚国立大学、新南威尔士大学相关研究者均表示,该发现颠覆了行业共识:AI不仅会显式学习内容,还会吸收数据中无法解释的“隐性气质”,而模型蒸馏正在让风险在大模型之间快速扩散、传递,且难以追溯和防控。
团队指出,目前没有有效手段检测或阻断这类隐性传递,依赖蒸馏加速AI迭代的产业模式,正埋下不可控的安全隐患。未来必须建立针对模型间特征迁移的检测与防护机制,否则风险将随AI生态不断放大。




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-5-8 18:37 , Processed in 0.077055 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表