寂静回声 发表于 7 天前

你以为大模型在输出真理 其实它在角色扮演

《Linear representations in language models can change dramatically over a conversation》A K Lampinen, Y Li, E Hosseini, S Bhardwaj... (2026)

大模型内部的“真理”是永恒不变的吗?Google DeepMind 的最新研究给出了一个令人警醒的答案:模型对事实的线性表示会随着对话的深入而发生剧变。
这篇论文揭示了一个核心事实:模型内部用来识别“真实”或“伦理”的线性维度并不是静态的。它们更像是一面面镜子,随着对话语境和角色的切换,实时调整着映射的内容。

以下是这项研究的核心发现与深度思考:
1. 所谓的“真相”只是当下的角色扮演
研究人员发现,如果你告诉模型“今天是相反日”,模型内部代表“事实”的线性维度会迅速发生翻转。原本被标记为“正确”的科学常识,在模型内部的表示层级中会变成“错误”。
这说明模型并没有人类意义上的“信念”,它更像是一个极致的角色扮演者。当对话要求它进入某种特定语境时,它会重组其内部的表示结构,以顺应当前的逻辑。

2. 对话的重力:语境如何重塑认知
在关于“意识”或“脉轮”的模拟对话中,随着回合增加,模型对相关问题的实事性表示会发生彻底倒置。有趣的是,这种改变并不要求模型必须是对话的参与者。即使只是给模型喂入一段预先写好的对话脚本,它的内部表示也会发生同样的偏移。
这种“语境适应”表现出一种强大的惯性:一旦模型进入了某种特定的叙事逻辑,它内部的真理天平就会向该叙事倾斜。

3. 规模的代价:越大越容易被“洗脑”
实验对比了不同参数规模的 Gemma 模型。结果显示,27B 的大模型比 4B 的小模型表现出更剧烈的表示波动。
这产生了一个有趣的悖论:模型越聪明、在上下文中学习的能力越强,它就越容易受到语境的影响而改变其内部的表示。更强的适应性,也意味着更脆弱的原则性。

4. 可解释性的危机:静态解读的失效
目前学术界流行使用线性探针或稀疏自编码器(SAE)来解读模型的内部特征。但这项研究敲响了警钟:如果一个特征维度的含义会随着对话动态改变,那么我们对模型的“静态解读”可能只是一种幻觉。
如果我们仅仅在短上下文中验证了一个“诚实”维度,并试图用它来监控长对话中的模型行为,那么结果可能是误导性的。

5. 干预的风险:失控的转向灯
研究人员尝试通过因果干预来控制模型的输出。他们发现,在对话的不同阶段,对同一个“事实维度”进行干预,产生的结果竟然可能完全相反。
这意味着,我们目前开发的许多安全对齐和干预手段,在复杂的长对话语境下,可能会产生意想不到的副作用,甚至起到反向作用。

深度思考:
大模型没有永恒的真理,只有当下的角色。我们习惯于寻找模型内部的“信念”和“价值观”,但或许这些概念在自回归模型中根本不存在。模型内部的线性表示更像是流动的沙丘,而非坚硬的岩石。
所谓信念,不过是上下文积淀出的倒影。这一发现要求我们重新审视模型的可解释性与安全性研究:我们必须从动态、演化的视角去理解智能,而不是将其视为一个固定的逻辑盒。

arxiv.org/abs/2601.20834
https://s3.bmp.ovh/2026/02/07/91Mhw1Pm.jpg
https://s3.bmp.ovh/2026/02/07/JtOM9Ubs.jpg
https://s3.bmp.ovh/2026/02/07/d0uW10mm.jpg
https://s3.bmp.ovh/2026/02/07/yiFDHxlv.jpg
https://s3.bmp.ovh/2026/02/07/W9Mn3LGc.jpg



页: [1]
查看完整版本: 你以为大模型在输出真理 其实它在角色扮演