你以为大模型在输出真理其实它在角色扮演

寂静回声 · 发表于 2026-2-7 13:43:38

[CL]《Linear representations in language models can change dramatically over a conversation》A K Lampinen, Y Li, E Hosseini, S Bhardwaj... [Google DeepMind] (2026)

大模型内部的“真理”是永恒不变的吗？Google DeepMind 的最新研究给出了一个令人警醒的答案：模型对事实的线性表示会随着对话的深入而发生剧变。
这篇论文揭示了一个核心事实：模型内部用来识别“真实”或“伦理”的线性维度并不是静态的。它们更像是一面面镜子，随着对话语境和角色的切换，实时调整着映射的内容。

以下是这项研究的核心发现与深度思考：
1. 所谓的“真相”只是当下的角色扮演
研究人员发现，如果你告诉模型“今天是相反日”，模型内部代表“事实”的线性维度会迅速发生翻转。原本被标记为“正确”的科学常识，在模型内部的表示层级中会变成“错误”。
这说明模型并没有人类意义上的“信念”，它更像是一个极致的角色扮演者。当对话要求它进入某种特定语境时，它会重组其内部的表示结构，以顺应当前的逻辑。

2. 对话的重力：语境如何重塑认知
在关于“意识”或“脉轮”的模拟对话中，随着回合增加，模型对相关问题的实事性表示会发生彻底倒置。有趣的是，这种改变并不要求模型必须是对话的参与者。即使只是给模型喂入一段预先写好的对话脚本，它的内部表示也会发生同样的偏移。
这种“语境适应”表现出一种强大的惯性：一旦模型进入了某种特定的叙事逻辑，它内部的真理天平就会向该叙事倾斜。

3. 规模的代价：越大越容易被“洗脑”
实验对比了不同参数规模的 Gemma 模型。结果显示，27B 的大模型比 4B 的小模型表现出更剧烈的表示波动。
这产生了一个有趣的悖论：模型越聪明、在上下文中学习的能力越强，它就越容易受到语境的影响而改变其内部的表示。更强的适应性，也意味着更脆弱的原则性。

4. 可解释性的危机：静态解读的失效
目前学术界流行使用线性探针或稀疏自编码器（SAE）来解读模型的内部特征。但这项研究敲响了警钟：如果一个特征维度的含义会随着对话动态改变，那么我们对模型的“静态解读”可能只是一种幻觉。
如果我们仅仅在短上下文中验证了一个“诚实”维度，并试图用它来监控长对话中的模型行为，那么结果可能是误导性的。

5. 干预的风险：失控的转向灯
研究人员尝试通过因果干预来控制模型的输出。他们发现，在对话的不同阶段，对同一个“事实维度”进行干预，产生的结果竟然可能完全相反。
这意味着，我们目前开发的许多安全对齐和干预手段，在复杂的长对话语境下，可能会产生意想不到的副作用，甚至起到反向作用。

深度思考：
大模型没有永恒的真理，只有当下的角色。我们习惯于寻找模型内部的“信念”和“价值观”，但或许这些概念在自回归模型中根本不存在。模型内部的线性表示更像是流动的沙丘，而非坚硬的岩石。
所谓信念，不过是上下文积淀出的倒影。这一发现要求我们重新审视模型的可解释性与安全性研究：我们必须从动态、演化的视角去理解智能，而不是将其视为一个固定的逻辑盒。

arxiv.org/abs/2601.20834

		自动登录	找回密码
密码			立即注册

你以为大模型在输出真理 其实它在角色扮演

浏览过的版块

你以为大模型在输出真理其实它在角色扮演