机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 44|回复: 0

你以为大模型在输出真理 其实它在角色扮演

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
204974
发表于 4 天前 | 显示全部楼层 |阅读模式
[CL]《Linear representations in language models can change dramatically over a conversation》A K Lampinen, Y Li, E Hosseini, S Bhardwaj... [Google DeepMind] (2026)

大模型内部的“真理”是永恒不变的吗?Google DeepMind 的最新研究给出了一个令人警醒的答案:模型对事实的线性表示会随着对话的深入而发生剧变。
这篇论文揭示了一个核心事实:模型内部用来识别“真实”或“伦理”的线性维度并不是静态的。它们更像是一面面镜子,随着对话语境和角色的切换,实时调整着映射的内容。

以下是这项研究的核心发现与深度思考:
1. 所谓的“真相”只是当下的角色扮演
研究人员发现,如果你告诉模型“今天是相反日”,模型内部代表“事实”的线性维度会迅速发生翻转。原本被标记为“正确”的科学常识,在模型内部的表示层级中会变成“错误”。
这说明模型并没有人类意义上的“信念”,它更像是一个极致的角色扮演者。当对话要求它进入某种特定语境时,它会重组其内部的表示结构,以顺应当前的逻辑。

2. 对话的重力:语境如何重塑认知
在关于“意识”或“脉轮”的模拟对话中,随着回合增加,模型对相关问题的实事性表示会发生彻底倒置。有趣的是,这种改变并不要求模型必须是对话的参与者。即使只是给模型喂入一段预先写好的对话脚本,它的内部表示也会发生同样的偏移。
这种“语境适应”表现出一种强大的惯性:一旦模型进入了某种特定的叙事逻辑,它内部的真理天平就会向该叙事倾斜。

3. 规模的代价:越大越容易被“洗脑”
实验对比了不同参数规模的 Gemma 模型。结果显示,27B 的大模型比 4B 的小模型表现出更剧烈的表示波动。
这产生了一个有趣的悖论:模型越聪明、在上下文中学习的能力越强,它就越容易受到语境的影响而改变其内部的表示。更强的适应性,也意味着更脆弱的原则性。

4. 可解释性的危机:静态解读的失效
目前学术界流行使用线性探针或稀疏自编码器(SAE)来解读模型的内部特征。但这项研究敲响了警钟:如果一个特征维度的含义会随着对话动态改变,那么我们对模型的“静态解读”可能只是一种幻觉。
如果我们仅仅在短上下文中验证了一个“诚实”维度,并试图用它来监控长对话中的模型行为,那么结果可能是误导性的。

5. 干预的风险:失控的转向灯
研究人员尝试通过因果干预来控制模型的输出。他们发现,在对话的不同阶段,对同一个“事实维度”进行干预,产生的结果竟然可能完全相反。
这意味着,我们目前开发的许多安全对齐和干预手段,在复杂的长对话语境下,可能会产生意想不到的副作用,甚至起到反向作用。

深度思考:
大模型没有永恒的真理,只有当下的角色。我们习惯于寻找模型内部的“信念”和“价值观”,但或许这些概念在自回归模型中根本不存在。模型内部的线性表示更像是流动的沙丘,而非坚硬的岩石。
所谓信念,不过是上下文积淀出的倒影。这一发现要求我们重新审视模型的可解释性与安全性研究:我们必须从动态、演化的视角去理解智能,而不是将其视为一个固定的逻辑盒。

arxiv.org/abs/2601.20834








回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-2-11 00:43 , Processed in 0.105374 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表