多模态大模型的幻觉到底有多大

寂静回声 · 发表于 2026-3-26 09:28:15

浙江大学联合阿里巴巴、香港城市大学、密歇根大学的研究团队做了一个很直接的实验：
把输入图像从清晰状态一路加噪到接近不可辨认，同时持续监测模型的准确率与置信度。
结果是，准确率断崖式下跌，但置信度几乎不动。也就是说，图像已经看不清了，模型仍然会高置信度地给出答案。
过去，多模态推理研究默认的前提是：模型已经在充分利用视觉信息，接下来只需要把推理能力做强。但这篇论文提醒我们，一个模型根本没有真正“看懂”图像，却依然能给出高度自信的回答。若这个前提没有被修正，后续再复杂的推理链条，也可能建立在不可靠的感知基础上。

研究团队将上述现象定义为“感知钝化”（Perceptual Bluntness）。也就是，模型对视觉信息质量的变化缺乏敏感性，视觉证据已经明显退化，但置信度仍维持在高位。放在人类语境里，这很像一个人在看不清题目的情况下，仍然非常笃定地报出答案。
为了在多模态场景下更稳定地度量这种问题，研究团队没有沿用文本模型里常见的token级校准方式，而是将置信度定义为整个输出序列的平均负对数概率（NMLP），建立响应级别的置信度度量。基于这一度量，整套方法分成两个阶段：训练阶段的置信度校准，以及推理阶段的置信度感知扩展。

训练阶段的核心模块是CDRL（Confidence-Driven Reinforcement Learning）。它的目标不是单纯提升答题准确率，而是让模型在“看得清”和“看不清”两种情况下，给出与视觉证据相匹配的置信度。
具体做法是，让模型同时处理同一问题的原始图像与加噪图像，并通过强化学习优化一个双重奖励机制：
1. 感知敏感性奖励：鼓励模型在原始图像与噪声图像之间产生合理的置信度差异。差异越大，说明模型越能感知视觉退化。
2. 校准一致性奖励：当模型预测正确且置信度高时给予正向奖励；当模型预测错误但置信度仍高时施加惩罚。

这两个奖励共同约束模型学会两件事：一是对视觉退化保持敏感，二是对自身判断保持诚实。
在训练数据上，研究团队从6个公开基准中筛选出1936个高质量样本，并使用CLIP注意力图定位关键视觉区域，生成更具针对性的扰动，使噪声集中施加在真正影响推理的局部区域。
从结果看，CDRL的效果并不只是“置信度变低”这么简单，而是“置信度终于跟视觉证据对上了”。面对噪声图像时，训练后的模型置信度下降幅度是训练前的4.3倍；面对遮挡条件时，这一比值达到4.7倍。
有了更可信的置信度之后，研究团队进一步提出CA-TTS，把“模型对自己有多确定”转化为推理阶段的调度信号。
与常见的Tree-of-Thoughts不同，CA-TTS的关键不只是“多想几步”，而是建立了一个多阶段验证闭环。前一阶段即使给出错误候选，后续模块仍有机会纠正它。论文中的“墙上缺了多少块砖”案例就体现了这一点：Tree-of-Thoughts在最终单点评估上失手，而CA-TTS通过加权投票、反思和视觉自检三步纠偏，最终恢复出正确答案。

CA-TTS的思路正好反过来：先通过CDRL建立对视觉证据变化敏感、且与准确性一致的置信度，再让这种置信度去指导推理资源的分配。这是一种明确的Perceive-then-Reason范式，也就是从“先推理后感知”转向“先感知后推理”。
当然，这一方向也并非没有代价。多次采样与专家模型调用会带来额外推理成本，当前实验也主要集中在数学推理和通用VQA任务上。

		自动登录	找回密码
密码			立即注册

多模态大模型的幻觉到底有多大

浏览过的版块