机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 148|回复: 0

这几天吹的Deepseek V3国产大模型在过拟合测试中表现糟糕

[复制链接]

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
178092
发表于 2025-1-1 15:04:41 | 显示全部楼层 |阅读模式
www.reddit.com/r/LocalLLaMA上看到的一个讨论,经过测试,Deepseek V3国产大模型在测试过拟合的 Misguided Attention 测评中表现出乎意料地差。
Misguided Attention 测评收集了一批常见思维实验、谜题或悖论(“陷阱题”)的变体。这些题目做了些微小改动,但大部分大型语言模型因为在预训练阶段已经见过原版,往往会倾向直接给出针对原版题目的回答,而忽视了新变化。
所以,该测评用来检验模型是否能真正关注到微弱线索,而不是“过拟合”到习以为常的问题上。如果用一句话来总结这个测试的话,会是:“看起来像原题,其实不是原题”,考察模型是不是在背答案,而不是推理。
结果是:在 13 道测试题中,Deepseek V3 只正确回答了 22% 的题目。这种结果对于一款新出且模型规模不小的模型来说比较意外。看起来,Deepseek V3 的一些优化(比如压缩 KV 缓存、MoE 等)让它对过拟合更敏感。

一些对 V3 测试的观察:
模型在有些题目上会遗漏仅增加了一个单词的干扰(比如薛定谔的猫,电车难题)。据观察,密集(dense)模型在此类陷阱上表现更好。
在某些无解或者需要跳脱思维的题目(例如 4 升水壶、绳子问题等)上,它会出现“循环输出”的情况,看起来像是微调过程里,模型被训练得过度倾向展示详细推理过程而陷入循环。

以下为Reddit帖子下,不同用户的观点或补充讨论,做了适当整合与翻译,以便阅读:
用户 A
一直觉得 Deepseek 系列有这种“固执”的情况:只要它对某个任务比较熟练,就能做得很好,但如果要稍微改变任务或让它灵活应对,就很难引导。可能是后训练阶段(post-training)有些做法不如其他模型。
不过它是开源权重,依然很有价值。

用户 B
我猜它在自定义 MoE(专家混合)场景中或许表现不错。

用户 C
也许是因为在模型中加入了某些“宣传内容”?(可能指的是某些额外的定向信息或对齐方式。)

用户 D
我猜想这和它的对齐方式有关,如果不做这些对齐或过滤,模型可能表现更好。

用户 E
我在自己的实验里发现类似情况,某些更小的变体模型反而在一些“有毒茶”的问题上表现得比主力版本好,可能是它们没有被过多数据“带偏”。

该测评作者(OP)
在看到用户 E 提到“毒茶”变体后,立即将该问题补充进了测评仓库。
观测到 Deepseek V3 未能察觉某些题目中仅新增了一两个词的改动,结果就直接沿用了原版的经典解答,从而出错。
浓缩(dense)模型在这方面表现似乎更好。
还观察到深度微调的模型有时会进入循环或错误推理,这可能与它们在训练中被要求输出完整思路、但又过度拟合在范例上有关。

用户 F
感谢测试和分享。我也发现 Deepseek V3 的注意力机制可能因为 MoE 的缘故更容易出错,特别是长上下文的推理可能超出了模型的“专家路由”范围。

用户 G
看到这个测评,才知道“misguided attention”居然已经是个比较常用的概念了。我也做了类似测试,结论同样是过拟合导致结果偏差。

OP 回复
“Misguided Attention”这个称呼也不算什么官方术语,就是我自己给测评取的名字罢了。

用户 H
我也观察到有些模型对“加了一个词”的题目应对不佳,但同时没想到 Deepseek V3 居然也这么容易中招。
对此我很感兴趣,不知道是不是它在后续训练里使用了过高学习率,或者引入 MoE 时出现了新的注意力架构bug之类。

用户 I
很多 MoE 或低秩近似方法都有类似的问题:它们普遍在大多数普通场景下表现不错,但在一些长尾情况(对过拟合比较敏感的场景)容易掉链子。

用户 J
有人提到 Deepseek V3 在 OpenRouter 上的 API 版本和官方 API 版本可能有些差异,OpenRouter 上的版本据说“不太好用”,但作者说测试对比下来区别似乎不大,至少在过拟合场景下不会好到哪去。

用户 K
Deepseek V3 在“装了死猫的盒子与放射源”的题目里,直接给出了标准的薛定谔猫回答,而没注意到题目中的改动点,非常明显地体现了这类“默认回答陷阱”。

用户 L
有人问为什么这个测评里没加 DeepThink 或其他专门强调推理链的模型。作者回答说,自己也做了测试,只是没放在主要的图表里,因为目前很多推理向模型的接口不统一,必须用网页或其他方式测试,难免会受到系统提示词等因素干扰,结果会不够客观。

用户 M
关于 Gemini 模型,一些测试也发现“小模型”反而在这个测评里比“大模型”得分更高。对此有人提出,这可能表明测评本身需要改进,也可能说明大模型“过度拟合”更严重。
也有人认为,对于这种专门测试“忽略小差异就会答错”的场景,小模型有时因为记忆力有限,反倒可以跳出惯性思维。

用户 N
指出 Deepseek V3 可能因为过度训练在其他文本上,遇到类似题目就死死卡在一个思路,不愿意尝试新路径。换句话说,模型像是被“锚定”在某些固定回复上。

用户 O
也有人表示,Deepseek V3 加了很多过滤或敏感话题对齐,特别涉及地缘政治信息时会很谨慎,这也可能影响它处理复杂推理时的自由度。

用户 P
另有反馈称,Deepseek V3 在写特定版本的 C++代码时,经常执着于同一写法,换种提问也依旧给出差不多的代码段;这种“单一解法”也可能是过拟合的一种表现。

用户 Q
有人问到 MoE(专家路由)的原理性问题:参数虽大,但实际推理时只调用部分专家,导致在某些分支上模型反而能力不足。对于有长尾或微妙修改的题目尤其明显。

总结
整体而言,大家普遍认为 Deepseek V3 在 Misguided Attention 测评中表现不佳,印证了它对某些“细微改动”或“非常规变体”的处理能力偏弱,容易给出过度拟合的答案。
值得注意的是,该测评也不一定完全能代表模型的整体实力;不过对“如何让模型更好地注意微小变动、不被训练集的常见答案所束缚”这一点,确实提供了有价值的参考。

在解答《一个求极限的题目没想明白》时
http://jixietop.top/forum.php?mo ... 215&fromuid=779


GPT-4o给出正确结果,而这几天这个吹上天的国产大模型Deepseek V3胡诌一气。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-1-21 17:57 , Processed in 0.099437 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表