机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 73|回复: 0

一体机是DeepSeek交付的最佳方式吗?

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
181909
发表于 2025-3-17 09:25:23 | 显示全部楼层 |阅读模式
恰恰相反,一体机是阻碍DeepSeek提升推理性能的最大绊脚石。

只因DeepSeek这个模型有点特殊,它是个高稀疏度的MoE模型。
MoE这种混合专家模型,设计的初衷是通过“激活一堆专家中的少量专家”,来达到减少计算量、提升推理效率的目标。
MoE模型里那些未激活专家,虽然不消耗算力,但它们的参数量仍然要占用显存/内存,带来巨大的存储开销和调度复杂性。
回过头来,我们再来看DeepSeek-R1/V3,是稀疏度极高的MoE模型(总参数量6710亿,激活量370亿)。
按照DeepSeek官方的最新披露,模型每层256个专家,只有8个被激活(V3的Transformer 层数设置为 61 层)。
好比你的饭店有60多个后厨房间,每个屋里放256个厨师,同时只有8个厨师干活,其他待命。
你想想,恐怕只有新东方厨师专修学院才这么干吧。
这就意味着,你需要配置超高的一体机(大显存、大内存),才能够运行满血版DeepSeek。
事实证明,目前的状况也的确如此,市面上的“真·满血DeepSeek一体机”价格都是100万起,甚至要大几百万。
把MoE模型装进一体机的不科学之处在于:
我花了大钱买了一堆不能同时干活的专家,只为他们可以减少计算量。
然而,这种一体机部署模式算力是我买断的,难道不应该让他们尽量都干活,从而让算力最大化使用吗?
我的显存/内存/硬盘都是为了装下6710亿参数,但实际干活只有370亿参数。
一体机其实是运行DeepSeek这种MoE模型的最差选择,更适合运行那些非MoE的全参数激活模型。
如果仔细看上周DeepSeek官方在知乎披露的推理优化架构就明白了。
人家说的很清楚,要想获得“更大的吞吐、更低的延迟”,核心就是要使用「大规模跨节点专家并行」。
你一体机就单个节点、8张卡,勉强装下所有专家,还并行个毛线啊?
按照DeepSeek给出的官方参考推理架构(专家并行、数据并行、PD分离):
Prefill阶段:部署单元4节点(32张H800),32路专家并行和数据并行。
Decode阶段:部署单元18节点(144张H800),144路专家并行和数据并行。
这就意味着,一个22节点的集群(176张卡),才能发挥出最优的推理吞吐和延迟。(让每个专家获得足够的输入,都忙活起来,而不是“占着茅坑不拉屎”。
正因为这种采用这种大规模并行架构,DeepSeek官方给出的单服务器平均推理性能才高得离谱(输入:73.7k tokens/s,输出14.8k tokens/s)。
而一体机厂商们给出的性能,输出+输入的总和最多也不过4k tokens/s。
并不是要否定大模型一体机,只是一体机不适合部署MoE模型,让它跑个稠密模型,不需要大规模并行的,还是很好的。
眼下DeepSeek一体机满天飞,更多的还是满足客户的情绪价值:本地化、开箱即用、专属性……


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-3-26 02:11 , Processed in 0.082114 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表