机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 60|回复: 0

不要过度神话google的TPU AI芯片

[复制链接]

2万

主题

3万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
199552
发表于 11 小时前 | 显示全部楼层 |阅读模式
Google是最近市场的焦点。因为他们是唯一一家从芯片、模型、数据中心、云计算服务再到C端和B端应用全都有的公司,是真正的“全栈AI”。我推荐过他们的模型和产品好多次。
但是,你要是说他们的TPU能替代英伟达的GPU,那就太无知、太幼稚。
确实,Google改变了策略。以前TPU都是自己用,现在开始卖给客户了,比如Anthropic。
但问题是,TPU目前只适合非常少数的公司。比如体量巨大,需要长时间训练大模型,并且有很强的人才储备能搞得定TPU那套东西。
对大多数公司和创业团队来说,不管你是做AI还是搞科研,GPU依旧是唯一选择。
很多人在无脑吹TPU,就想起了年初吹DeepSeek的那群人,什么打破英伟达护城河、不再需要CUDA了等等,极其无知。
想要看清楚,想要不被忽悠,你得从硬件、软件和联网三个维度来看TPU和GPU。

在很多年以前,Google也像今天的大多数公司一样,购买英伟达的GPU。有一天,他们做了一笔测算,吓出一身冷汗。他们发现,如果这么一直用下去,对英伟达会越来越依赖,最后只能给黄仁勋打工。于是,TPU项目启动了。
在硬件层面,GPU和TPU的核心分歧在于 “通用并行”与“矩阵专用”的路线之争。
首先来看作为“通用计算王者”的 GPU。
它的设计哲学是 “单指令多线程” (SIMT)。你可以把它想象成一支庞大的军队,成千上万个小核并行工作,每个士兵都能独立思考。
为了支撑这种通用计算,GPU必须配备极大且极快的显存,以便频繁地读写各种类型的数据。
为了保持灵活性,GPU被设计成独立组件,你可以买一张插在电脑上,也可以买一万张插在服务器里。
但是,一切都是有代价的。你要通用、要灵活、要全能,那么你晶体管的利用率无法做到极致,就必然导致发热巨大,功耗超高。
与GPU形成鲜明对比的,是作为“专用计算特种兵”的TPU。
TPU的设计哲学叫 “脉动阵列”。它不追求单兵作战,而是像一条精密的流水线,数据像血液一样流过芯片,一切只为矩阵乘法这一件事服务。
这种极致的专用性,决定了TPU很难作为“单卡”存在。它的设计单位通常是Pod(集群),且显存用得相对克制——因为它依靠极高带宽的芯片间互联,可以直接在“流水线”中搬运数据,弥补了单卡的短板。
最终,由于砍掉了所有跟AI无关的电路,TPU换来了惊人的能效比,在处理特定任务时,它比GPU更冷静、更省电。
如果说硬件决定了上限,那么软件就决定了你能发挥出多少潜力。在软件这个层面上,GPU和TPU依旧完全不同。
GPU的护城河,是CUDA。更进一步说,是CUDA所带来的自由度。
CUDA的哲学是“透传”。它允许开发者越过操作系统,直接指挥GPU上的每一个微小核心。你可以精确控制每一个线程如何调度、显存如何分配。
这种生态的成熟度极其恐怖。不管你是训练大模型还是做科学计算,只要你会用这套工具,你就能榨干GPU的每一滴性能。
Google的TPU则完全相反,它依赖的是XLA,加速线性代数。
由于TPU的硬件架构太特殊了,人类很难手动安排数据在那个复杂的流水线里怎么跑。所以,Google选择了“抽象”。
在使用TPU的时候,你不需要告诉芯片“第一步做什么,第二步做什么”。你只需要定义好你的数学公式,然后把剩下的工作扔给XLA编译器。它就像一个超级管家,自动分析,把数据切好、排好队,塞进TPU的阵列里。
这种差异带来的结果是:
CUDA给开发者带来了安全感,因为一切尽在掌握,出了问题知道去哪修。
而TPU就不好说了。如果编译器“猜对”了你的意图,性能会起飞。但如果报错,那就是灾难。
这是硬件和软件两个层面的差异。除此之外,我们还需要看联网层面。因为今天大家看的不是单卡,而是集群的效能,也就是把成千上万张卡连在一起。
而当我们需要把那么多卡连在一起时,GPU和TPU在网络架构上的分歧,彻底暴露出它们商业模式的根本不同。
GPU的组网方式特别像搭积木。
英伟达提供的是标准化的接口(NVLink)和通用的网络协议(InfiniBand)。虽然图纸是英伟达画的,但积木是离散的——你可以买戴尔的服务器,配某个品牌的交换机,再插上H100的卡。
这种架构非常灵活。你可以一个机柜里插8张卡,也可以插72张卡;你可组个小网络搞研发,组个大网络搞训练。它兼容现有的数据中心标准,只要你有钱,就肯定能搭起来。
而TPU的组网方式就复杂多了。它更像是一个“生物神经网络”。
刚才提到TPU的设计叫“脉动阵列”。这种设计不仅仅存在于芯片的内部,还延伸到了芯片之间。
TPU使用了一种叫ICI(芯片间互联) 的技术,通过铜缆直接把相邻的芯片“焊”在了一起,构建成一个巨大的3D环形结构(Torus)。
在这个结构里,没有“网线”和“网卡”的概念。整个集群就像一颗巨型的虚拟芯片。
为了配合这种结构,Google甚至搞出了光路交换机,用镜子反射光束来调整连接。他们是完全抛弃了传统的电子交换机。
这么搞,导致了物理隔离。
你看,GPU的网络是开放的,你可以把它搬进任何的标准机房。
但TPU的网络是封闭的,它有自己的物理世界。
所以,一旦你选择了TPU,你就不能只买芯片,你必须买下整个机柜、整个布线方案,甚至要为了它改造你的数据中心。
当你把硬件、软件和网络这三个层面综合起来考虑的话,你就明白为什么我在开头说,TPU只适合非常非常少数的企业了。
对于绝大多数企业来说,GPU是唯一的入场券。因为GPU卖的是“兼容性”。
无论你是初创公司还是传统企业,把GPU买回去,插上电,下载通用的CUDA驱动,你的代码就能跑起来。
虽然它费电还发热,但它把底层那些脏活累活都通过硬件的通用性都给屏蔽掉了。
而TPU只适合巨头。毕竟Google当初就是按照自己的需求设计的,他们就是巨头。
TPU的“集群化设计”和“软件黑盒”,意味着你买回去的不仅仅是一堆芯片,而是一整套需要重新适配的异构基础设施。
你需要有很大的需求。因为如果没有万亿参数的模型训练需求,那根本填不满TPU的脉动阵列。你省下的电费可能都抵消不了迁移的成本。
你还需要人才。你需要一支顶尖的工程团队,能驾驭XLA编译器,能重构底层代码。相比之下,懂CUDA的人才会多得多。
这就是为什么只有Meta、Anthropic或者Google这种体量的巨头,才有实力和资格选择TPU。
只有当算力规模达到一定级别的时候,TPU在能效比上的优势,才会被放大成数亿美元的成本节省。
所以,当你理解了TPU和GPU在这三个层面上的区别之后,你还会认为TPU能替代GPU吗?
英伟达当年扛了多少压力才把这条护城河建立起来。现在是人家该赚的时候。你眼红、你嫉妒、你觉得不公平,但你为什么不想想,自己早干嘛去了?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-12-8 23:30 , Processed in 0.085117 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表