不要过度神话google的TPU AI芯片

寂静回声 · 发表于 2025-12-8 11:42:23

Google是最近市场的焦点。因为他们是唯一一家从芯片、模型、数据中心、云计算服务再到C端和B端应用全都有的公司，是真正的“全栈AI”。我推荐过他们的模型和产品好多次。
但是，你要是说他们的TPU能替代英伟达的GPU，那就太无知、太幼稚。
确实，Google改变了策略。以前TPU都是自己用，现在开始卖给客户了，比如Anthropic。
但问题是，TPU目前只适合非常少数的公司。比如体量巨大，需要长时间训练大模型，并且有很强的人才储备能搞得定TPU那套东西。
对大多数公司和创业团队来说，不管你是做AI还是搞科研，GPU依旧是唯一选择。
很多人在无脑吹TPU，就想起了年初吹DeepSeek的那群人，什么打破英伟达护城河、不再需要CUDA了等等，极其无知。
想要看清楚，想要不被忽悠，你得从硬件、软件和联网三个维度来看TPU和GPU。

在很多年以前，Google也像今天的大多数公司一样，购买英伟达的GPU。有一天，他们做了一笔测算，吓出一身冷汗。他们发现，如果这么一直用下去，对英伟达会越来越依赖，最后只能给黄仁勋打工。于是，TPU项目启动了。
在硬件层面，GPU和TPU的核心分歧在于 “通用并行”与“矩阵专用”的路线之争。
首先来看作为“通用计算王者”的 GPU。
它的设计哲学是 “单指令多线程” (SIMT)。你可以把它想象成一支庞大的军队，成千上万个小核并行工作，每个士兵都能独立思考。
为了支撑这种通用计算，GPU必须配备极大且极快的显存，以便频繁地读写各种类型的数据。
为了保持灵活性，GPU被设计成独立组件，你可以买一张插在电脑上，也可以买一万张插在服务器里。
但是，一切都是有代价的。你要通用、要灵活、要全能，那么你晶体管的利用率无法做到极致，就必然导致发热巨大，功耗超高。
与GPU形成鲜明对比的，是作为“专用计算特种兵”的TPU。
TPU的设计哲学叫 “脉动阵列”。它不追求单兵作战，而是像一条精密的流水线，数据像血液一样流过芯片，一切只为矩阵乘法这一件事服务。
这种极致的专用性，决定了TPU很难作为“单卡”存在。它的设计单位通常是Pod（集群），且显存用得相对克制——因为它依靠极高带宽的芯片间互联，可以直接在“流水线”中搬运数据，弥补了单卡的短板。
最终，由于砍掉了所有跟AI无关的电路，TPU换来了惊人的能效比，在处理特定任务时，它比GPU更冷静、更省电。
如果说硬件决定了上限，那么软件就决定了你能发挥出多少潜力。在软件这个层面上，GPU和TPU依旧完全不同。
GPU的护城河，是CUDA。更进一步说，是CUDA所带来的自由度。
CUDA的哲学是“透传”。它允许开发者越过操作系统，直接指挥GPU上的每一个微小核心。你可以精确控制每一个线程如何调度、显存如何分配。
这种生态的成熟度极其恐怖。不管你是训练大模型还是做科学计算，只要你会用这套工具，你就能榨干GPU的每一滴性能。
Google的TPU则完全相反，它依赖的是XLA，加速线性代数。
由于TPU的硬件架构太特殊了，人类很难手动安排数据在那个复杂的流水线里怎么跑。所以，Google选择了“抽象”。
在使用TPU的时候，你不需要告诉芯片“第一步做什么，第二步做什么”。你只需要定义好你的数学公式，然后把剩下的工作扔给XLA编译器。它就像一个超级管家，自动分析，把数据切好、排好队，塞进TPU的阵列里。
这种差异带来的结果是：
CUDA给开发者带来了安全感，因为一切尽在掌握，出了问题知道去哪修。
而TPU就不好说了。如果编译器“猜对”了你的意图，性能会起飞。但如果报错，那就是灾难。
这是硬件和软件两个层面的差异。除此之外，我们还需要看联网层面。因为今天大家看的不是单卡，而是集群的效能，也就是把成千上万张卡连在一起。
而当我们需要把那么多卡连在一起时，GPU和TPU在网络架构上的分歧，彻底暴露出它们商业模式的根本不同。
GPU的组网方式特别像搭积木。
英伟达提供的是标准化的接口（NVLink）和通用的网络协议（InfiniBand）。虽然图纸是英伟达画的，但积木是离散的——你可以买戴尔的服务器，配某个品牌的交换机，再插上H100的卡。
这种架构非常灵活。你可以一个机柜里插8张卡，也可以插72张卡；你可组个小网络搞研发，组个大网络搞训练。它兼容现有的数据中心标准，只要你有钱，就肯定能搭起来。
而TPU的组网方式就复杂多了。它更像是一个“生物神经网络”。
刚才提到TPU的设计叫“脉动阵列”。这种设计不仅仅存在于芯片的内部，还延伸到了芯片之间。
TPU使用了一种叫ICI(芯片间互联) 的技术，通过铜缆直接把相邻的芯片“焊”在了一起，构建成一个巨大的3D环形结构（Torus）。
在这个结构里，没有“网线”和“网卡”的概念。整个集群就像一颗巨型的虚拟芯片。
为了配合这种结构，Google甚至搞出了光路交换机，用镜子反射光束来调整连接。他们是完全抛弃了传统的电子交换机。
这么搞，导致了物理隔离。
你看，GPU的网络是开放的，你可以把它搬进任何的标准机房。
但TPU的网络是封闭的，它有自己的物理世界。
所以，一旦你选择了TPU，你就不能只买芯片，你必须买下整个机柜、整个布线方案，甚至要为了它改造你的数据中心。
当你把硬件、软件和网络这三个层面综合起来考虑的话，你就明白为什么我在开头说，TPU只适合非常非常少数的企业了。
对于绝大多数企业来说，GPU是唯一的入场券。因为GPU卖的是“兼容性”。
无论你是初创公司还是传统企业，把GPU买回去，插上电，下载通用的CUDA驱动，你的代码就能跑起来。
虽然它费电还发热，但它把底层那些脏活累活都通过硬件的通用性都给屏蔽掉了。
而TPU只适合巨头。毕竟Google当初就是按照自己的需求设计的，他们就是巨头。
TPU的“集群化设计”和“软件黑盒”，意味着你买回去的不仅仅是一堆芯片，而是一整套需要重新适配的异构基础设施。
你需要有很大的需求。因为如果没有万亿参数的模型训练需求，那根本填不满TPU的脉动阵列。你省下的电费可能都抵消不了迁移的成本。
你还需要人才。你需要一支顶尖的工程团队，能驾驭XLA编译器，能重构底层代码。相比之下，懂CUDA的人才会多得多。
这就是为什么只有Meta、Anthropic或者Google这种体量的巨头，才有实力和资格选择TPU。
只有当算力规模达到一定级别的时候，TPU在能效比上的优势，才会被放大成数亿美元的成本节省。
所以，当你理解了TPU和GPU在这三个层面上的区别之后，你还会认为TPU能替代GPU吗？
英伟达当年扛了多少压力才把这条护城河建立起来。现在是人家该赚的时候。你眼红、你嫉妒、你觉得不公平，但你为什么不想想，自己早干嘛去了？

		自动登录	找回密码
密码			立即注册