大模型竞争不只拼 GPU，开始拼 AI 工厂了

核心摘要 Summary

Hugging Face 与 AWS 发布的这篇技术向导，不是 AWS 新品发布，更像一份基础模型基础设施拆解图。
重点不在单张 GPU 有多强，而在算力、网络、存储、调度、框架和可观测性能不能一起跑稳。
对大模型训练和推理团队来说，采购问题正在变成工程系统问题，省下运维复杂度的同时，也会交出一部分平台主动权。

Hugging Face 和 AWS 这次发的不是新品发布，也不是一篇普通云服务广告。

它更像一张 AI 工厂的拆解图：GPU、网络、存储、调度、训练框架、监控系统，全摆在一张桌上。单看每个词都不新。放在一起，信号很清楚：大模型竞争正在从“谁买到更多卡”，变成“谁能让成千上万张卡稳定、便宜、可诊断地一起干活”。

这件事最该看的，不是 AWS 又列了多少实例。是基础模型的门槛正在后移。卡还是硬通货，但真正吃掉团队时间和预算的，越来越是集群工程。

AWS 这套积木，核心不是 GPU 清单

这篇技术向导讲的是：在 AWS 上训练和推理基础模型，需要哪些基础设施层。

受众很明确：做大模型预训练、后训练、高吞吐推理的 ML 工程团队和研究团队。尤其是那些想基于开源软件栈搭系统，但又不想自己从裸金属一路修到监控告警的团队。

压缩看，AWS 这套“基础模型积木”大致分成几层：

层次	组件	主要作用
算力	P5 / P5e / P5en / P6 实例，H100 / H200 / B200 / B300	承担预训练、后训练、推理计算
节点内互联	NVLink / NVSwitch	提升同一节点或 NVLink 扩展域内的 GPU 通信效率
跨节点网络	EFA、UltraClusters	支撑多节点训练里的 all-reduce、all-gather、all-to-all
存储	NVMe instance store、FSx for Lustre、S3	处理热数据、共享数据集、checkpoint、持久备份
调度与框架	Slurm / Kubernetes、PyTorch / JAX	管资源、跑训练任务、组织实验流
可观测性	Prometheus、Grafana 等	监控集群、定位故障、追踪利用率和瓶颈

这里最容易看错的一点，是把它当成 GPU 参数表。

H100 到 H200，再到 B200、B300，当然有计算能力提升。但在真实大模型负载里，FLOPS 不是唯一主角。HBM 容量、HBM 带宽、NVLink 域、跨节点网络，常常更早变成瓶颈。

模型越大，问题越不像“算不算得动”。更像“数据搬不搬得动、通信堵不堵、checkpoint 写不写得下、坏了能不能定位”。

还要分清几件事。

NVLink / NVSwitch 主要解决节点内或扩展域内 GPU 互联。EFA 解决跨节点网络。UltraClusters 是把大量实例组织进紧密网络拓扑。它们不是同一个东西。混着讲，就会误判瓶颈。

原文也没有给第三方 benchmark。它列的是规格、组件和架构关系。说 AWS 因此“性能领先”，证据不够；说云厂商在把 AI 基础设施做成一套工厂系统，证据是够的。

三条 scaling law，把团队逼进系统工程

过去讲 scaling，很多人默认是在讲预训练：参数更多、数据更多、训练算力更多，loss 按经验规律下降。

现在不够了。

NVIDIA 提过的三条 scaling law，放在这里很有解释力：预训练、后训练、test-time compute。大模型不再只是在训练前期吃算力，训练之后、推理之中，也在继续吃基础设施。

扩展方向	典型做法	对基础设施的压力
预训练	更大模型、更大语料、更长训练	大规模 GPU、跨节点通信、checkpoint、故障恢复
后训练	SFT、RL、偏好优化	高频实验、复杂调度、数据版本、可观测性
Test-time compute	长思考、多采样、搜索验证	高吞吐推理、KV cache、延迟、成本控制

这会改变团队动作。

做预训练的团队，不能只问“有没有 H100、H200，或者什么时候上 B200、B300”。还要问 EFA 拓扑、FSx for Lustre 吞吐、S3 回写路径、checkpoint 策略、故障恢复时间。训练跑三天才发现网络抖动，账单和实验窗口都烧没了。

做后训练和推理的团队，重点也不一样。它们更该看调度效率、实验并发、监控颗粒度、推理吞吐和延迟成本。很多团队未必需要立刻抢最大集群，反而应该延后一次盲目采购，先把工作负载拆清楚：是预训练瓶颈、后训练瓶颈，还是推理成本瓶颈。

关注云厂商竞争的技术读者，则要换一个观察口径。不要只看谁发布了新实例。还要看谁能把网络、存储、调度、可观测性和开源框架打通得更顺。云厂商之间的差距，不一定写在 GPU 型号上，也可能写在一次故障恢复、一次资源排队、一次跨区数据搬迁里。

开源软件栈确实降低了入口。PyTorch、JAX、Slurm、Kubernetes、Prometheus、Grafana，都是熟面孔。

但开源不等于自由迁移。

到了千卡、万卡级别，硬件拓扑、托管服务、网络特性、存储路径，会把团队和具体云平台绑在一起。代码也许能迁，训练管线、成本模型、排障经验、监控体系，不会轻飘飘跟着走。

“天下熙熙，皆为利来。”云厂商卖的不是一台机器。它卖的是把复杂性打包后的控制权。

云厂商卖复杂性外包，也卖平台锁定

我更在意的是这个分水岭。

前几年，AI 基础设施叙事很粗暴：谁有更多 GPU，谁就更接近未来。这话还对，但只对一半。

另一半是：谁能把 GPU 利用率、通信效率、存储吞吐、调度队列、故障诊断、成本账本一起管住，谁才有生产能力。

这正是 AWS 这类云厂商最舒服的位置。

它不一定要证明每个单点都最强。原文也没有这么证明。它要证明的是：你不用自己从零搭 AI 工厂。

这对工程团队很诱人。

少招一批底层集群运维专家。少踩一堆分布式训练坑。少在 checkpoint、网络抖动、GPU 空转里熬夜。对业务团队来说，这些都是真钱。

代价也很清楚。

托管层越厚，迁移成本越高。基础设施越顺手，平台锁定越隐形。今天省下的是工程复杂度，明天可能交出去的是议价能力和架构主动权。

这不是说团队应该拒绝云平台。很多团队也没有自建超大规模集群的能力和必要。问题在于，采购和架构决策不能只看“卡的型号”。至少要把三个问题问清：

要问的问题	为什么重要
主要瓶颈在预训练、后训练，还是推理？	不同瓶颈对应不同资源组合，不能只堆 GPU
网络、存储、调度是否能跟上 GPU？	GPU 空转比 GPU 不够更难看，也更贵
迁移成本由谁承担？	云平台越省心，退出时越不省心

接下来最该观察的，也不是哪家先喊出更大的集群名字。

看三件小事就够了：真实工作负载下的集群利用率、跨节点通信效率、故障与 checkpoint 恢复能力。再加一条商业问题：同一套训练或推理管线，换云之后要重做多少。

这篇向导的价值，不在于告诉你 AWS 有哪些实例。它提醒的是：大模型竞争已经进入“铁路时代”。火车头重要，铁轨、调度、信号、维修队一样重要。

历史类比不完全一样，但权力结构很像。谁铺轨，谁定时刻表；谁管站台，谁收过路费。只盯着火车头马力的人，迟早会被堵在站台上。

大模型竞争不只拼 GPU，开始拼 AI 工厂了

AI工厂

门槛后移

卡仍关键

瓶颈扩散

AWS积木

多层协同

非性能证明

扩展压力

训练压力

推理压力

云厂商优势

运维省心

锁定加深

后续变量

利用效率

迁移成本

AWS 这套积木，核心不是 GPU 清单

三条 scaling law，把团队逼进系统工程

云厂商卖复杂性外包，也卖平台锁定