Hugging Face 和 AWS 这次发的不是新品发布,也不是一篇普通云服务广告。
它更像一张 AI 工厂的拆解图:GPU、网络、存储、调度、训练框架、监控系统,全摆在一张桌上。单看每个词都不新。放在一起,信号很清楚:大模型竞争正在从“谁买到更多卡”,变成“谁能让成千上万张卡稳定、便宜、可诊断地一起干活”。
这件事最该看的,不是 AWS 又列了多少实例。是基础模型的门槛正在后移。卡还是硬通货,但真正吃掉团队时间和预算的,越来越是集群工程。
AWS 这套积木,核心不是 GPU 清单
这篇技术向导讲的是:在 AWS 上训练和推理基础模型,需要哪些基础设施层。
受众很明确:做大模型预训练、后训练、高吞吐推理的 ML 工程团队和研究团队。尤其是那些想基于开源软件栈搭系统,但又不想自己从裸金属一路修到监控告警的团队。
压缩看,AWS 这套“基础模型积木”大致分成几层:
| 层次 | 组件 | 主要作用 |
|---|---|---|
| 算力 | P5 / P5e / P5en / P6 实例,H100 / H200 / B200 / B300 | 承担预训练、后训练、推理计算 |
| 节点内互联 | NVLink / NVSwitch | 提升同一节点或 NVLink 扩展域内的 GPU 通信效率 |
| 跨节点网络 | EFA、UltraClusters | 支撑多节点训练里的 all-reduce、all-gather、all-to-all |
| 存储 | NVMe instance store、FSx for Lustre、S3 | 处理热数据、共享数据集、checkpoint、持久备份 |
| 调度与框架 | Slurm / Kubernetes、PyTorch / JAX | 管资源、跑训练任务、组织实验流 |
| 可观测性 | Prometheus、Grafana 等 | 监控集群、定位故障、追踪利用率和瓶颈 |
这里最容易看错的一点,是把它当成 GPU 参数表。
H100 到 H200,再到 B200、B300,当然有计算能力提升。但在真实大模型负载里,FLOPS 不是唯一主角。HBM 容量、HBM 带宽、NVLink 域、跨节点网络,常常更早变成瓶颈。
模型越大,问题越不像“算不算得动”。更像“数据搬不搬得动、通信堵不堵、checkpoint 写不写得下、坏了能不能定位”。
还要分清几件事。
NVLink / NVSwitch 主要解决节点内或扩展域内 GPU 互联。EFA 解决跨节点网络。UltraClusters 是把大量实例组织进紧密网络拓扑。它们不是同一个东西。混着讲,就会误判瓶颈。
原文也没有给第三方 benchmark。它列的是规格、组件和架构关系。说 AWS 因此“性能领先”,证据不够;说云厂商在把 AI 基础设施做成一套工厂系统,证据是够的。
三条 scaling law,把团队逼进系统工程
过去讲 scaling,很多人默认是在讲预训练:参数更多、数据更多、训练算力更多,loss 按经验规律下降。
现在不够了。
NVIDIA 提过的三条 scaling law,放在这里很有解释力:预训练、后训练、test-time compute。大模型不再只是在训练前期吃算力,训练之后、推理之中,也在继续吃基础设施。
| 扩展方向 | 典型做法 | 对基础设施的压力 |
|---|---|---|
| 预训练 | 更大模型、更大语料、更长训练 | 大规模 GPU、跨节点通信、checkpoint、故障恢复 |
| 后训练 | SFT、RL、偏好优化 | 高频实验、复杂调度、数据版本、可观测性 |
| Test-time compute | 长思考、多采样、搜索验证 | 高吞吐推理、KV cache、延迟、成本控制 |
这会改变团队动作。
做预训练的团队,不能只问“有没有 H100、H200,或者什么时候上 B200、B300”。还要问 EFA 拓扑、FSx for Lustre 吞吐、S3 回写路径、checkpoint 策略、故障恢复时间。训练跑三天才发现网络抖动,账单和实验窗口都烧没了。
做后训练和推理的团队,重点也不一样。它们更该看调度效率、实验并发、监控颗粒度、推理吞吐和延迟成本。很多团队未必需要立刻抢最大集群,反而应该延后一次盲目采购,先把工作负载拆清楚:是预训练瓶颈、后训练瓶颈,还是推理成本瓶颈。
关注云厂商竞争的技术读者,则要换一个观察口径。不要只看谁发布了新实例。还要看谁能把网络、存储、调度、可观测性和开源框架打通得更顺。云厂商之间的差距,不一定写在 GPU 型号上,也可能写在一次故障恢复、一次资源排队、一次跨区数据搬迁里。
开源软件栈确实降低了入口。PyTorch、JAX、Slurm、Kubernetes、Prometheus、Grafana,都是熟面孔。
但开源不等于自由迁移。
到了千卡、万卡级别,硬件拓扑、托管服务、网络特性、存储路径,会把团队和具体云平台绑在一起。代码也许能迁,训练管线、成本模型、排障经验、监控体系,不会轻飘飘跟着走。
“天下熙熙,皆为利来。”云厂商卖的不是一台机器。它卖的是把复杂性打包后的控制权。
云厂商卖复杂性外包,也卖平台锁定
我更在意的是这个分水岭。
前几年,AI 基础设施叙事很粗暴:谁有更多 GPU,谁就更接近未来。这话还对,但只对一半。
另一半是:谁能把 GPU 利用率、通信效率、存储吞吐、调度队列、故障诊断、成本账本一起管住,谁才有生产能力。
这正是 AWS 这类云厂商最舒服的位置。
它不一定要证明每个单点都最强。原文也没有这么证明。它要证明的是:你不用自己从零搭 AI 工厂。
这对工程团队很诱人。
少招一批底层集群运维专家。少踩一堆分布式训练坑。少在 checkpoint、网络抖动、GPU 空转里熬夜。对业务团队来说,这些都是真钱。
代价也很清楚。
托管层越厚,迁移成本越高。基础设施越顺手,平台锁定越隐形。今天省下的是工程复杂度,明天可能交出去的是议价能力和架构主动权。
这不是说团队应该拒绝云平台。很多团队也没有自建超大规模集群的能力和必要。问题在于,采购和架构决策不能只看“卡的型号”。至少要把三个问题问清:
| 要问的问题 | 为什么重要 |
|---|---|
| 主要瓶颈在预训练、后训练,还是推理? | 不同瓶颈对应不同资源组合,不能只堆 GPU |
| 网络、存储、调度是否能跟上 GPU? | GPU 空转比 GPU 不够更难看,也更贵 |
| 迁移成本由谁承担? | 云平台越省心,退出时越不省心 |
接下来最该观察的,也不是哪家先喊出更大的集群名字。
看三件小事就够了:真实工作负载下的集群利用率、跨节点通信效率、故障与 checkpoint 恢复能力。再加一条商业问题:同一套训练或推理管线,换云之后要重做多少。
这篇向导的价值,不在于告诉你 AWS 有哪些实例。它提醒的是:大模型竞争已经进入“铁路时代”。火车头重要,铁轨、调度、信号、维修队一样重要。
历史类比不完全一样,但权力结构很像。谁铺轨,谁定时刻表;谁管站台,谁收过路费。只盯着火车头马力的人,迟早会被堵在站台上。
