Hugging Face 和 AWS 这次发的不是新品发布,也不是一篇普通云服务广告。

它更像一张 AI 工厂的拆解图:GPU、网络、存储、调度、训练框架、监控系统,全摆在一张桌上。单看每个词都不新。放在一起,信号很清楚:大模型竞争正在从“谁买到更多卡”,变成“谁能让成千上万张卡稳定、便宜、可诊断地一起干活”。

这件事最该看的,不是 AWS 又列了多少实例。是基础模型的门槛正在后移。卡还是硬通货,但真正吃掉团队时间和预算的,越来越是集群工程。

AWS 这套积木,核心不是 GPU 清单

这篇技术向导讲的是:在 AWS 上训练和推理基础模型,需要哪些基础设施层。

受众很明确:做大模型预训练、后训练、高吞吐推理的 ML 工程团队和研究团队。尤其是那些想基于开源软件栈搭系统,但又不想自己从裸金属一路修到监控告警的团队。

压缩看,AWS 这套“基础模型积木”大致分成几层:

层次组件主要作用
算力P5 / P5e / P5en / P6 实例,H100 / H200 / B200 / B300承担预训练、后训练、推理计算
节点内互联NVLink / NVSwitch提升同一节点或 NVLink 扩展域内的 GPU 通信效率
跨节点网络EFA、UltraClusters支撑多节点训练里的 all-reduce、all-gather、all-to-all
存储NVMe instance store、FSx for Lustre、S3处理热数据、共享数据集、checkpoint、持久备份
调度与框架Slurm / Kubernetes、PyTorch / JAX管资源、跑训练任务、组织实验流
可观测性Prometheus、Grafana 等监控集群、定位故障、追踪利用率和瓶颈

这里最容易看错的一点,是把它当成 GPU 参数表。

H100 到 H200,再到 B200、B300,当然有计算能力提升。但在真实大模型负载里,FLOPS 不是唯一主角。HBM 容量、HBM 带宽、NVLink 域、跨节点网络,常常更早变成瓶颈。

模型越大,问题越不像“算不算得动”。更像“数据搬不搬得动、通信堵不堵、checkpoint 写不写得下、坏了能不能定位”。

还要分清几件事。

NVLink / NVSwitch 主要解决节点内或扩展域内 GPU 互联。EFA 解决跨节点网络。UltraClusters 是把大量实例组织进紧密网络拓扑。它们不是同一个东西。混着讲,就会误判瓶颈。

原文也没有给第三方 benchmark。它列的是规格、组件和架构关系。说 AWS 因此“性能领先”,证据不够;说云厂商在把 AI 基础设施做成一套工厂系统,证据是够的。

三条 scaling law,把团队逼进系统工程

过去讲 scaling,很多人默认是在讲预训练:参数更多、数据更多、训练算力更多,loss 按经验规律下降。

现在不够了。

NVIDIA 提过的三条 scaling law,放在这里很有解释力:预训练、后训练、test-time compute。大模型不再只是在训练前期吃算力,训练之后、推理之中,也在继续吃基础设施。

扩展方向典型做法对基础设施的压力
预训练更大模型、更大语料、更长训练大规模 GPU、跨节点通信、checkpoint、故障恢复
后训练SFT、RL、偏好优化高频实验、复杂调度、数据版本、可观测性
Test-time compute长思考、多采样、搜索验证高吞吐推理、KV cache、延迟、成本控制

这会改变团队动作。

做预训练的团队,不能只问“有没有 H100、H200,或者什么时候上 B200、B300”。还要问 EFA 拓扑、FSx for Lustre 吞吐、S3 回写路径、checkpoint 策略、故障恢复时间。训练跑三天才发现网络抖动,账单和实验窗口都烧没了。

做后训练和推理的团队,重点也不一样。它们更该看调度效率、实验并发、监控颗粒度、推理吞吐和延迟成本。很多团队未必需要立刻抢最大集群,反而应该延后一次盲目采购,先把工作负载拆清楚:是预训练瓶颈、后训练瓶颈,还是推理成本瓶颈。

关注云厂商竞争的技术读者,则要换一个观察口径。不要只看谁发布了新实例。还要看谁能把网络、存储、调度、可观测性和开源框架打通得更顺。云厂商之间的差距,不一定写在 GPU 型号上,也可能写在一次故障恢复、一次资源排队、一次跨区数据搬迁里。

开源软件栈确实降低了入口。PyTorch、JAX、Slurm、Kubernetes、Prometheus、Grafana,都是熟面孔。

但开源不等于自由迁移。

到了千卡、万卡级别,硬件拓扑、托管服务、网络特性、存储路径,会把团队和具体云平台绑在一起。代码也许能迁,训练管线、成本模型、排障经验、监控体系,不会轻飘飘跟着走。

“天下熙熙,皆为利来。”云厂商卖的不是一台机器。它卖的是把复杂性打包后的控制权。

云厂商卖复杂性外包,也卖平台锁定

我更在意的是这个分水岭。

前几年,AI 基础设施叙事很粗暴:谁有更多 GPU,谁就更接近未来。这话还对,但只对一半。

另一半是:谁能把 GPU 利用率、通信效率、存储吞吐、调度队列、故障诊断、成本账本一起管住,谁才有生产能力。

这正是 AWS 这类云厂商最舒服的位置。

它不一定要证明每个单点都最强。原文也没有这么证明。它要证明的是:你不用自己从零搭 AI 工厂。

这对工程团队很诱人。

少招一批底层集群运维专家。少踩一堆分布式训练坑。少在 checkpoint、网络抖动、GPU 空转里熬夜。对业务团队来说,这些都是真钱。

代价也很清楚。

托管层越厚,迁移成本越高。基础设施越顺手,平台锁定越隐形。今天省下的是工程复杂度,明天可能交出去的是议价能力和架构主动权。

这不是说团队应该拒绝云平台。很多团队也没有自建超大规模集群的能力和必要。问题在于,采购和架构决策不能只看“卡的型号”。至少要把三个问题问清:

要问的问题为什么重要
主要瓶颈在预训练、后训练,还是推理?不同瓶颈对应不同资源组合,不能只堆 GPU
网络、存储、调度是否能跟上 GPU?GPU 空转比 GPU 不够更难看,也更贵
迁移成本由谁承担?云平台越省心,退出时越不省心

接下来最该观察的,也不是哪家先喊出更大的集群名字。

看三件小事就够了:真实工作负载下的集群利用率、跨节点通信效率、故障与 checkpoint 恢复能力。再加一条商业问题:同一套训练或推理管线,换云之后要重做多少。

这篇向导的价值,不在于告诉你 AWS 有哪些实例。它提醒的是:大模型竞争已经进入“铁路时代”。火车头重要,铁轨、调度、信号、维修队一样重要。

历史类比不完全一样,但权力结构很像。谁铺轨,谁定时刻表;谁管站台,谁收过路费。只盯着火车头马力的人,迟早会被堵在站台上。