AI 算力这件事,过去两年最容易被简化成一句话:谁有 GPU,谁就有话语权。

现在这个说法不够用了。

OpenAI 研究员 Noam Brown 说过一句很直接的话:inference compute is a strategic resource, currently undervalued。Sam Altman 也提到,OpenAI 在很大程度上必须成为一家 AI inference company。

这两句话放在一起看,意思很清楚:模型训练出来只是开始。真正烧钱、烧机器、烧系统能力的地方,正在往部署侧移动。

训练仍然重要。它决定模型上限。但推理开始决定另一件事:模型能不能被足够多人、足够便宜、足够稳定地用起来。

这也是这轮变化最反常的地方。AI 基础设施的账本,不能只盯 GPU 训练集群了。推理 GPU、CPU、内存、沙盒执行环境、调度系统,都开始进入同一张预算表。

推理成了战略资源,不只是上线后的成本

NVIDIA CEO 黄仁勋在 GTC 演讲里也把 inference inflection 放到了台前。他提到过去两年计算需求出现“100 万倍”级增长。

这个数字更适合作为行业体感和演讲表达,不宜当成严格审计口径。但方向并不难理解。

一次普通问答,可能只是生成几百个 token。可一旦进入长上下文、推理链、多轮工具调用、代码生成,后台计算就会被拉长。用户看到的是一次请求,系统看到的是一串任务。

过去的算力讨论,多数围绕训练:多大模型、多大集群、多长训练周期。推理时代的问题更碎,也更贴近业务。

过去更关注推理时代新增压力主要影响谁现实含义
训练 GPU 集群高并发、低延迟推理 GPU云厂商、模型 API 公司成本从一次性训练变成持续服务
参数规模和训练数据Prefill/Decode、KV cache、kernel 优化推理平台、框架团队系统工程直接影响毛利
单次模型能力Agent 循环、工具调用、沙盒执行Agent 产品团队产品越自动化,后台计算越重
GPU 采购能力CPU、内存、通用服务器更新企业 IT、数据中心被压低的 CPU 开支可能要补账

这张表背后的判断是:推理不是训练的尾声,而是 AI 商业化的主战场之一。

对模型 API 公司来说,问题会变成“每个用户请求的真实成本是多少”。对 Agent 团队来说,问题更具体:一个任务跑三分钟,背后到底占了多少 GPU、CPU、容器和存储 I/O。

这不是会计细节。它会决定产品能不能定价,企业客户能不能规模化采购,云厂商能不能把毛利守住。

CPU 回到前台,但不能直接喊“短缺”

Intel CEO Lip-Bu Tan 在一季度电话会上提到 CPU 需求上升。这个说法要谨慎看。

Intel 本身有商业动机强调 CPU 的价值。把它直接写成“全行业 CPU 短缺已经确认”,证据不够。

但它指向的压力并非空穴来风。

一个背景是服务器更新周期。COVID 期间,很多企业和云厂商在 2020 到 2021 年采购了大量 CPU 服务器。现在这些机器正进入 5 到 6 年的自然更新窗口。

另一个背景是预算挤压。过去两年,AI 增量资本开支大量流向 GPU。CPU 侧更多是维护、延后和够用就行。

现在,更新周期、AI 部署、Agent 工作负载叠在一起,CPU 重新被看见,并不意外。

关键在于:不是所有 AI 算力都等于 GPU。

代码 Agent 要拉仓库、跑测试、启动容器、执行脚本。生产 Agent 要调用业务系统、维护状态、写入数据库。RL gym 和软件仿真要反复跑环境。这里面大量消耗的是 CPU、内存、存储和隔离执行环境。

对两类人影响最大。

一类是企业 IT 和云成本负责人。过去可以先把预算押给 GPU,现在要重新盘点通用服务器、容器池、沙盒隔离和内存配置。采购动作可能不是马上追高买 CPU,而是先延后非关键 GPU 扩容,补齐执行环境的短板。

另一类是 Agent 产品团队。以前优化重点可能是模型调用次数。接下来还要算执行成本:一次代码修复、一次数据分析、一次自动化运维,到底吃掉多少 CPU 时间和沙盒资源。

限制也要说清楚。CPU 需求上升,不等于所有企业都要立刻扩容。很多负载仍可通过调度、容器复用、任务队列和限流先缓一缓。真正紧张的,往往是高并发、强隔离、任务执行时间长的 Agent 场景。

GPU 推理也在变,便宜不能只等新芯片

推理侧的 GPU 工作负载也在重构。

一个典型方向是 Prefill/Decode 分离。Prefill 处理长输入和上下文填充,Decode 负责逐 token 生成。两类任务对显存、带宽和延迟的要求不同。

把它们拆开调度,目的不是让架构图更好看,而是提高真实负载下的硬件利用率。

同一条线上,还有长上下文优化、speculative decoding、KV cache 管理、kernel 优化,以及 vLLM 这类推理框架的持续迭代。原文提到,vLLM 在 NVIDIA Blackwell 相关环境中,通过 NVFP4 量化、EAGLE3 与 MTP speculative decoding、模型级 kernel fusion 等方式提高输出速度。阿里巴巴 Qwen 团队也发布 FlashQLA,面向长上下文线性注意力做 kernel 加速。

这些技术细节不需要每个决策者都逐项掌握。但它们说明一件事:推理成本下降,不会只来自下一代 GPU。

软件栈、调度、量化、缓存、kernel,都会决定同一张卡能服务多少请求。

这对采购和架构选择有直接影响。

如果业务主要是短问答、高并发,重点可能是吞吐和延迟。如果业务偏长文档、代码库、企业知识库,长上下文和 KV cache 管理会更关键。如果业务是 Agent,GPU 推理之外,还要给 CPU 沙盒、任务队列和状态存储留预算。

接下来最该看三件事。

观察点为什么重要判断条件
云厂商是否单独强化 CPU、沙盒、容器执行计价Agent 成本会从模型调用扩散到执行环境如果执行资源开始单独涨价或限额,说明压力已传导到客户侧
Agent 产品毛利是否被工具调用和代码执行吞掉自动化越深,后台任务越长如果收入增长伴随执行成本更快增长,产品化会受压
推理框架能否压低长上下文和多轮调用成本这是推理规模化的核心变量如果优化只在 benchmark 里好看,企业账本不会改善

我更在意的是第三点和第一点的交叉。

如果推理框架能把 GPU 侧成本压下来,但 Agent 执行把 CPU 和沙盒资源吃满,企业最后看到的账单仍然不会轻。反过来,如果云厂商开始把执行环境产品化、计价清楚,Agent 团队才有可能认真优化这部分成本。

这轮变化的主线很简单:AI 基础设施的稀缺资源定义变宽了。

GPU 仍是核心,但它不再是唯一答案。推理时代拼的是整条计算链路。谁只看训练卡数,谁就容易低估真正的成本。