AI 账单压到预算线：大模型高价还能撑多久

核心摘要 Summary

Uber 被提到在 4 个月内用完全年 AI 预算，Microsoft、Salesforce、GitHub 也开始控制员工 AI 支出。
企业不会停用 AI，但会从“默认用最强模型”转向“按任务算账”。
前沿大模型的高价来自研发、训练和商业成本摊销；开源权重模型、AI gateway、专用芯片和本地推理，会持续削弱这部分定价能力。

Uber 被提到在 4 个月内用完全年 AI 预算。Microsoft、Salesforce、GitHub 也开始约束员工调用 AI 工具的支出。

这件事有意思的地方不在于“企业突然不爱 AI 了”。恰好相反，代码修复、数据分析、文档生成、应用原型这些场景已经跑起来了。问题是，AI 从创新预算进入日常开销后，账单开始压到采购和财务线。

我更在意的是一个变化：前沿模型的高价护城河正在变薄。企业接下来不会简单禁用 AI，而是把任务拆开，贵模型只处理真正难的部分。

高价从哪里来：不只是 GPU 在收费

在 OpenRouter 的价格示例里，GPT 5.5 每百万输入 token 为 5 美元，每百万输出 token 为 30 美元。文中还提到一个开发者案例：用它修复 50 个 TypeScript 文件的类型问题，一个下午花了 54 美元。

54 美元对个人开发者已经肉痛。放到上千名工程师、产品经理、数据分析师都在调用模型的公司里，就不再是工具费，而是预算黑洞。

前沿模型贵，不只是因为推理贵。token 价格里还摊进了模型架构研究、训练数据收集和清洗、训练集群、员工薪酬、营销和渠道成本。一个前沿模型的训练成本可能达到数千万甚至上亿美元，实验室需要把这些投入收回来。

这也是为什么企业采购会开始犹豫：如果每一次补全、校对、简单代码修复，都在为前沿实验室的全部研发成本买单，这个账迟早要重算。

对象	已知信息	对企业意味着什么
GPT 5.5	OpenRouter 示例价：输入 5 美元/百万 token，输出 30 美元/百万 token	复杂任务能力强，但大规模日常调用很快变贵
TypeScript 修复案例	50 个文件类型问题，一个下午花费 54 美元	个人能承受的工具费，企业规模化后会变成预算项
GLM-5.2	开源权重模型；编码基准追平或超过部分闭源前沿模型	成本约为 GPT 5.5 的十分之一，给采购和架构选型增加筹码
OpenRouter 等 AI gateway	可在不同模型和供应商之间快速切换	企业可以按价格、性能、任务难度动态路由

开源权重也不是免费午餐。推理部署、硬件、运维、安全审计、服务商加价都要钱。它改变的是成本结构：企业不一定要为单一前沿实验室的全部研发和品牌溢价付费。

价格为什么松动：性能差距、供给和切换成本都在变

大模型性能还在进步，但边际改进变小。只要不是每一代都拉开巨大差距，继续大幅提价就更难让企业买账。

供给也在变。GLM-5.2 这类开源权重模型在编码基准上追近甚至超过部分闭源前沿模型，至少说明一件事：企业不用把所有任务都交给最贵模型。很多请求只需要“够好、稳定、便宜”。

芯片侧也在给价格施压。Cerebras、Groq、Google 等公司都在押注 AI 专用芯片。TPU 相比 NVIDIA H100 在部分场景下可便宜 30% 到 70%。这个数字不能外推到所有工作负载，但方向很清楚：每 token 成本会被更多硬件路线挤压。

软件行业以前常靠迁移成本守价格。Windows、Office、Adobe、Salesforce 都不是一个下午能换掉的东西。文件格式、流程、培训、历史数据，都会把客户锁住。

大模型不太一样。通过 OpenRouter 这类 AI gateway，企业可以把模型切换做成系统能力：普通请求走便宜模型，复杂推理走强模型，高风险业务再加审计和人工复核。

切换成本越低，品牌溢价越难维持。模型厂商当然还能靠能力领先收费，但不能只靠“我是最强模型之一”长期收费。

企业该怎么做：少喊降本，多重做调用规则

最先受影响的是两类人。

企业技术决策者要重做 AI 账本。不是简单砍预算，而是把模型调用纳入工程治理：设额度、分任务、看日志、做审计。采购也会更倾向于延后锁死单一供应商，保留多模型路由和议价空间。

开发者和产品团队要调整工具习惯。复杂重构、长上下文推理、关键业务代码，可以继续用前沿模型。补全、校对、简单代码修改、摘要、事实核查这类轻任务，则应该优先试便宜模型或本地模型。

一个更现实的分层方式大概是这样：

任务类型	更合适的模型路线	主要限制
复杂推理、关键代码重构、长上下文分析	云端前沿模型	成本高，需要额度和审计
普通代码补全、文案校对、摘要整理	低价云端模型或开源权重模型	稳定性和一致性要评估
简单事实核查、格式转换、轻量助手功能	本地模型或企业内部署模型	受端侧芯片、内存、更新机制影响
高风险业务流程	强模型加规则系统和人工复核	不能只看模型分数

有一个判断要放得谨慎：文中预测 4 到 5 年内，芯片和内存成本下降后，操作系统可能内置本地模型接口，应用直接调用本机模型。这个还不是已发生的事实。

变量很多。端侧芯片性能、内存价格、企业安全要求、模型更新机制，都会影响本地模型能走多快。但方向并不难看：本地模型会吃掉一部分轻量任务，云端前沿模型留下更复杂、更高价值的任务。

接下来只看三件事。

第一，开源权重模型在真实企业任务里是否稳定，而不只是基准分好看。第二，AI gateway 是否进入更多公司的正式技术栈，而不是停留在开发者个人工具。第三，前沿模型还能不能拿出足够大的能力跃迁，让企业愿意继续付高价。

如果没有新的能力跃迁，高价就会从“能力溢价”慢慢变成“品牌溢价”。到那一步，采购部门和工程团队都会开始问同一个问题：这次调用，真的需要最贵的模型吗？

AI 账单压到预算线：大模型高价还能撑多久

AI账单

预算承压

企业控费

用法转向

高价来源

成本摊销

规模放大

价格松动

供给增加

切换变易

企业重构

强模型

轻任务

后续变量

真实稳定性

本地推理

高价从哪里来：不只是 GPU 在收费

价格为什么松动：性能差距、供给和切换成本都在变

企业该怎么做：少喊降本，多重做调用规则