一台 14 英寸 M5 Max、64GB 内存的 MacBook Pro,官网标价约 4299 美元。拿它本地跑 Gemma 4 31B,看起来像是“买了机器后免费用”。
但一位开发者把电费、硬件折旧和推理速度一起算进去后,结论不太顺耳:多数假设下,Apple Silicon 本地推理每百万 token 的会计成本,高于 OpenRouter 上的类似模型。
我更在意的不是“本地 AI 输给云端”这个标签,而是这笔账怎么被算错。很多人只盯着电费,忽略了两个更硬的变量:机器折旧,以及人在等模型输出的时间。
本地推理成本怎么算:电费不是主因
这笔账可以拆成一个很朴素的公式:
每百万 token 成本 ≈(电费 + 硬件折旧)÷ 同期产出的 token 数 × 100 万
电价假设不夸张。作者参考美国北弗吉尼亚电费账单,约 0.18 美元/kWh,并向上取到 0.20 美元/kWh。
M5 Max MacBook Pro 满载推理按 50W-100W 估算,每小时电费大约 0.01-0.02 美元。这个数字很低。低到它不是主要矛盾。
真正抬高成本的是设备本身。14 英寸 M5 Max、64GB 内存版本约 4299 美元。按 3 年、5 年、10 年折旧,摊到每小时、每百万 token 上,结果会差很多。
| 变量 | 作者使用的假设 | 对结果的影响 |
|---|---|---|
| 电价 | 约 0.18-0.20 美元/kWh | 满载每小时约 0.01-0.02 美元 |
| 设备价格 | 14 英寸 M5 Max、64GB,约 4299 美元 | 折旧远高于电费 |
| 折旧周期 | 3 年 / 5 年 / 10 年 | 周期越短,本地越贵 |
| 本地速度 | Gemma 4 31B 约 10-40 tokens/s | 速度越慢,单位 token 越贵 |
这里有一个现实分叉。
如果这台 MacBook 本来就要买,推理只是闲时跑一跑,边际成本会低很多。电费几乎可以忽略。
但如果是为了本地大模型专门上高配 Mac,折旧就不能装作不存在。企业采购和个人尝鲜,是两本账。前者要进预算,后者容易被“反正机器已经买了”这句话糊过去。
每百万 token 对比:本地通常贵,极乐观时才接近
按作者测算,Gemma 4 31B 在 M5 Max 上大致是 10-40 tokens/s。
换算一下:10 tokens/s,每小时约 3.6 万 token;40 tokens/s,每小时约 14.4 万 token。速度差 4 倍,单位成本也会被拉开。
OpenRouter 上类似 Gemma 4 31B 模型价格约 38-50 美分/百万 token。作者估算,本地推理在乐观条件下可以接近 0.40 美元/百万 token;悲观条件下可能到 4 美元以上。他更倾向的判断,是本地大约贵 3 倍。
这不是严格市场结论。电价、设备折扣、折旧周期、量化方式、上下文长度、实际 tokens/s 都会改变结果。
但它至少说明一件事:只说“本地免费”,会严重低估真实成本。买椟还珠,椟就是那台 4299 美元的机器。
更直观的对比如下:
| 场景 | 成本状态 | 更适合谁 |
|---|---|---|
| 已经拥有高配 Mac,偶尔本地跑 | 边际成本低,折旧争议小 | 个人开发者、离线实验 |
| 为本地模型专门采购高配 Mac | 折旧必须计入,成本压力上来 | 团队采购、预算负责人 |
| 高频交互、编码助手、批量推理 | 速度影响人力效率 | 工程团队、生产力工具使用者 |
| 隐私敏感、无网络、可控实验 | 价格不是唯一指标 | 本地部署开发者、安全敏感团队 |
所以,结论要收窄:Apple Silicon 不是永远不划算,但不能只拿电费去和云端 API 比。
速度决定使用场景:开发者和管理者该怎么做
云端 API 的优势不只在价格。OpenRouter 聚合多家供应商,部分 Gemma 4 提供方可到 60-70 tokens/s。这个速度快于作者本地 10-20 tokens/s 的日常体验。
对聊天玩具来说,慢一点还能忍。对编码助手、批量改代码、长上下文分析来说,等待本身就是成本。工程师卡在模型输出前,省下的 token 钱很容易被人力时间吃掉。
本地部署开发者可以把动作变得更具体:如果目标是学习、调试、离线使用,继续用本地模型很合理;如果目标是每天高频写代码、跑批量任务,就该把本地方案和 OpenRouter 这类 API 做一次真实 token 账,而不是凭感觉判断。
技术管理者要看的不是“能不能跑”,而是“谁为等待买单”。如果团队为了省 API 费用统一采购高配 Mac,需要把折旧、维护、速度、人力等待一起算进去。短期更稳的做法,可能是延后大规模采购,先用云端 API 跑出真实 token 用量,再决定哪些任务值得搬回本地。
本地 AI 仍有位置。隐私敏感代码、断网环境、模型可控性、实验复现,都不是每百万 token 价格能完全覆盖的价值。
但生产力场景更冷冰冰。只要云端价格继续低、速度继续高,本地 Apple Silicon 的优势就要靠明确场景来证明,而不是靠“买了就免费”这句话。
接下来真正该盯的也很具体:Apple Silicon 的持续推理速度能不能上去;本地量化后的质量损失能不能接受;OpenRouter 这类云端 API 的价格会不会继续下探。
如果云端降价快于本地硬件效率提升,本地推理在生产力账本上就会继续吃亏。这不是立场问题,是算账问题。
