M5 Max 本地跑大模型未必省钱：真正贵的是折旧和等待

核心摘要 Summary

一位开发者按电费、硬件折旧和推理速度估算后认为，用 M5 Max MacBook Pro 本地跑 Gemma 4 31B，每百万 token 成本通常高于 OpenRouter。
电费只占很小一部分，4299 美元设备折旧和 10-40 tokens/s 的本地速度才是关键。
这个结论不等于本地 AI 没价值，但会改变开发者买高配 Mac、团队选 API 还是本地部署的预算判断。

一台 14 英寸 M5 Max、64GB 内存的 MacBook Pro，官网标价约 4299 美元。拿它本地跑 Gemma 4 31B，看起来像是“买了机器后免费用”。

但一位开发者把电费、硬件折旧和推理速度一起算进去后，结论不太顺耳：多数假设下，Apple Silicon 本地推理每百万 token 的会计成本，高于 OpenRouter 上的类似模型。

我更在意的不是“本地 AI 输给云端”这个标签，而是这笔账怎么被算错。很多人只盯着电费，忽略了两个更硬的变量：机器折旧，以及人在等模型输出的时间。

本地推理成本怎么算：电费不是主因

这笔账可以拆成一个很朴素的公式：

每百万 token 成本 ≈（电费 + 硬件折旧）÷ 同期产出的 token 数 × 100 万

电价假设不夸张。作者参考美国北弗吉尼亚电费账单，约 0.18 美元/kWh，并向上取到 0.20 美元/kWh。

M5 Max MacBook Pro 满载推理按 50W-100W 估算，每小时电费大约 0.01-0.02 美元。这个数字很低。低到它不是主要矛盾。

真正抬高成本的是设备本身。14 英寸 M5 Max、64GB 内存版本约 4299 美元。按 3 年、5 年、10 年折旧，摊到每小时、每百万 token 上，结果会差很多。

这里有一个现实分叉。

如果这台 MacBook 本来就要买，推理只是闲时跑一跑，边际成本会低很多。电费几乎可以忽略。

但如果是为了本地大模型专门上高配 Mac，折旧就不能装作不存在。企业采购和个人尝鲜，是两本账。前者要进预算，后者容易被“反正机器已经买了”这句话糊过去。

按作者测算，Gemma 4 31B 在 M5 Max 上大致是 10-40 tokens/s。

换算一下：10 tokens/s，每小时约 3.6 万 token；40 tokens/s，每小时约 14.4 万 token。速度差 4 倍，单位成本也会被拉开。

OpenRouter 上类似 Gemma 4 31B 模型价格约 38-50 美分/百万 token。作者估算，本地推理在乐观条件下可以接近 0.40 美元/百万 token；悲观条件下可能到 4 美元以上。他更倾向的判断，是本地大约贵 3 倍。

这不是严格市场结论。电价、设备折扣、折旧周期、量化方式、上下文长度、实际 tokens/s 都会改变结果。

但它至少说明一件事：只说“本地免费”，会严重低估真实成本。买椟还珠，椟就是那台 4299 美元的机器。

更直观的对比如下：

所以，结论要收窄：Apple Silicon 不是永远不划算，但不能只拿电费去和云端 API 比。

云端 API 的优势不只在价格。OpenRouter 聚合多家供应商，部分 Gemma 4 提供方可到 60-70 tokens/s。这个速度快于作者本地 10-20 tokens/s 的日常体验。

对聊天玩具来说，慢一点还能忍。对编码助手、批量改代码、长上下文分析来说，等待本身就是成本。工程师卡在模型输出前，省下的 token 钱很容易被人力时间吃掉。

本地部署开发者可以把动作变得更具体：如果目标是学习、调试、离线使用，继续用本地模型很合理；如果目标是每天高频写代码、跑批量任务，就该把本地方案和 OpenRouter 这类 API 做一次真实 token 账，而不是凭感觉判断。

技术管理者要看的不是“能不能跑”，而是“谁为等待买单”。如果团队为了省 API 费用统一采购高配 Mac，需要把折旧、维护、速度、人力等待一起算进去。短期更稳的做法，可能是延后大规模采购，先用云端 API 跑出真实 token 用量，再决定哪些任务值得搬回本地。

本地 AI 仍有位置。隐私敏感代码、断网环境、模型可控性、实验复现，都不是每百万 token 价格能完全覆盖的价值。

但生产力场景更冷冰冰。只要云端价格继续低、速度继续高，本地 Apple Silicon 的优势就要靠明确场景来证明，而不是靠“买了就免费”这句话。

接下来真正该盯的也很具体：Apple Silicon 的持续推理速度能不能上去；本地量化后的质量损失能不能接受；OpenRouter 这类云端 API 的价格会不会继续下探。

如果云端降价快于本地硬件效率提升，本地推理在生产力账本上就会继续吃亏。这不是立场问题，是算账问题。