Claude 的一次底层调整,把很多开发者最容易忽略的一笔钱翻了出来。独立开发者 Simon Willison 更新了自己的 Claude Token Counter 工具,加入不同模型的 token 对比功能后发现:同一段文本,在 Claude Opus 4.7 下的 token 数比 Opus 4.6 高出 1.46 倍;同一张高分辨率图片,token 数甚至高出 3.01 倍。

这件事的重要性不在工具本身,而在它把一个常被包装在“模型升级”叙事里的现实掀开了:标价不变,不等于成本不变。Anthropic 对 Opus 4.7 仍维持每百万输入 token 5 美元、输出 token 25 美元的定价,但如果输入被切得更碎,企业最后付出去的钱照样会变多。

Opus 4.7 变强了,但也变“更会计费”了

Anthropic 在发布 Opus 4.7 时明确提到,新模型使用了更新后的 tokenizer,并称同样输入可能映射为 1.0 到 1.35 倍 token,取决于内容类型。Willison 用 Anthropic 自家的 Opus 4.7 system prompt 测试后,测出 1.46 倍,已经高于官方给出的上沿。

这说明两件事。第一,tokenizer 不是一个无关紧要的底层细节,它直接决定 API 账单。第二,厂商给出的“区间”更像经验值,不是你的实际成本上限。尤其在长提示词、复杂上下文、系统提示很重的工作流里,误差会被放大。

Anthropic 的公开说法是“文本处理更好”;行业里的现实是“很多团队会先看到预算表变难看”。

真正受影响的,是重度调用和多模态团队

Opus 4.7 在图片支持上有提升。Anthropic 说它可以处理长边 2576 像素、约 375 万像素的高分辨率图像,容量超过之前 Claude 模型的三倍。能力提升是真的,但账单压力也是真的。Willison 用一张 3456×2234、3.7MB 的 PNG 测试,4.7 的 token 计数是 4744,4.6 则是 1578。

这对不同用户的影响并不一样:

  • 普通聊天用户感知有限,网页端套餐通常先把成本包起来
  • 独立开发者最敏感,prompt 一长,毛利会立刻变薄
  • 企业客户会重新核算多模态项目,尤其是文档解析、截图理解、客服质检这类高频场景
  • AI 产品经理会更谨慎地决定是否默认切到 4.7,而不是“新版即上线”

如果你在做合同审阅、报销单识别、设计稿分析这类产品,最现实的变化不是模型更聪明了,而是采购和工程团队会开始追问:到底要不要为了更好的视觉能力,多付 2 到 3 倍的输入成本。

和竞品相比,问题不在贵,而在“贵得不够透明”

横向看,OpenAI、Google 这些主流模型平台也都有 token 计费,而且不同模型之间 tokenizer 并不完全一致。但行业通常会把注意力放在“每百万 token 单价”,较少强调“token 本身是怎么算出来的”。Claude 这次的变化,把这个盲点放大了。

模型公开输入价格tokenizer变化同内容 token 变化现实影响
Claude Opus 4.6$5/百万旧版基线成本相对可预测
Claude Opus 4.7$5/百万已更新文本约 1.46x,图片约 3.01x(Willison 测试)标价不变,实付更高
Claude Sonnet 4.6未在此次测试中变化与旧体系一致对比意义有限更适合做成本基准
Claude Haiku 4.5未在此次测试中变化与旧体系一致对比意义有限仍是低成本选项

这也是为什么 Willison 说,目前真正值得比较的主要是 4.7 和 4.6。因为据他观察,Opus 4.7 是首个改变 tokenizer 的 Claude 模型。对开发者来说,这不是性能评测问题,而是财务建模问题:同样的 DAU、同样的调用次数、同样的 prompt 模板,利润表会因为分词规则变化而走样。

现在还不能下的结论:贵了,是否值回票价

账单变高已经有迹可循,但“贵得值不值”现在还不能一刀切。新的 tokenizer 可能带来更好的文本切分效果、对复杂语言更稳定的处理,或者改善高分辨率视觉输入的理解质量。如果输出质量因此提升,部分企业会接受更高的输入成本,尤其是在高客单价、低调用量的场景里。

但这里有一个原文没展开的限制:token 数上涨,不只影响价格,还会挤占上下文窗口。也就是说,在固定 context window 下,你能塞进去的原始文本、图片说明、检索结果,可能变少。对做 RAG、Agent、长上下文摘要的团队来说,这比单纯涨价更麻烦,因为它会改动 prompt 设计、分块策略和缓存方案。

眼下最实际的建议很朴素:不要只看模型排行榜,也不要只看 API 单价。升级到 Opus 4.7 前,先拿自己的真实流量样本跑一遍 token 对比,文本、截图、PDF 页面都要测。模型厂商升级底层规则,本来是正常技术迭代;问题在于,如果成本增幅主要靠开发者事后从账单里发现,平台的透明度就不够了。