让 Claude 少说废话：企业开始按 token 抠 AI 成本

核心摘要 Summary

Caveman 让 Claude Code、Codex、Gemini 等编程代理少写寒暄和铺垫，创作者评估可减少约 65%–75% 输出 token，404 Media 测试约省 5800 个 token、65%。
这件事的重点不是“让 AI 像穴居人说话”，而是企业 AI 使用正在从包月体验进入 token 核算。
采购和开发团队接下来要管的，不只是买哪个模型，还包括默认模型、推理档位、输出长度和员工配额。

一些公司和开发者，正在让 AI 编程工具少说“人话”。

据 404 Media 报道，一个叫 Caveman 的插件被用于 Claude Code、OpenAI Codex、Gemini 等工具。它的目标很直白：让模型回答更短、更硬，少写客套话和长铺垫。

这事看起来像技术圈玩笑。真正有意思的是另一层：当 AI 工具从固定订阅走向 token 成本核算，模型多说一句，都可能变成公司账单上的一行。

员工问一句，AI 回一屏。过去只是啰嗦。现在是成本。

Caveman 省的是废话，不该省精确内容

Caveman 的创作者 Julius Brussee 对 404 Media 说，他在 4 月做出这个工具，是因为重度使用 Claude Code 时发现，很多 token 花在没必要的 prose 上。

这里的 prose，不是代码，也不是命令。更多是寒暄、转场、道歉、解释前的铺垫，以及聊天机器人习惯性的“我来帮你分析一下”。

Brussee 称，在他的评估中，Caveman 相比默认冗长输出，可减少约 65%–75% 输出 token。404 Media 自测 Claude Code 时，插件显示节省约 5800 个 token，比例约 65%。

这两个数字要谨慎看。它们来自创作者评估和个别测试，不是独立大规模审计。不同任务、不同模型、不同提示词，节省比例都可能变化。

Caveman 的边界也很清楚。它要压缩的是周边自然语言，不应改动代码、命令、URL、路径、数字、函数名和技术细节。

内容类型	Caveman 应该怎么处理	现实风险
寒暄、铺垫、道歉	大幅压缩	通常适合省 token
普通解释文字	变短、变直接	复杂任务可能少了上下文
代码、命令、路径	不应改动	改错会造成实际损失
数字、URL、函数名	保持精确	不能为了省钱牺牲可验证性

我更在意的是这个边界。

编程代理的很多输出，确实不需要写成客服话术。比如“已修改”“测试通过”“缺少依赖”，短一点反而清楚。

但在数据库迁移、生产环境命令、安全审查、复杂 bug 排查里，解释太短会带来另一种成本：人看不懂、审不清、回滚慢。

省 token 可以。省掉关键交代，就不是优化，是埋雷。

企业开始管默认设置，而不是只管账号

Caveman 出现的时间点不孤立。

404 Media 提到，GitHub 在 4 月宣布 Copilot 相关收费将更多转向 token 维度，而不是只靠固定订阅。Uber 曾限制员工使用 Claude Code 等 AI 工具，原因是控制成本。The Information 报道称，Uber CTO 提到公司四个月就用完 AI 预算。Walmart 也对员工 AI 工具使用设限。

Legrand 的例子更具体。404 Media 获得的一份 Legrand 内部备忘录显示，公司提醒员工在计费系统变化和新配额实施后注意 AI 用量，避免过快消耗预算。

备忘录给出的建议包括：不要总用最强模型，不要总开高推理档，按任务选择模型，以及使用 “caveman skill” 降低输出消耗，并强调不影响代码。

对象	已知动作	说明的问题
GitHub	Copilot 计费更多转向 token 维度	开发者工具成本变得更细
Uber	限制员工使用部分 AI 工具	AI 编程代理进入预算管控
Walmart	对员工 AI 工具使用设限	大公司不再默认无限试用
Legrand	内部建议使用 caveman skill	输出压缩变成管理动作

这里不能写过头。

原文提到，Brussee 称 OpenAI、NVIDIA、GitHub、DEPT 等公司的开发者或工程师有人在使用或测试 Caveman。这不等于这些公司官方部署了 Caveman。

能确认的是，OpenAI 工程总监 Shayne Sweeney 曾为 Caveman 贡献代码，加入 Codex 支持。这说明工具被专业开发者注意到，但不等于 OpenAI 官方背书。

404 Media 还称，Legrand、OpenAI、NVIDIA 和 GitHub 未回应置评请求。所以企业采用规模，目前看不清。

但有一件事已经看得见：AI 成本管理正在从“买几个账号”变成“管每次调用”。

一个简单账本就够说明问题。假设一个团队每天跑 500 次编程代理，每次平均输出 8000 token，一天就是 400 万输出 token。若某类低风险任务通过压缩输出少掉 60%，就是每天少 240 万输出 token。

具体能省多少钱，要看模型价格和合约。可管理动作已经很明确：默认输出长度、默认模型档位、推理强度、员工配额，都要进规则。

这会影响两类人。

企业采购和平台团队，不能只问“哪个模型更强”。还要问：谁能用高推理模式？哪些项目设 token 上限？不同团队怎么分摊账单？工具能不能按项目看消耗？

开发者团队也要调整默认工作流。低风险改动、格式化、简单脚本，可以用短输出。涉及生产、权限、数据和安全的任务，要保留完整解释、命令回显和审计记录。

少说废话，不等于少留证据。

接下来要看 AI 工具会不会原生控费

Caveman 现在像一个补丁。它补的是 AI 编程代理默认太爱说话的问题。

但补丁能解决的有限。真正会改变企业使用习惯的，是工具厂商把成本控制做成原生功能。

接下来最该看几件事：

观察点	为什么重要
是否支持按项目设置 token 上限	成本才能分摊到真实业务
是否能按任务调输出详细度	低风险任务省钱，高风险任务保留解释
高推理模式是否需要审批	防止员工无感烧预算
是否提供团队级 token 报表	管理者才能知道钱花在哪里
是否区分代码内容和解释文字	避免为了省钱压坏关键细节

我不太买账的是一种说法：只要模型越来越便宜，这些问题自然会消失。

模型单价可能下降，但使用量也会涨。尤其是编程代理，它不是问答框，而是会循环读文件、改代码、跑命令、解释结果。一次任务背后，可能是多轮调用。

成本问题不会只靠降价消失。更可能变成一套公司纪律。

采购会延后“全员无限开”的决策，改成分层配额。开发团队会把短输出设成默认，把完整解释留给高风险任务。普通员工会更早遇到提示：本月额度快用完了，请换低成本模型。

Caveman 的“穴居人说话”只是表面。它真正戳中的，是企业终于开始问 AI 一个很朴素的问题：你这段话，有必要花钱说这么长吗？

让 Claude 少说废话：企业开始按 token 抠 AI 成本

Token控费

Caveman

节省幅度

压缩边界

企业转向

配额设限

默认规则

风险边界

低风险

高风险

原生控费

管理能力

审批分层

Caveman 省的是废话，不该省精确内容

企业开始管默认设置，而不是只管账号

接下来要看 AI 工具会不会原生控费