一些公司和开发者,正在让 AI 编程工具少说“人话”。

据 404 Media 报道,一个叫 Caveman 的插件被用于 Claude Code、OpenAI Codex、Gemini 等工具。它的目标很直白:让模型回答更短、更硬,少写客套话和长铺垫。

这事看起来像技术圈玩笑。真正有意思的是另一层:当 AI 工具从固定订阅走向 token 成本核算,模型多说一句,都可能变成公司账单上的一行。

员工问一句,AI 回一屏。过去只是啰嗦。现在是成本。

Caveman 省的是废话,不该省精确内容

Caveman 的创作者 Julius Brussee 对 404 Media 说,他在 4 月做出这个工具,是因为重度使用 Claude Code 时发现,很多 token 花在没必要的 prose 上。

这里的 prose,不是代码,也不是命令。更多是寒暄、转场、道歉、解释前的铺垫,以及聊天机器人习惯性的“我来帮你分析一下”。

Brussee 称,在他的评估中,Caveman 相比默认冗长输出,可减少约 65%–75% 输出 token。404 Media 自测 Claude Code 时,插件显示节省约 5800 个 token,比例约 65%。

这两个数字要谨慎看。它们来自创作者评估和个别测试,不是独立大规模审计。不同任务、不同模型、不同提示词,节省比例都可能变化。

Caveman 的边界也很清楚。它要压缩的是周边自然语言,不应改动代码、命令、URL、路径、数字、函数名和技术细节。

内容类型Caveman 应该怎么处理现实风险
寒暄、铺垫、道歉大幅压缩通常适合省 token
普通解释文字变短、变直接复杂任务可能少了上下文
代码、命令、路径不应改动改错会造成实际损失
数字、URL、函数名保持精确不能为了省钱牺牲可验证性

我更在意的是这个边界。

编程代理的很多输出,确实不需要写成客服话术。比如“已修改”“测试通过”“缺少依赖”,短一点反而清楚。

但在数据库迁移、生产环境命令、安全审查、复杂 bug 排查里,解释太短会带来另一种成本:人看不懂、审不清、回滚慢。

省 token 可以。省掉关键交代,就不是优化,是埋雷。

企业开始管默认设置,而不是只管账号

Caveman 出现的时间点不孤立。

404 Media 提到,GitHub 在 4 月宣布 Copilot 相关收费将更多转向 token 维度,而不是只靠固定订阅。Uber 曾限制员工使用 Claude Code 等 AI 工具,原因是控制成本。The Information 报道称,Uber CTO 提到公司四个月就用完 AI 预算。Walmart 也对员工 AI 工具使用设限。

Legrand 的例子更具体。404 Media 获得的一份 Legrand 内部备忘录显示,公司提醒员工在计费系统变化和新配额实施后注意 AI 用量,避免过快消耗预算。

备忘录给出的建议包括:不要总用最强模型,不要总开高推理档,按任务选择模型,以及使用 “caveman skill” 降低输出消耗,并强调不影响代码。

对象已知动作说明的问题
GitHubCopilot 计费更多转向 token 维度开发者工具成本变得更细
Uber限制员工使用部分 AI 工具AI 编程代理进入预算管控
Walmart对员工 AI 工具使用设限大公司不再默认无限试用
Legrand内部建议使用 caveman skill输出压缩变成管理动作

这里不能写过头。

原文提到,Brussee 称 OpenAI、NVIDIA、GitHub、DEPT 等公司的开发者或工程师有人在使用或测试 Caveman。这不等于这些公司官方部署了 Caveman。

能确认的是,OpenAI 工程总监 Shayne Sweeney 曾为 Caveman 贡献代码,加入 Codex 支持。这说明工具被专业开发者注意到,但不等于 OpenAI 官方背书。

404 Media 还称,Legrand、OpenAI、NVIDIA 和 GitHub 未回应置评请求。所以企业采用规模,目前看不清。

但有一件事已经看得见:AI 成本管理正在从“买几个账号”变成“管每次调用”。

一个简单账本就够说明问题。假设一个团队每天跑 500 次编程代理,每次平均输出 8000 token,一天就是 400 万输出 token。若某类低风险任务通过压缩输出少掉 60%,就是每天少 240 万输出 token。

具体能省多少钱,要看模型价格和合约。可管理动作已经很明确:默认输出长度、默认模型档位、推理强度、员工配额,都要进规则。

这会影响两类人。

企业采购和平台团队,不能只问“哪个模型更强”。还要问:谁能用高推理模式?哪些项目设 token 上限?不同团队怎么分摊账单?工具能不能按项目看消耗?

开发者团队也要调整默认工作流。低风险改动、格式化、简单脚本,可以用短输出。涉及生产、权限、数据和安全的任务,要保留完整解释、命令回显和审计记录。

少说废话,不等于少留证据。

接下来要看 AI 工具会不会原生控费

Caveman 现在像一个补丁。它补的是 AI 编程代理默认太爱说话的问题。

但补丁能解决的有限。真正会改变企业使用习惯的,是工具厂商把成本控制做成原生功能。

接下来最该看几件事:

观察点为什么重要
是否支持按项目设置 token 上限成本才能分摊到真实业务
是否能按任务调输出详细度低风险任务省钱,高风险任务保留解释
高推理模式是否需要审批防止员工无感烧预算
是否提供团队级 token 报表管理者才能知道钱花在哪里
是否区分代码内容和解释文字避免为了省钱压坏关键细节

我不太买账的是一种说法:只要模型越来越便宜,这些问题自然会消失。

模型单价可能下降,但使用量也会涨。尤其是编程代理,它不是问答框,而是会循环读文件、改代码、跑命令、解释结果。一次任务背后,可能是多轮调用。

成本问题不会只靠降价消失。更可能变成一套公司纪律。

采购会延后“全员无限开”的决策,改成分层配额。开发团队会把短输出设成默认,把完整解释留给高风险任务。普通员工会更早遇到提示:本月额度快用完了,请换低成本模型。

Caveman 的“穴居人说话”只是表面。它真正戳中的,是企业终于开始问 AI 一个很朴素的问题:你这段话,有必要花钱说这么长吗?