一些公司和开发者,正在让 AI 编程工具少说“人话”。
据 404 Media 报道,一个叫 Caveman 的插件被用于 Claude Code、OpenAI Codex、Gemini 等工具。它的目标很直白:让模型回答更短、更硬,少写客套话和长铺垫。
这事看起来像技术圈玩笑。真正有意思的是另一层:当 AI 工具从固定订阅走向 token 成本核算,模型多说一句,都可能变成公司账单上的一行。
员工问一句,AI 回一屏。过去只是啰嗦。现在是成本。
Caveman 省的是废话,不该省精确内容
Caveman 的创作者 Julius Brussee 对 404 Media 说,他在 4 月做出这个工具,是因为重度使用 Claude Code 时发现,很多 token 花在没必要的 prose 上。
这里的 prose,不是代码,也不是命令。更多是寒暄、转场、道歉、解释前的铺垫,以及聊天机器人习惯性的“我来帮你分析一下”。
Brussee 称,在他的评估中,Caveman 相比默认冗长输出,可减少约 65%–75% 输出 token。404 Media 自测 Claude Code 时,插件显示节省约 5800 个 token,比例约 65%。
这两个数字要谨慎看。它们来自创作者评估和个别测试,不是独立大规模审计。不同任务、不同模型、不同提示词,节省比例都可能变化。
Caveman 的边界也很清楚。它要压缩的是周边自然语言,不应改动代码、命令、URL、路径、数字、函数名和技术细节。
| 内容类型 | Caveman 应该怎么处理 | 现实风险 |
|---|---|---|
| 寒暄、铺垫、道歉 | 大幅压缩 | 通常适合省 token |
| 普通解释文字 | 变短、变直接 | 复杂任务可能少了上下文 |
| 代码、命令、路径 | 不应改动 | 改错会造成实际损失 |
| 数字、URL、函数名 | 保持精确 | 不能为了省钱牺牲可验证性 |
我更在意的是这个边界。
编程代理的很多输出,确实不需要写成客服话术。比如“已修改”“测试通过”“缺少依赖”,短一点反而清楚。
但在数据库迁移、生产环境命令、安全审查、复杂 bug 排查里,解释太短会带来另一种成本:人看不懂、审不清、回滚慢。
省 token 可以。省掉关键交代,就不是优化,是埋雷。
企业开始管默认设置,而不是只管账号
Caveman 出现的时间点不孤立。
404 Media 提到,GitHub 在 4 月宣布 Copilot 相关收费将更多转向 token 维度,而不是只靠固定订阅。Uber 曾限制员工使用 Claude Code 等 AI 工具,原因是控制成本。The Information 报道称,Uber CTO 提到公司四个月就用完 AI 预算。Walmart 也对员工 AI 工具使用设限。
Legrand 的例子更具体。404 Media 获得的一份 Legrand 内部备忘录显示,公司提醒员工在计费系统变化和新配额实施后注意 AI 用量,避免过快消耗预算。
备忘录给出的建议包括:不要总用最强模型,不要总开高推理档,按任务选择模型,以及使用 “caveman skill” 降低输出消耗,并强调不影响代码。
| 对象 | 已知动作 | 说明的问题 |
|---|---|---|
| GitHub | Copilot 计费更多转向 token 维度 | 开发者工具成本变得更细 |
| Uber | 限制员工使用部分 AI 工具 | AI 编程代理进入预算管控 |
| Walmart | 对员工 AI 工具使用设限 | 大公司不再默认无限试用 |
| Legrand | 内部建议使用 caveman skill | 输出压缩变成管理动作 |
这里不能写过头。
原文提到,Brussee 称 OpenAI、NVIDIA、GitHub、DEPT 等公司的开发者或工程师有人在使用或测试 Caveman。这不等于这些公司官方部署了 Caveman。
能确认的是,OpenAI 工程总监 Shayne Sweeney 曾为 Caveman 贡献代码,加入 Codex 支持。这说明工具被专业开发者注意到,但不等于 OpenAI 官方背书。
404 Media 还称,Legrand、OpenAI、NVIDIA 和 GitHub 未回应置评请求。所以企业采用规模,目前看不清。
但有一件事已经看得见:AI 成本管理正在从“买几个账号”变成“管每次调用”。
一个简单账本就够说明问题。假设一个团队每天跑 500 次编程代理,每次平均输出 8000 token,一天就是 400 万输出 token。若某类低风险任务通过压缩输出少掉 60%,就是每天少 240 万输出 token。
具体能省多少钱,要看模型价格和合约。可管理动作已经很明确:默认输出长度、默认模型档位、推理强度、员工配额,都要进规则。
这会影响两类人。
企业采购和平台团队,不能只问“哪个模型更强”。还要问:谁能用高推理模式?哪些项目设 token 上限?不同团队怎么分摊账单?工具能不能按项目看消耗?
开发者团队也要调整默认工作流。低风险改动、格式化、简单脚本,可以用短输出。涉及生产、权限、数据和安全的任务,要保留完整解释、命令回显和审计记录。
少说废话,不等于少留证据。
接下来要看 AI 工具会不会原生控费
Caveman 现在像一个补丁。它补的是 AI 编程代理默认太爱说话的问题。
但补丁能解决的有限。真正会改变企业使用习惯的,是工具厂商把成本控制做成原生功能。
接下来最该看几件事:
| 观察点 | 为什么重要 |
|---|---|
| 是否支持按项目设置 token 上限 | 成本才能分摊到真实业务 |
| 是否能按任务调输出详细度 | 低风险任务省钱,高风险任务保留解释 |
| 高推理模式是否需要审批 | 防止员工无感烧预算 |
| 是否提供团队级 token 报表 | 管理者才能知道钱花在哪里 |
| 是否区分代码内容和解释文字 | 避免为了省钱压坏关键细节 |
我不太买账的是一种说法:只要模型越来越便宜,这些问题自然会消失。
模型单价可能下降,但使用量也会涨。尤其是编程代理,它不是问答框,而是会循环读文件、改代码、跑命令、解释结果。一次任务背后,可能是多轮调用。
成本问题不会只靠降价消失。更可能变成一套公司纪律。
采购会延后“全员无限开”的决策,改成分层配额。开发团队会把短输出设成默认,把完整解释留给高风险任务。普通员工会更早遇到提示:本月额度快用完了,请换低成本模型。
Caveman 的“穴居人说话”只是表面。它真正戳中的,是企业终于开始问 AI 一个很朴素的问题:你这段话,有必要花钱说这么长吗?
