当 AI 开始学“原始人说话”：这个 GitHub 小项目，戳中了大模型时代最贵的痛点

人工智能 2026年4月5日

GitHub 上一个名叫 caveman 的小项目，试图用“原始人式表达”给 Claude Code 瘦身，把输出 token 砍掉约 75%。它看起来像个玩笑，但背后指向的是一个越来越现实的问题：在大模型时代，礼貌、铺垫和冗词，正在变成真金白银的成本。

一个玩笑项目，为什么突然让开发者共鸣

GitHub 上这几天冒出一个很有网感的项目，名字叫 caveman。它的口号也很直接：why use many token when few token do trick。翻成大白话就是，能少说就别多说。这个项目是给 Claude Code 用的一个 skill，核心思路简单到近乎粗暴——让 AI 用“原始人风格”回答问题，砍掉寒暄、铺垫、委婉语和各种不必要的连接词，但保留代码、术语和技术结论。

项目作者给出的示例很有代表性。普通模式下，Claude 会认真解释为什么 React 组件重复渲染：对象引用变了、浅比较失败了、建议用 useMemo。到了 caveman 模式，就变成一句话：“New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo.” 意思一点没少，语气却像一块石头砸过来。

你很难不笑一下。可笑完之后，很多开发者会立刻意识到：这不只是个梗。对频繁使用 AI 编程助手的人来说，输出 token 就是时间，就是钱，也是上下文窗口里最宝贵的空间。以前大家嫌 AI 啰嗦，只是体验问题；现在模型按 token 计费、长上下文越来越贵，啰嗦已经开始变成成本问题。caveman 把这个问题戏剧化了，但它戳中的，恰恰是今天 AI 开发工具最现实的一根神经。

省下的不只是字数，而是整条工作流的摩擦

很多人第一次接触大模型时，会把“说得像人”视为进步。模型会先客气一句“我很乐意帮你”，再给出背景解释、风险提醒、替代方案，最后温柔收尾。这种风格在面向普通消费者时很讨喜，甚至会让人误以为它更聪明、更可靠。

但在工程场景里，事情往往相反。程序员真正想要的，常常不是一篇友善的说明文，而是一把准头很高的扳手：问题在哪、为什么、怎么改、改完可能影响什么。尤其当你在调试线上 bug、看 CI 报错、改一段本来就熟悉的代码时，太多修辞会把重点冲淡。caveman 的价值，不在于“模仿原始人”，而在于它把 AI 回答里那些长期默认存在、但并不总有必要的语言包装，直接拔掉了。

更关键的是，这种压缩不是简单的“少说话”，而是一种对信息密度的重新分配。项目 README 里专门强调，代码块仍然正常写，技术术语保持精确，报错信息原样引用，Git commit 和 PR 文案也不强行“原始人化”。换句话说，它削掉的是语言里的泡沫，而不是知识本身。这也是为什么作者敢把“75% token reduction”和“full technical accuracy”放在一起讲。

如果这个逻辑成立，它带来的好处不只是一点点输出费用的下降。输出更短，生成更快，交互节奏会明显变化。开发者在一轮轮问答中等待的时间减少了，上下文被冗词挤占的比例降低了，真正用于代码、日志和设计信息的空间反而增加了。对重度用户来说，这种提升比“便宜了几分钱”更重要，因为它直接作用在工作流的摩擦系数上。

这件事为什么偏偏在今天显得重要

如果把时间拨回两年前，caveman 大概只会被当成一个 prompt engineering 段子收藏。可放在 2025 年的 AI 开发工具环境里，它变得比看上去严肃得多。

一个背景是，编程助手已经从“写几行补全”进化到了“长期协作代理”。Claude Code、GitHub Copilot、Cursor、Aider 这一类工具，越来越多地承担起阅读仓库、修改文件、解释错误、执行命令、生成提交信息的任务。模型不再只吐一小段代码，而是在一个复杂软件项目里来回穿梭。结果就是，token 消耗被放大了。一次看似普通的调试会话，实际可能吞掉海量上下文。

另一个背景是，大模型行业这些年一直在追求更大上下文、更强推理、更完整的工具调用能力，但对“表达是否足够经济”关注不够。厂商更乐于宣传模型能看 100 万 token，却不太会告诉你，里面有多少 token 是“当然可以，我来帮你看看”。这就像我们造出了更大的仓库，却没有认真讨论过仓库里是不是堆满了包装泡沫。

从这个角度看，caveman 有点像一次来自社区的反讽：你们都在卷模型规模、卷推理链、卷代理能力，我先卷一下废话率。它不一定是最终答案，但它提醒了所有做 AI 产品的人——高质量回答，不等于长回答；自然语言的“拟人化”，也不天然等于效率。

事实上，类似思路并不是第一次出现。过去就有不少用户会在系统提示词里加入“be concise”“no fluff”“answer in bullets”等要求，甚至有人专门训练“极简回复风格”的工作流模板。caveman 的不同之处在于，它把这种民间经验打包成了一个可安装、可触发、带明确人格设定的插件。一个原本零散的技巧，被做成了产品化的小工具，传播速度自然快得多。

有趣归有趣，但“少说”也有边界

我喜欢这个项目的幽默感，也认同它对低效语言的精准吐槽，但如果把它神化成“AI 交互终极方案”，那也有点过头了。

问题的第一层，是语气压缩和认知压缩不是一回事。很多时候，模型输出冗长，并不只是因为礼貌，而是因为它在用重复解释来掩盖不确定性。你把“我建议你考虑”删掉，不代表答案就真的更对。有些复杂问题——例如架构设计、数据库迁移、权限系统、安全边界——本来就需要上下文、前提和风险说明。过度追求短句，可能会把关键的 caveat 一起砍掉。

第二层是，开发者并不是唯一用户。工程团队内部也有不同角色：资深程序员希望直奔结论，新手可能反而需要更多讲解；凌晨两点排障时，你想要的是“哪一行有问题”，但做方案评审时，你又需要模型把利弊掰开揉碎。也就是说，简洁是一种场景偏好，不是普适真理。真正成熟的 AI 产品，恐怕不是永远像 caveman 一样说话，而是能理解什么时候该短、什么时候该展开。

还有一个更值得琢磨的问题：如果“压缩表达”真的能显著节省成本，平台会不会把这件事更系统地做起来？比如默认区分“调试模式”“教学模式”“审阅模式”，不同模式控制不同信息密度；再比如让输出 token 预算可视化，告诉用户这次回答花了多少、哪些部分是冗余。和这些产品级设计相比，caveman 还只是一个轻巧的民间补丁。但很多行业趋势，恰恰就是从这种半开玩笑的补丁开始的。

一块石头，敲出了 AI 产品设计的新问题

我很喜欢 README 里那句带点中二气质的话：Same fix. 75% less word. Brain still big. 这句话其实把大模型时代的一个尴尬真相说透了：AI 已经足够聪明，接下来用户在意的，不只是它“会不会”，而是它“怎么说”“说多少”“值不值这个价”。

过去几年，AI 产品竞争的主旋律是能力上限。谁写得更像人，谁回答得更完整，谁上下文更长，谁工具调用更强。现在，另一个维度开始抬头了：效率美学。一个真正好用的模型，不该只是知识渊博，还要懂得克制。尤其在代码场景中，表达的克制几乎是一种工程美德。

这也是我觉得 caveman 值得被报道的原因。它当然不是一项底层突破，没有新模型、没有新架构、没有融资新闻，甚至连功能本身都简单得有点恶作剧。但它像一面镜子，照出了 AI 行业常被忽略的一件事：我们一边高喊智能代理时代来了，一边却默许这些代理每天浪费大量 token 去说客套话。技术越强，浪费越贵；模型越大，啰嗦越不该成为默认设置。

也许接下来会有更多类似工具出现：有的追求极简，有的专为代码审查压缩语言，有的干脆按成本实时调节回答风格。等这股潮流真正成熟之后，我们回头看，caveman 可能会像一个很小、但很典型的信号——AI 产品开始从“更像人”走向“更像工具”。这未必性感，却很可能更重要。

说到底，程序员未必真的想和一个彬彬有礼的聊天机器人一起写代码。很多时候，他们只想要一句准话：哪错了，怎么改，别绕弯子。原始人也许不会写 React，但他显然懂一个现代互联网商业逻辑：少说废话，省钱。

Summary: caveman 不是革命性技术，却是一个非常典型的时代切片：当大模型进入日常开发流程后，语言风格本身也开始被当作性能和成本来优化。我判断，未来 AI 编程工具会越来越强调“信息密度控制”，而不是一味追求更长、更像人、更会聊天。今天看似玩笑的“原始人模式”，明天很可能会变成主流产品里的一个正式开关。

大模型成本优化TokenClaude Codecaveman提示词压缩GitHubAI 编程助手ReactuseMemo开发者效率