一个约 155 stars、10 forks、159 commits 的开源项目,直接把话说到很满:Terminal-Bench-2 第一,API 成本低 50%-80%,代码质量更好。

项目叫 Dirac,仓库是 dirac-run/dirac,Apache-2.0 协议。它最值得看的地方,不是又一个 Agent 宣称跑分登顶,而是它把卖点放在了上下文整理、编辑锚定、并行操作和 AST 操作上。

我不急着替它加冕。README 里的说法,和第三方充分验证,中间隔着真实代码库、真实成本账单和真实失败案例。但这件事确实戳中了 AI 编程工具的下一道坎:模型会写代码之后,谁能少浪费、少误改、少让人返工。

Dirac 到底说了什么

项目信息
仓库GitHub dirac-run/dirac
协议Apache-2.0
当前热度约 155 stars、10 forks、159 commits
跑分主张项目方称登顶 Terminal-Bench-2
模型基础Gemini-3-flash-preview
成本主张项目方称 API 成本降低 50%-80%
质量主张项目方称代码质量提升
技术卖点context curation、Hash Anchored edits、massively parallel operations、AST manipulation

这些词听着硬,其实都指向同一个问题:Agent 怎么少犯工程上的低级错。

context curation,是别把无关文件、历史对话、重复信息都塞进上下文。上下文不是垃圾桶。塞得越多,token 越贵,模型注意力也越脏。

Hash Anchored edits,是让修改锚定到更稳定的位置,减少“本来想改 A,结果动了 B”。AST manipulation,则是不把代码只当文本处理,而是借语法结构做更稳的修改。

并行操作更直接。能同时跑的任务,就别排队等。对 Agent 来说,速度不是面子问题,而是开发者愿不愿意把它放进日常流程。

受影响的人也很清楚:重度使用 AI 编程工具的开发者、小团队、对 API 成本敏感的工程组织。

大厂可以把 token 当水烧,小团队不行。一个 Agent 如果每天常开,成本就不是财务脚注,而是要不要纳入开发流程的开关。

跑分能看,但不能替你省钱

Terminal-Bench 这类基准有意义。它至少把 Agent 放回终端、任务和执行结果里,而不是只看回答写得漂不漂亮。

但榜单不是神谕。尤其是 Agent 评测,变量太多:模型版本、提示词、工具调用、上下文策略、任务集适配,都可能影响结果。

该看的变量能说明什么不能说明什么
Terminal-Bench-2 榜首主张说明项目方认为 Dirac 在该基准上表现很强不等于所有工程场景稳定领先
Gemini-3-flash-preview可能带来模型红利不能外推到所有模型组合
开源仓库方便复现、审计和二次开发不自动等于评测已被充分验证
50%-80% 成本下降说明项目方把成本当核心卖点不等于所有代码库、所有任务都能省这么多
Hash Anchored edits / AST 操作指向更稳的编辑策略还要看复杂重构、脏代码库里的表现

所以,对 Dirac 更稳的判断是:它提出了一个值得验证的工程假设。

如果上下文筛选做得好,token 成本会降。如果编辑锚点和语法操作做得好,误改会少。如果并行执行不牺牲稳定性,Agent 才可能从“演示工具”变成“日常工具”。

真正要看的,不是它今天在榜单上站多高,而是三件事。

  • 社区能不能复现 Terminal-Bench-2 的结果。
  • 50%-80% 成本下降的测试条件是否透明。
  • 在真实项目里,diff 是否更小、更准、更容易 review。

没有这些,第一名只是新闻。有了这些,才是工具。

对开发者和小团队,动作应该更现实

我更在意的不是 Dirac 能不能立刻替代 Cursor、Cline 或 Claude Code 这类工具。现在证据不够,直接迁移太早。

更现实的动作,是把它当成一个可测试选项。

对象更合适的动作不建议的动作
AI 编程重度用户拿非核心仓库跑一轮,重点看 diff 质量和 token 消耗因为跑分第一就全量切换
小团队 / 成本敏感团队延后采购或扩容决定,先做小样本成本对比把 50%-80% 省钱幅度直接写进预算
技术负责人关注上下文策略、编辑可靠性、失败日志只问“接了哪个模型”

这也是我觉得 Dirac 有意思的地方。它没有只围着“模型更强”打转,而是把 Agent 的脏活摆出来了。

过去一年,AI 编程工具的叙事太依赖模型发布节奏。谁接入更强模型,谁就显得更聪明。问题是,这条路越来越贵,也越来越同质化。

模型像电力。电气化早期,大家谈发电机;后来真正改变工厂效率的,是布线、流程、设备和管理。类比不完全一样,但今天的 Agent 确实走到了类似位置:发动机很重要,传动系统更决定能不能干活。

“天下熙熙,皆为利来。”放到 Agent 市场也一样。开发者不是为炫技付费,是为少花钱、少返工、少背锅付费。

一个 Agent 如果每次都生成一大坨无关 diff,review 成本会立刻吃掉它省下的时间。一个 Agent 如果上下文管理粗糙,再便宜的模型也会被浪费掉。

Dirac 现在还早。155 stars 说明它还不是主流项目。README 里的成本和质量主张,也需要更多外部验证。

但它把牌桌上的问题摆正了。

编程 Agent 的下一轮竞争,不会只由模型榜单决定。更会省上下文,更少改错地方,更能把执行约束做进系统里,才像真正的开发工具。

否则,只是一个更贵、更忙、更会制造 review 负担的聊天窗口。