一个约 155 stars、10 forks、159 commits 的开源项目,直接把话说到很满:Terminal-Bench-2 第一,API 成本低 50%-80%,代码质量更好。
项目叫 Dirac,仓库是 dirac-run/dirac,Apache-2.0 协议。它最值得看的地方,不是又一个 Agent 宣称跑分登顶,而是它把卖点放在了上下文整理、编辑锚定、并行操作和 AST 操作上。
我不急着替它加冕。README 里的说法,和第三方充分验证,中间隔着真实代码库、真实成本账单和真实失败案例。但这件事确实戳中了 AI 编程工具的下一道坎:模型会写代码之后,谁能少浪费、少误改、少让人返工。
Dirac 到底说了什么
| 项目 | 信息 |
|---|---|
| 仓库 | GitHub dirac-run/dirac |
| 协议 | Apache-2.0 |
| 当前热度 | 约 155 stars、10 forks、159 commits |
| 跑分主张 | 项目方称登顶 Terminal-Bench-2 |
| 模型基础 | Gemini-3-flash-preview |
| 成本主张 | 项目方称 API 成本降低 50%-80% |
| 质量主张 | 项目方称代码质量提升 |
| 技术卖点 | context curation、Hash Anchored edits、massively parallel operations、AST manipulation |
这些词听着硬,其实都指向同一个问题:Agent 怎么少犯工程上的低级错。
context curation,是别把无关文件、历史对话、重复信息都塞进上下文。上下文不是垃圾桶。塞得越多,token 越贵,模型注意力也越脏。
Hash Anchored edits,是让修改锚定到更稳定的位置,减少“本来想改 A,结果动了 B”。AST manipulation,则是不把代码只当文本处理,而是借语法结构做更稳的修改。
并行操作更直接。能同时跑的任务,就别排队等。对 Agent 来说,速度不是面子问题,而是开发者愿不愿意把它放进日常流程。
受影响的人也很清楚:重度使用 AI 编程工具的开发者、小团队、对 API 成本敏感的工程组织。
大厂可以把 token 当水烧,小团队不行。一个 Agent 如果每天常开,成本就不是财务脚注,而是要不要纳入开发流程的开关。
跑分能看,但不能替你省钱
Terminal-Bench 这类基准有意义。它至少把 Agent 放回终端、任务和执行结果里,而不是只看回答写得漂不漂亮。
但榜单不是神谕。尤其是 Agent 评测,变量太多:模型版本、提示词、工具调用、上下文策略、任务集适配,都可能影响结果。
| 该看的变量 | 能说明什么 | 不能说明什么 |
|---|---|---|
| Terminal-Bench-2 榜首主张 | 说明项目方认为 Dirac 在该基准上表现很强 | 不等于所有工程场景稳定领先 |
| Gemini-3-flash-preview | 可能带来模型红利 | 不能外推到所有模型组合 |
| 开源仓库 | 方便复现、审计和二次开发 | 不自动等于评测已被充分验证 |
| 50%-80% 成本下降 | 说明项目方把成本当核心卖点 | 不等于所有代码库、所有任务都能省这么多 |
| Hash Anchored edits / AST 操作 | 指向更稳的编辑策略 | 还要看复杂重构、脏代码库里的表现 |
所以,对 Dirac 更稳的判断是:它提出了一个值得验证的工程假设。
如果上下文筛选做得好,token 成本会降。如果编辑锚点和语法操作做得好,误改会少。如果并行执行不牺牲稳定性,Agent 才可能从“演示工具”变成“日常工具”。
真正要看的,不是它今天在榜单上站多高,而是三件事。
- 社区能不能复现 Terminal-Bench-2 的结果。
- 50%-80% 成本下降的测试条件是否透明。
- 在真实项目里,diff 是否更小、更准、更容易 review。
没有这些,第一名只是新闻。有了这些,才是工具。
对开发者和小团队,动作应该更现实
我更在意的不是 Dirac 能不能立刻替代 Cursor、Cline 或 Claude Code 这类工具。现在证据不够,直接迁移太早。
更现实的动作,是把它当成一个可测试选项。
| 对象 | 更合适的动作 | 不建议的动作 |
|---|---|---|
| AI 编程重度用户 | 拿非核心仓库跑一轮,重点看 diff 质量和 token 消耗 | 因为跑分第一就全量切换 |
| 小团队 / 成本敏感团队 | 延后采购或扩容决定,先做小样本成本对比 | 把 50%-80% 省钱幅度直接写进预算 |
| 技术负责人 | 关注上下文策略、编辑可靠性、失败日志 | 只问“接了哪个模型” |
这也是我觉得 Dirac 有意思的地方。它没有只围着“模型更强”打转,而是把 Agent 的脏活摆出来了。
过去一年,AI 编程工具的叙事太依赖模型发布节奏。谁接入更强模型,谁就显得更聪明。问题是,这条路越来越贵,也越来越同质化。
模型像电力。电气化早期,大家谈发电机;后来真正改变工厂效率的,是布线、流程、设备和管理。类比不完全一样,但今天的 Agent 确实走到了类似位置:发动机很重要,传动系统更决定能不能干活。
“天下熙熙,皆为利来。”放到 Agent 市场也一样。开发者不是为炫技付费,是为少花钱、少返工、少背锅付费。
一个 Agent 如果每次都生成一大坨无关 diff,review 成本会立刻吃掉它省下的时间。一个 Agent 如果上下文管理粗糙,再便宜的模型也会被浪费掉。
Dirac 现在还早。155 stars 说明它还不是主流项目。README 里的成本和质量主张,也需要更多外部验证。
但它把牌桌上的问题摆正了。
编程 Agent 的下一轮竞争,不会只由模型榜单决定。更会省上下文,更少改错地方,更能把执行约束做进系统里,才像真正的开发工具。
否则,只是一个更贵、更忙、更会制造 review 负担的聊天窗口。
