Dirac 登顶跑分的重点，不是第一，是 Agent 开始拼省上下文了

核心摘要 Summary

Dirac 在 GitHub 开源，项目方称基于 Gemini-3-flash-preview 登顶 Terminal-Bench-2，并把 API 成本降低 50%-80%。
这还不能当成第三方定论，但它把编程 Agent 的竞争焦点拉回了工程现实：少烧 token、少改错、可复现。
对重度 AI 编程用户和小团队来说，现在更该看系统设计，而不是只看接了哪个大模型。

一个约 155 stars、10 forks、159 commits 的开源项目，直接把话说到很满：Terminal-Bench-2 第一，API 成本低 50%-80%，代码质量更好。

项目叫 Dirac，仓库是 dirac-run/dirac，Apache-2.0 协议。它最值得看的地方，不是又一个 Agent 宣称跑分登顶，而是它把卖点放在了上下文整理、编辑锚定、并行操作和 AST 操作上。

我不急着替它加冕。README 里的说法，和第三方充分验证，中间隔着真实代码库、真实成本账单和真实失败案例。但这件事确实戳中了 AI 编程工具的下一道坎：模型会写代码之后，谁能少浪费、少误改、少让人返工。

Dirac 到底说了什么

项目	信息
仓库	GitHub `dirac-run/dirac`
协议	Apache-2.0
当前热度	约 155 stars、10 forks、159 commits
跑分主张	项目方称登顶 Terminal-Bench-2
模型基础	Gemini-3-flash-preview
成本主张	项目方称 API 成本降低 50%-80%
质量主张	项目方称代码质量提升
技术卖点	context curation、Hash Anchored edits、massively parallel operations、AST manipulation

这些词听着硬，其实都指向同一个问题：Agent 怎么少犯工程上的低级错。

context curation，是别把无关文件、历史对话、重复信息都塞进上下文。上下文不是垃圾桶。塞得越多，token 越贵，模型注意力也越脏。

Hash Anchored edits，是让修改锚定到更稳定的位置，减少“本来想改 A，结果动了 B”。AST manipulation，则是不把代码只当文本处理，而是借语法结构做更稳的修改。

并行操作更直接。能同时跑的任务，就别排队等。对 Agent 来说，速度不是面子问题，而是开发者愿不愿意把它放进日常流程。

受影响的人也很清楚：重度使用 AI 编程工具的开发者、小团队、对 API 成本敏感的工程组织。

大厂可以把 token 当水烧，小团队不行。一个 Agent 如果每天常开，成本就不是财务脚注，而是要不要纳入开发流程的开关。

跑分能看，但不能替你省钱

Terminal-Bench 这类基准有意义。它至少把 Agent 放回终端、任务和执行结果里，而不是只看回答写得漂不漂亮。

但榜单不是神谕。尤其是 Agent 评测，变量太多：模型版本、提示词、工具调用、上下文策略、任务集适配，都可能影响结果。

该看的变量	能说明什么	不能说明什么
Terminal-Bench-2 榜首主张	说明项目方认为 Dirac 在该基准上表现很强	不等于所有工程场景稳定领先
Gemini-3-flash-preview	可能带来模型红利	不能外推到所有模型组合
开源仓库	方便复现、审计和二次开发	不自动等于评测已被充分验证
50%-80% 成本下降	说明项目方把成本当核心卖点	不等于所有代码库、所有任务都能省这么多
Hash Anchored edits / AST 操作	指向更稳的编辑策略	还要看复杂重构、脏代码库里的表现

所以，对 Dirac 更稳的判断是：它提出了一个值得验证的工程假设。

如果上下文筛选做得好，token 成本会降。如果编辑锚点和语法操作做得好，误改会少。如果并行执行不牺牲稳定性，Agent 才可能从“演示工具”变成“日常工具”。

真正要看的，不是它今天在榜单上站多高，而是三件事。

社区能不能复现 Terminal-Bench-2 的结果。
50%-80% 成本下降的测试条件是否透明。
在真实项目里，diff 是否更小、更准、更容易 review。

没有这些，第一名只是新闻。有了这些，才是工具。

对开发者和小团队，动作应该更现实

我更在意的不是 Dirac 能不能立刻替代 Cursor、Cline 或 Claude Code 这类工具。现在证据不够，直接迁移太早。

更现实的动作，是把它当成一个可测试选项。

对象	更合适的动作	不建议的动作
AI 编程重度用户	拿非核心仓库跑一轮，重点看 diff 质量和 token 消耗	因为跑分第一就全量切换
小团队 / 成本敏感团队	延后采购或扩容决定，先做小样本成本对比	把 50%-80% 省钱幅度直接写进预算
技术负责人	关注上下文策略、编辑可靠性、失败日志	只问“接了哪个模型”

这也是我觉得 Dirac 有意思的地方。它没有只围着“模型更强”打转，而是把 Agent 的脏活摆出来了。

过去一年，AI 编程工具的叙事太依赖模型发布节奏。谁接入更强模型，谁就显得更聪明。问题是，这条路越来越贵，也越来越同质化。

模型像电力。电气化早期，大家谈发电机；后来真正改变工厂效率的，是布线、流程、设备和管理。类比不完全一样，但今天的 Agent 确实走到了类似位置：发动机很重要，传动系统更决定能不能干活。

“天下熙熙，皆为利来。”放到 Agent 市场也一样。开发者不是为炫技付费，是为少花钱、少返工、少背锅付费。

一个 Agent 如果每次都生成一大坨无关 diff，review 成本会立刻吃掉它省下的时间。一个 Agent 如果上下文管理粗糙，再便宜的模型也会被浪费掉。

Dirac 现在还早。155 stars 说明它还不是主流项目。README 里的成本和质量主张，也需要更多外部验证。

但它把牌桌上的问题摆正了。

编程 Agent 的下一轮竞争，不会只由模型榜单决定。更会省上下文，更少改错地方，更能把执行约束做进系统里，才像真正的开发工具。

否则，只是一个更贵、更忙、更会制造 review 负担的聊天窗口。

Dirac 登顶跑分的重点，不是第一，是 Agent 开始拼省上下文了

Dirac启示

跑分主张

开源早期

模型红利

工程卖点

上下文筛选

锚定编辑

评测边界

复现要求

真实项目

用户动作

重度用户

小团队

竞争焦点

商业价值

Dirac 到底说了什么

跑分能看，但不能替你省钱

对开发者和小团队，动作应该更现实