你现在用 Claude Code、Codex 或 Cursor 写代码,通常还要自己选模型:复杂任务上强模型,简单修改换便宜模型,预算紧了再切 mini 或开源模型。

Workweave 新发的 router 想把这件事藏到一个 endpoint 后面。工具仍然像往常一样发请求,但请求到哪家模型,由中间层判断。项目方声称,这样能把成本降 40%-70%。

这些数字不能直接当成独立验证结论。它们来自项目方表述和其引用的 RouterArena 榜单。但这件事值得看,因为它指向一个更现实的变化:AI 编程正在从“用户手选模型”,走向“中间层按请求调度模型”。

它是一个路由层,不是新模型

Workweave 做的事很具体:把 Claude Code、Codex、opencode 等工具的 base URL / endpoint 改到它的 router。之后,每次 LLM 请求由 router 转发到上游模型供应商。

它自己不是底层大模型厂。它更像代理和调度层,背后调用 Anthropic、OpenAI、Gemini、OpenRouter,以及 OpenAI-compatible endpoint。

项目目前信息对使用者的影响
接入方式改 endpoint,支持 hosted 和 self-host迁移成本低,适合先小范围试
支持工具Claude Code、Codex、opencode;Cursor 为 early betaCursor 用户别急着全量切,原文也提示性能可能不是最好
上游模型Anthropic、OpenAI、Gemini、OpenRouter 等Workweave 不卖模型,卖的是路由判断和代理能力
路由方式本地小型 embedder + cluster scorer,项目方称不是靠 prompt 猜关键要看实际任务分流是否稳定
成本与延迟项目方称降本 40%-70%,决策延迟低于 50ms需要在自己的代码库和请求分布里验证
榜单成绩引用 RouterArena Acc-Cost 76.09 排名第一可作为参考,不能当作生产环境保证
信任边界BYOK,provider key 本地加密保存,router key 与上游 key 分离比纯云代理更容易进入团队安全评审
许可证Elastic License v2不宜直接叫“完全自由开源软件”

它还提到 OTLP traces、dashboard。后续计划包括 token-aware rate limiting、speculative dispatch、hedging。

这些词听起来偏工程,但都指向同一件事:当模型越来越多,真正难的不是“有没有模型”,而是“请求该给谁、花多少钱、出了错怎么追”。

真要测的不是口号,是四个变量

这类工具最容易被包装成省钱按钮。但工程团队不能只看“降本 40%-70%”。路由器进生产环境,至少要过四关。

变量要问的问题不过关的后果
路由准确性简单任务是否真的给便宜模型,复杂任务是否保留强模型省了小钱,坏了关键输出
延迟决策层加进去后,交互是否仍然顺滑编程助手变慢,开发者会直接绕开
可观测性能否看到每次请求去了哪里、为什么这么分出错后没人说得清责任在模型还是路由
密钥与权限BYOK、自托管、上游 key 隔离是否符合团队要求安全评审卡住,采购和落地都会变慢

个人开发者可以轻一点:先把它接到非关键项目,观察账单和失败样本。尤其看两类请求:长上下文改代码、复杂 bug 分析。它们最能暴露路由判断的边界。

工程团队要更保守。不要一上来替换全部 AI 编程流量。更合理的动作是灰度:选一组仓库、一组任务类型,把手选模型和 router 输出并排记录。

准备采购或统一 AI 编程工具的团队,也可以把问题问得更具体:供应商能不能给路由日志?能不能导出 traces?能不能限制某些任务只走指定模型?能不能在成本、延迟、质量之间设策略?

如果这些答案含糊,所谓“智能路由”就会变成黑盒分发。账单可能好看,事故复盘会很难看。

省钱工具,也可能变成新闸门

我不反对模型路由。相反,它很可能是 AI 编程规模化使用绕不过去的一层。

很多请求确实不需要旗舰模型。补一段样板代码、解释一条报错、改一个配置文件,全上最贵模型就是烧钱。路由器如果能稳定识别任务难度,把简单请求打到便宜模型,把复杂推理留给强模型,降本叙事并不离谱。

但路由层一旦有效,它就不只是省钱工具。它会变成新的闸门。

谁决定“这个请求配不上好模型”?质量和成本的权重怎么设?团队能不能推翻一次错误分流?某个上游模型降价或提价后,路由策略会不会悄悄变?

这些问题,比 endpoint 配置更要命。

历史上类似的事反复发生。早期互联网用户手输网址,后来搜索引擎替你排序;媒体靠订阅分发,后来信息流替你选择。每一次“替你选择”,起点都是效率,后面都会长出权力。

“天下熙熙,皆为利来。”放到模型路由里,就是成本、延迟、供应商关系和平台控制一起进了调度室。

当然,今天的 LLM 路由和搜索、信息流不完全一样。它的工程约束更硬:延迟不能拖垮交互,成本节省不能牺牲关键任务质量,日志必须能解释坏结果。

所以 Workweave router 可以试,但不该被当成魔法按钮。

高频使用 Claude Code、Codex 的个人用户,可以先观望或小流量试用。Cursor 用户更要谨慎,因为它目前还是 early beta。工程团队如果已经有多模型账单压力,可以把它放进评估清单,但评估重点不是“能不能省钱”,而是“省下的钱是不是可解释、可追责、可回滚”。

AI 编程下一段竞争,未必只看谁家模型更强。更现实的战场会在路由、预算、速率限制、fallback、可审计性上。

开头那个 endpoint,看起来只是少改一行配置。它真正改的,是用户和模型之间的关系。