你现在用 Claude Code、Codex 或 Cursor 写代码,通常还要自己选模型:复杂任务上强模型,简单修改换便宜模型,预算紧了再切 mini 或开源模型。
Workweave 新发的 router 想把这件事藏到一个 endpoint 后面。工具仍然像往常一样发请求,但请求到哪家模型,由中间层判断。项目方声称,这样能把成本降 40%-70%。
这些数字不能直接当成独立验证结论。它们来自项目方表述和其引用的 RouterArena 榜单。但这件事值得看,因为它指向一个更现实的变化:AI 编程正在从“用户手选模型”,走向“中间层按请求调度模型”。
它是一个路由层,不是新模型
Workweave 做的事很具体:把 Claude Code、Codex、opencode 等工具的 base URL / endpoint 改到它的 router。之后,每次 LLM 请求由 router 转发到上游模型供应商。
它自己不是底层大模型厂。它更像代理和调度层,背后调用 Anthropic、OpenAI、Gemini、OpenRouter,以及 OpenAI-compatible endpoint。
| 项目 | 目前信息 | 对使用者的影响 |
|---|---|---|
| 接入方式 | 改 endpoint,支持 hosted 和 self-host | 迁移成本低,适合先小范围试 |
| 支持工具 | Claude Code、Codex、opencode;Cursor 为 early beta | Cursor 用户别急着全量切,原文也提示性能可能不是最好 |
| 上游模型 | Anthropic、OpenAI、Gemini、OpenRouter 等 | Workweave 不卖模型,卖的是路由判断和代理能力 |
| 路由方式 | 本地小型 embedder + cluster scorer,项目方称不是靠 prompt 猜 | 关键要看实际任务分流是否稳定 |
| 成本与延迟 | 项目方称降本 40%-70%,决策延迟低于 50ms | 需要在自己的代码库和请求分布里验证 |
| 榜单成绩 | 引用 RouterArena Acc-Cost 76.09 排名第一 | 可作为参考,不能当作生产环境保证 |
| 信任边界 | BYOK,provider key 本地加密保存,router key 与上游 key 分离 | 比纯云代理更容易进入团队安全评审 |
| 许可证 | Elastic License v2 | 不宜直接叫“完全自由开源软件” |
它还提到 OTLP traces、dashboard。后续计划包括 token-aware rate limiting、speculative dispatch、hedging。
这些词听起来偏工程,但都指向同一件事:当模型越来越多,真正难的不是“有没有模型”,而是“请求该给谁、花多少钱、出了错怎么追”。
真要测的不是口号,是四个变量
这类工具最容易被包装成省钱按钮。但工程团队不能只看“降本 40%-70%”。路由器进生产环境,至少要过四关。
| 变量 | 要问的问题 | 不过关的后果 |
|---|---|---|
| 路由准确性 | 简单任务是否真的给便宜模型,复杂任务是否保留强模型 | 省了小钱,坏了关键输出 |
| 延迟 | 决策层加进去后,交互是否仍然顺滑 | 编程助手变慢,开发者会直接绕开 |
| 可观测性 | 能否看到每次请求去了哪里、为什么这么分 | 出错后没人说得清责任在模型还是路由 |
| 密钥与权限 | BYOK、自托管、上游 key 隔离是否符合团队要求 | 安全评审卡住,采购和落地都会变慢 |
个人开发者可以轻一点:先把它接到非关键项目,观察账单和失败样本。尤其看两类请求:长上下文改代码、复杂 bug 分析。它们最能暴露路由判断的边界。
工程团队要更保守。不要一上来替换全部 AI 编程流量。更合理的动作是灰度:选一组仓库、一组任务类型,把手选模型和 router 输出并排记录。
准备采购或统一 AI 编程工具的团队,也可以把问题问得更具体:供应商能不能给路由日志?能不能导出 traces?能不能限制某些任务只走指定模型?能不能在成本、延迟、质量之间设策略?
如果这些答案含糊,所谓“智能路由”就会变成黑盒分发。账单可能好看,事故复盘会很难看。
省钱工具,也可能变成新闸门
我不反对模型路由。相反,它很可能是 AI 编程规模化使用绕不过去的一层。
很多请求确实不需要旗舰模型。补一段样板代码、解释一条报错、改一个配置文件,全上最贵模型就是烧钱。路由器如果能稳定识别任务难度,把简单请求打到便宜模型,把复杂推理留给强模型,降本叙事并不离谱。
但路由层一旦有效,它就不只是省钱工具。它会变成新的闸门。
谁决定“这个请求配不上好模型”?质量和成本的权重怎么设?团队能不能推翻一次错误分流?某个上游模型降价或提价后,路由策略会不会悄悄变?
这些问题,比 endpoint 配置更要命。
历史上类似的事反复发生。早期互联网用户手输网址,后来搜索引擎替你排序;媒体靠订阅分发,后来信息流替你选择。每一次“替你选择”,起点都是效率,后面都会长出权力。
“天下熙熙,皆为利来。”放到模型路由里,就是成本、延迟、供应商关系和平台控制一起进了调度室。
当然,今天的 LLM 路由和搜索、信息流不完全一样。它的工程约束更硬:延迟不能拖垮交互,成本节省不能牺牲关键任务质量,日志必须能解释坏结果。
所以 Workweave router 可以试,但不该被当成魔法按钮。
高频使用 Claude Code、Codex 的个人用户,可以先观望或小流量试用。Cursor 用户更要谨慎,因为它目前还是 early beta。工程团队如果已经有多模型账单压力,可以把它放进评估清单,但评估重点不是“能不能省钱”,而是“省下的钱是不是可解释、可追责、可回滚”。
AI 编程下一段竞争,未必只看谁家模型更强。更现实的战场会在路由、预算、速率限制、fallback、可审计性上。
开头那个 endpoint,看起来只是少改一行配置。它真正改的,是用户和模型之间的关系。
