Workweave 路由器来了：AI 编程以后可能不再手选模型

核心摘要 Summary

Workweave 在 GitHub 发布了面向 Claude Code、Codex、opencode 等工具的 LLM 请求路由器，主打只改 endpoint，就能把请求分发到 Anthropic、OpenAI、Gemini、OpenRouter 等上游模型。
项目方声称每次请求自动路由、决策延迟低于 50ms、成本可降 40%-70%，并引用 RouterArena Acc-Cost 76.09 排名第一；这些仍应视为项目方表述和其引用结果。
我更在意的是另一件事：AI 编程的竞争点正在从“你选哪个模型”挪到“谁替你调度模型”。
省钱是入口，控制权才是后账。

你现在用 Claude Code、Codex 或 Cursor 写代码，通常还要自己选模型：复杂任务上强模型，简单修改换便宜模型，预算紧了再切 mini 或开源模型。

Workweave 新发的 router 想把这件事藏到一个 endpoint 后面。工具仍然像往常一样发请求，但请求到哪家模型，由中间层判断。项目方声称，这样能把成本降 40%-70%。

这些数字不能直接当成独立验证结论。它们来自项目方表述和其引用的 RouterArena 榜单。但这件事值得看，因为它指向一个更现实的变化：AI 编程正在从“用户手选模型”，走向“中间层按请求调度模型”。

它是一个路由层，不是新模型

Workweave 做的事很具体：把 Claude Code、Codex、opencode 等工具的 base URL / endpoint 改到它的 router。之后，每次 LLM 请求由 router 转发到上游模型供应商。

它自己不是底层大模型厂。它更像代理和调度层，背后调用 Anthropic、OpenAI、Gemini、OpenRouter，以及 OpenAI-compatible endpoint。

项目	目前信息	对使用者的影响
接入方式	改 endpoint，支持 hosted 和 self-host	迁移成本低，适合先小范围试
支持工具	Claude Code、Codex、opencode；Cursor 为 early beta	Cursor 用户别急着全量切，原文也提示性能可能不是最好
上游模型	Anthropic、OpenAI、Gemini、OpenRouter 等	Workweave 不卖模型，卖的是路由判断和代理能力
路由方式	本地小型 embedder + cluster scorer，项目方称不是靠 prompt 猜	关键要看实际任务分流是否稳定
成本与延迟	项目方称降本 40%-70%，决策延迟低于 50ms	需要在自己的代码库和请求分布里验证
榜单成绩	引用 RouterArena Acc-Cost 76.09 排名第一	可作为参考，不能当作生产环境保证
信任边界	BYOK，provider key 本地加密保存，router key 与上游 key 分离	比纯云代理更容易进入团队安全评审
许可证	Elastic License v2	不宜直接叫“完全自由开源软件”

它还提到 OTLP traces、dashboard。后续计划包括 token-aware rate limiting、speculative dispatch、hedging。

这些词听起来偏工程，但都指向同一件事：当模型越来越多，真正难的不是“有没有模型”，而是“请求该给谁、花多少钱、出了错怎么追”。

这类工具最容易被包装成省钱按钮。但工程团队不能只看“降本 40%-70%”。路由器进生产环境，至少要过四关。

个人开发者可以轻一点：先把它接到非关键项目，观察账单和失败样本。尤其看两类请求：长上下文改代码、复杂 bug 分析。它们最能暴露路由判断的边界。

工程团队要更保守。不要一上来替换全部 AI 编程流量。更合理的动作是灰度：选一组仓库、一组任务类型，把手选模型和 router 输出并排记录。

准备采购或统一 AI 编程工具的团队，也可以把问题问得更具体：供应商能不能给路由日志？能不能导出 traces？能不能限制某些任务只走指定模型？能不能在成本、延迟、质量之间设策略？

如果这些答案含糊，所谓“智能路由”就会变成黑盒分发。账单可能好看，事故复盘会很难看。

我不反对模型路由。相反，它很可能是 AI 编程规模化使用绕不过去的一层。

很多请求确实不需要旗舰模型。补一段样板代码、解释一条报错、改一个配置文件，全上最贵模型就是烧钱。路由器如果能稳定识别任务难度，把简单请求打到便宜模型，把复杂推理留给强模型，降本叙事并不离谱。

但路由层一旦有效，它就不只是省钱工具。它会变成新的闸门。

谁决定“这个请求配不上好模型”？质量和成本的权重怎么设？团队能不能推翻一次错误分流？某个上游模型降价或提价后，路由策略会不会悄悄变？

这些问题，比 endpoint 配置更要命。

历史上类似的事反复发生。早期互联网用户手输网址，后来搜索引擎替你排序；媒体靠订阅分发，后来信息流替你选择。每一次“替你选择”，起点都是效率，后面都会长出权力。

“天下熙熙，皆为利来。”放到模型路由里，就是成本、延迟、供应商关系和平台控制一起进了调度室。

当然，今天的 LLM 路由和搜索、信息流不完全一样。它的工程约束更硬：延迟不能拖垮交互，成本节省不能牺牲关键任务质量，日志必须能解释坏结果。

所以 Workweave router 可以试，但不该被当成魔法按钮。

高频使用 Claude Code、Codex 的个人用户，可以先观望或小流量试用。Cursor 用户更要谨慎，因为它目前还是 early beta。工程团队如果已经有多模型账单压力，可以把它放进评估清单，但评估重点不是“能不能省钱”，而是“省下的钱是不是可解释、可追责、可回滚”。

AI 编程下一段竞争，未必只看谁家模型更强。更现实的战场会在路由、预算、速率限制、fallback、可审计性上。

开头那个 endpoint，看起来只是少改一行配置。它真正改的，是用户和模型之间的关系。