Simon Willison 没有提前拿到 Claude Fable 5。他在发布当天试了大约 5.5 小时,第一印象很直接:慢,贵,但能连续啃硬活。

这比发布稿更有信息量。Fable 5 让人看到的不是“又一个更强模型”,而是前沿模型正在进入一个更麻烦的阶段:能力足够强,成本也足够显眼;护栏更严格,产品摩擦也会进入 API 和工作流。

规格很强,护栏也会改变产品

Anthropic 同日发布 Claude Fable 5 和 Claude Mythos 5。官方说法是:两者共享能力,差别在安全分类器。Fable 5 有更严格的安全护栏,Mythos 5 不带这些安全分类器。

关键规格可以压成一张表。

项目Fable 5 / Mythos 5
上下文窗口100 万 token
最大输出12.8 万 token
知识截止2026 年 1 月
价格输入 10 美元/百万 token,输出 50 美元/百万 token
价格对比约为 Claude Opus 4.5-4.8 的两倍
核心差异Fable 5 有更严格安全分类器;Mythos 5 无安全分类器

Fable 5 的护栏不是宣传页上的一句话。原文提到,拒答触发频繁到 Claude API 新增了相关提示机制,还提供了被拒时自动 fallback 到其他模型的选项。

这对开发者很现实。过去,安全策略常被当成模型外层的合规说明。现在它会直接影响调用链:什么时候拒答、拒答后换哪个模型、换模型后结果如何保持一致。

企业团队也要重新算账。要不要上 Fable 5,不只是“效果更好就用”。还要看拒答能不能被业务接受,fallback 是否可控,审计和用户解释怎么做。

强在连续做事,但别把推测当事实

Willison 做了一个知识测试:不联网,让模型列 Simon Willison 的开源项目。

Opus 4.8 能列出 LLM、Datasette、sqlite-utils、Django 等核心项目。Fable 5 记得更多,包括 files-to-prompt、datasette-extract、symbex、ttok、datasette-lite、shot-scraper 等。

这说明 Fable 5 的内化知识很厚。它看起来像一个更大的模型。

但这里必须踩一脚刹车。Anthropic 没有公布模型参数规模。Willison 的“感觉更大”,来自速度、价格和知识量,不是官方确认。并且在同一知识测试里,GPT-5.5 列出的项目更多。

真正更有价值的,是它做长链路工程任务的表现。

Willison 让 Fable 5 研究如何把 micropython-wasm 从 MicroPython 推到完整 CPython。模型找到 Brett Cannon 的 cpython-wasi-build,处理 zip、stdlib、WASM 文件,最后产出一个 13.9MB 的 wheel。用户可以用 uv 直接跑沙盒 Python。

另一个任务更重:改造 Datasette Agent,让工具调用可以中途暂停,向用户请求批准。Fable 5 不只完成了这个功能,还推动底层 LLM 库发出 0.32a3,补了 tool_call_id、PauseChain、恢复未完成工具调用、并发工具错误语义等能力。

这已经不是“生成几段代码”。它更像把 API 设计、测试、文档和重构打包推进。强模型最吓人的地方不在单次回答,而在它能持续吃上下文、持续改工程、持续把任务往前推。

对 AI 开发者来说,动作也很明确:可以拿它处理高价值、长链路、需要设计判断的任务;别拿它无脑跑低价值批处理。对技术负责人来说,短期更适合小范围试点,而不是立刻全团队迁移。

真正要观察的是成本、控制权和工作流

Willison 当天通过 AgentsView 估算,Fable 5 用量约 110.42 美元。这个数字要讲准:它发生在他 100 美元/月 Max 订阅期内,不等于当天额外支付 110.42 美元。

但它暴露了强模型代理的真实成本结构。

模型贵,不只贵在一问一答。贵在它终于能做长任务:读仓库、改代码、跑工具、写测试、修 API。任务越像真人开发者,token 越像水表。

这会影响两类人。

对象更现实的做法
独立开发者 / 高级工程师把 Fable 5 用在架构改造、复杂调试、API 设计,不要拿来做低价值日常问答
技术负责人 / AI 平台团队先做预算上限、拒答兜底、模型路由和日志审计,再谈大规模接入

Mythos 5 的存在也很微妙。它共享 Fable 5 的能力,但没有安全分类器。对某些受控环境,这可能意味着更少摩擦;对面向用户的产品,则意味着更高治理压力。

这不是道德姿态问题,是工程问题。模型越强,平台越会把安全、计费、fallback、接口权限抓在手里。开发者得到能力,也交出一部分控制权。

“天下熙熙,皆为利来。”这句话放在这里很合适。前沿模型竞争表面是能力竞赛,底层是成本、风险和控制权的重新分账。

接下来最该看的不是某个榜单分数,而是三件事:Fable 5 的拒答在真实产品里有多频繁;长链路代理任务的单位成本能不能降下来;开发者能不能把 fallback 和模型路由握在自己手里。

Fable 5 这次少见地把问题摊开了:模型可以更强,护栏可以更硬,账单也可以更真实。

强模型已经不是玩具。它开始像基础设施,也开始像成本中心。