Simon Willison 在 PyCon US 2026 做了一场 5 分钟闪电演讲,题目是过去半年 LLM 发生了什么。

最扎眼的不是某个新模型发布,而是 2025 年 11 月。那一个月里,Anthropic、OpenAI、Google 之间的“最强模型”位置来回切换:Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5 先后被开发者拿来比较。

但这个“最强”不能当严格榜单。Willison 也说得很清楚,很多时候靠体感,靠任务,靠你怎么测。真正该看的,是另一件事:编码 Agent 开始能稳定干活了。

过去半年,LLM 跨过的是可用线

这半年可以压成一张表。

线索发生了什么我的判断
11 月拐点Claude、GPT、Gemini 之间多次出现体感领先切换模型皇冠越来越短命
编码 Agent从“经常能用”变成“多数时候能用”开发者工作流被真正碰到了
OpenClaw / ClawsWarelay 起步,几个月内在开发者圈获得大量注意,并带出 Claws 这个个人 AI 助手泛称个人 AI 助手形态开始有样子,但商业成败还没证据
本地 / 开放权重模型Gemma 4、GLM-5.1、Qwen3.6 等表现超出预期没追平 frontier,但足够改变很多小场景

编码 Agent 的变化,不是聊天机器人变聪明这么简单。

OpenAI 和 Anthropic 在 2025 年把大量精力放到了代码能力上,尤其是可验证奖励强化学习。代码有一个好处:它能跑,测试能过,输出能核对。相比普通文本,这类任务更容易给模型明确反馈。

再加上 Codex、Claude Code 这类 Agent 外壳,模型不只是“回答怎么写”。它能读项目、改文件、跑命令、看报错、再修一轮。

以前是你问一句,它答一段。现在是你交一个小任务,它推进一截。

这就是分水岭。

对重度开发者来说,工具选择会变得更现实:少看发布会,多看它能不能在自己的仓库里稳定提交补丁。对技术负责人来说,采购也该放慢一点。不要因为某个模型这周榜单高,就立刻迁移整套流程。

关键变量不在模型名,而在执行闭环

Willison 还用了一个很怪的测试:让模型生成“一只骑自行车的鹈鹕”的 SVG。

这个测试好玩。鹈鹕难画,自行车难画,鹈鹕也不会骑车。它能暴露一点组合能力、空间理解和审美稳定性。

但它不是严肃基准。

不能因为某个模型画鹈鹕画得好,就说它代码、推理、多模态、工具调用都强。Willison 自己也承认,这个测试已经快到边界了,更像叙事道具,不是评测体系。

有意思的是,本地和开放权重模型在这些怪题上开始显得不那么弱。

Gemma 4 被 Willison 评价为美国公司里能力很强的一批开放权重模型。GLM-5.1 是开放权重模型,体量达到 1.5TB,效果不错,但硬件门槛很高。Qwen3.6-35B-A3B 是 20.9GB 级别,可以在笔记本上跑,甚至在鹈鹕测试里压过了 Claude Opus 4.7 的某次结果。

这不能说明本地模型已经追平最强闭源模型。原文说得很克制:它们仍弱于 frontier,只是超出预期。

这个判断更重要。

因为很多团队需要的不是“世界第一聪明”,而是可控、便宜、能私有化、能离线、能塞进现有流程。只要本地模型在摘要、代码辅助、批处理、内部工具这些场景里够用,它就有价值。

限制也很硬。

GLM-5.1 这种 1.5TB 模型,不是普通开发者随手就能跑。开放权重不等于低成本。本地部署也不等于自动安全。权限、日志、数据隔离、更新频率、推理延迟,都要算账。

OpenClaw 这条线也类似。

它从 Warelay 起步,经历多次改名,最后以 OpenClaw 的名字在开发者圈火起来。Claws 变成一类个人 AI 助手的泛称。甚至有人把 Mac Mini 调侃成运行 Claw 的“鱼缸”。

这个比喻准在一点:开发者想要的不是聊天框,而是一个长期待命的小执行体。它能接任务,能用工具,能在本地或半本地环境里运行。

但章鱼博士的爪子也提醒得很直白:只要权限给得足,失控代价也会变高。Agent 越能干活,越不能只看能力。还要看边界、审计和回滚。

我的判断:模型皇冠会继续换手,工具链才会沉淀

我不太买账“最强模型”叙事。

不是因为模型不重要。模型当然重要。没有底层能力,Agent 外壳就是空架子。

但过去半年已经说明,单点领先很难长期保值。今天 Claude 领先,明天 GPT 抢回来,后天 Gemini 又压一头。城头变幻大王旗,热闹是真热闹,决策价值却有限。

更该盯的是四个变量:

  • 成功率.它能不能连续完成真实任务,而不是演示里惊艳一次。
  • 成本.一次任务烧多少钱,失败重试又烧多少。
  • 上下文.它能不能读懂项目结构、历史代码和团队规范。
  • 控制权.权限怎么给,错误怎么回滚,数据能不能留在本地或内网。

接下来半年,我会更看这几件事。

不是谁又拿了榜单第一,而是哪类 Agent 能稳定进入 IDE、终端、代码审查和 CI 流程。不是哪个本地模型画图更好,而是 20GB、几十 GB、上百 GB 这些不同体量的模型,分别能吃下哪些企业和个人场景。

开发者可以做一件很具体的事:把候选工具放进同一个真实仓库里测。让它修一个 bug,补一个测试,改一个接口,跑一轮命令。看它错在哪里,也看你要花多少时间收拾。

技术负责人也该改评估表。别只写模型名称和跑分。要加上失败率、人工接管成本、权限模型、本地部署成本、日志审计和供应商切换成本。

这半年 LLM 的变化,不是 AI 突然万能了。

更准确的说法是:它终于从“能聊”走到了“能推进一部分工作”。这一步没那么浪漫,但更值钱。