PyCon US 2026 上,Simon Willison 用五分钟讲了过去半年 LLM 的变化。
这个“半年”,指的是 2025 年 11 月到 2026 年 5 月。他把 2025 年 11 月称为一个 inflection point。反常之处在于,顶级模型换得太快,快到“谁第一”这件事本身开始贬值。
我更在意的是另一层变化:LLM 的竞争重心,正在从单次问答能力,转向两件更贴近日常工作的事。
一是代理能不能稳定干活。二是模型能不能以更低成本在本地或私有环境里跑起来。
11 月拐点:榜首轮换变快,编程代理跨过实用线
Willison 提到,2025 年 11 月前后,前沿模型的领先位置频繁变化。Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5,先后进入一批重度用户眼中的领先位置。
这里要留一个口子。Willison 说的 “best model”,很大程度来自使用感受,不是严格排行榜结论。他还用了“鹈鹕骑自行车”的 SVG 趣味测试做对比。这个测试直观,但不能当严肃基准。
更硬的变化在代码场景。
OpenAI 和 Anthropic 在 2025 年大量使用可验证奖励强化学习提升代码能力。代码任务天然适合这种方法:测试能不能跑通,类型检查能不能过,修改后结果能不能验证,反馈比闲聊任务更清楚。
Codex 和 Claude Code 这类 agent harness 的意义就在这里。模型不只是补全一段代码,而是能读仓库、改文件、跑测试、看报错、再修一轮。
这改变了开发者分配任务的颗粒度。
以前让模型写函数,常常还要人收拾残局。现在更现实的用法是:让代理修一个边界 bug、补测试、迁移小模块、整理局部重构。它还不该替工程师做架构判断,但已经能吃掉一部分日常脏活。
| 变化 | 过去更常见的用法 | 现在更现实的用法 | 限制 |
|---|---|---|---|
| 前沿模型 | 问答、生成片段代码 | 接入 IDE 和仓库,完成小任务 | “最强”感知轮换很快 |
| 编程代理 | 偶尔可用,失败率高 | 多数常规任务可尝试交给代理 | 仍需要测试、审计和人工验收 |
| 团队采购 | 买聊天模型账号 | 评估 IDE、权限、沙箱、日志 | 不能只看演示效果 |
对关注 AI 编程工具的开发者,动作很具体:不要只比较聊天窗口里的回答质量,要开始比较代理在自己仓库里的任务完成率。看它能不能读懂项目结构,能不能跑测试,失败后能不能自我修复。
对技术决策者,动作也很具体:采购不要急着押单一模型。更稳的做法,是先把代码权限、运行沙箱、日志审计和回滚流程定下来。代理越能干活,越不能裸奔。
OpenClaw 走红:个人代理像工具,也像要看管的宠物
Willison 还提到 OpenClaw。
这个项目最早在 2025 年 11 月以 Warelay 的名字出现,后来经历 CLAWDIS、CLAWDBOT、Clawdbot、Moltbot 等名字,到 2026 年 2 月以 OpenClaw 的名字受到较高关注。
这不是成熟市场结论。原文没有给商业化规模,也没有给用户数据。它更像一个新样本:个人 AI 代理正在从“网页里的聊天框”,往更常驻、更拟人的方向走。
OpenClaw 也带出了 “Claws” 这个个人 AI 助手通称。类似 NanoClaw、ZeroClaw 的项目,重点不只是回答问题,而是长期待命、接触文件、执行动作。
Willison 引述过一个玩笑:有人买 Mac Mini 来运行自己的 Claw,Mac Mini 像数字宠物的鱼缸。
这个比喻不只是可爱。宠物要喂养,也要关笼门。个人代理一旦常驻,就会接触文件、账户、消息和自动化权限。便利和风险绑在一起。
企业要看三件事:
- 权限能不能最小化,不要一上来就给全盘访问;
- 日志能不能追溯,出事后知道代理做过什么;
- 失败能不能兜底,误删、误发、误调用时谁负责恢复。
这也是代理产品和普通聊天产品的分界线。聊天产品答错了,通常是用户多看一眼。代理做错了,可能已经改了文件、发了请求、触发了流程。
差一寸,失千里。
本地模型上桌:开放权重有价值,但不等于完全开源
过去半年,开放权重和本地模型的表现也超出预期。
Willison 提到几个例子:Google 在 2026 年 4 月发布 Gemma 4,他称其为自己见过的美国公司最强开放权重模型之一;GLM-5.1 是 754B 参数、约 1.51TB 的开放权重大模型;Qwen3.6-35B-A3B 约 20.9GB 文件规模,可以在笔记本上运行,并给出超出预期的图形生成表现。
这里必须区分 open weight 和 open source。
开放权重通常意味着模型参数可下载、可本地部署。但训练数据、训练代码、完整配方和授权条件,未必全部开放。把开放权重直接说成完全开源,会误导企业评估合规和可控性。
| 模型例子 | 原文提到的重点 | 更适合怎么理解 | 现实约束 |
|---|---|---|---|
| Gemma 4 | 2026 年 4 月发布,开放权重表现强 | 普通团队可纳入评估的本地路线 | 仍要看授权、部署成本和任务效果 |
| GLM-5.1 | 754B 参数,约 1.51TB | 大模型能力继续下探到开放权重阵营 | 硬件门槛高,不是普通笔记本路线 |
| Qwen3.6-35B-A3B | 约 20.9GB,可在笔记本运行 | 本地、低延迟、可离线场景有性价比 | 不应直接拿来对标最强闭源前沿模型 |
本地模型的现实意义,不是口号里的“自主可控”。对团队来说,它更直接地指向三件事:成本、隐私、延迟。
内部代码、客户数据、运营文档,不一定都适合送进外部 API。本地模型哪怕不追求最强,也可能在分类、摘要、检索增强、测试生成、内部知识问答这些任务里够用。
但硬件门槛会把路线分开。
GLM-5.1 这类 1.5TB 级别模型,能力强不代表部署轻。Qwen3.6-35B-A3B 这类更小的模型,价值在于把一部分 AI 能力塞进普通开发机或小型服务器。Gemma 4 则更像团队可以认真评估的中间路线。
接下来真正该看四个变量。
| 变量 | 为什么重要 | 看不清时该怎么做 |
|---|---|---|
| 代理任务完成率 | 决定能不能进入日常开发流程 | 用真实仓库小任务测试,不只看 demo |
| 权限和审计 | 决定代理能不能进企业环境 | 先建沙箱、日志和回滚机制 |
| 本地部署成本 | 决定开放权重模型能不能落地 | 按任务算总成本,不只看模型参数 |
| 混合架构 | 决定闭源 API、本地模型、代理如何分工 | 高风险任务本地化,高难任务调用强模型 |
所以,这场五分钟回顾最有用的地方,不是帮人记住谁在 2026 年 5 月更强。
它提醒了一件更实际的事:LLM 已经进入工具链选择阶段。开发者要决定哪些任务交给代理,哪些任务继续人工把关。技术决策者要决定哪些数据走外部 API,哪些任务留在本地模型里。
模型争冠还会继续,但采购逻辑已经变了。
以前的问题是:买哪个最强模型。现在的问题是:哪类任务,用哪种模型,以什么权限,在什么环境里运行。
