LLM 半年变局：模型榜首换得快，真正变的是代理能干活、本地模型能上桌

核心摘要 Summary

Simon Willison 在 PyCon US 2026 的五分钟闪电演讲，回顾了 2025 年 11 月到 2026 年 5 月的 LLM 变化。
重点不在谁暂时最强，而在两条更实际的线：编程代理从“经常可用”走向“多数可用”，开放权重模型开始进入本地部署讨论。
对开发者和技术决策者来说，接下来的问题不是追榜，而是怎么把代理、闭源 API 和本地模型放进同一套工具链。

PyCon US 2026 上，Simon Willison 用五分钟讲了过去半年 LLM 的变化。

这个“半年”，指的是 2025 年 11 月到 2026 年 5 月。他把 2025 年 11 月称为一个 inflection point。反常之处在于，顶级模型换得太快，快到“谁第一”这件事本身开始贬值。

我更在意的是另一层变化：LLM 的竞争重心，正在从单次问答能力，转向两件更贴近日常工作的事。

一是代理能不能稳定干活。二是模型能不能以更低成本在本地或私有环境里跑起来。

11 月拐点：榜首轮换变快，编程代理跨过实用线

Willison 提到，2025 年 11 月前后，前沿模型的领先位置频繁变化。Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max、Claude Opus 4.5，先后进入一批重度用户眼中的领先位置。

这里要留一个口子。Willison 说的 “best model”，很大程度来自使用感受，不是严格排行榜结论。他还用了“鹈鹕骑自行车”的 SVG 趣味测试做对比。这个测试直观，但不能当严肃基准。

更硬的变化在代码场景。

OpenAI 和 Anthropic 在 2025 年大量使用可验证奖励强化学习提升代码能力。代码任务天然适合这种方法：测试能不能跑通，类型检查能不能过，修改后结果能不能验证，反馈比闲聊任务更清楚。

Codex 和 Claude Code 这类 agent harness 的意义就在这里。模型不只是补全一段代码，而是能读仓库、改文件、跑测试、看报错、再修一轮。

这改变了开发者分配任务的颗粒度。

以前让模型写函数，常常还要人收拾残局。现在更现实的用法是：让代理修一个边界 bug、补测试、迁移小模块、整理局部重构。它还不该替工程师做架构判断，但已经能吃掉一部分日常脏活。

变化	过去更常见的用法	现在更现实的用法	限制
前沿模型	问答、生成片段代码	接入 IDE 和仓库，完成小任务	“最强”感知轮换很快
编程代理	偶尔可用，失败率高	多数常规任务可尝试交给代理	仍需要测试、审计和人工验收
团队采购	买聊天模型账号	评估 IDE、权限、沙箱、日志	不能只看演示效果

对关注 AI 编程工具的开发者，动作很具体：不要只比较聊天窗口里的回答质量，要开始比较代理在自己仓库里的任务完成率。看它能不能读懂项目结构，能不能跑测试，失败后能不能自我修复。

对技术决策者，动作也很具体：采购不要急着押单一模型。更稳的做法，是先把代码权限、运行沙箱、日志审计和回滚流程定下来。代理越能干活，越不能裸奔。

OpenClaw 走红：个人代理像工具，也像要看管的宠物

Willison 还提到 OpenClaw。

这个项目最早在 2025 年 11 月以 Warelay 的名字出现，后来经历 CLAWDIS、CLAWDBOT、Clawdbot、Moltbot 等名字，到 2026 年 2 月以 OpenClaw 的名字受到较高关注。

这不是成熟市场结论。原文没有给商业化规模，也没有给用户数据。它更像一个新样本：个人 AI 代理正在从“网页里的聊天框”，往更常驻、更拟人的方向走。

OpenClaw 也带出了 “Claws” 这个个人 AI 助手通称。类似 NanoClaw、ZeroClaw 的项目，重点不只是回答问题，而是长期待命、接触文件、执行动作。

Willison 引述过一个玩笑：有人买 Mac Mini 来运行自己的 Claw，Mac Mini 像数字宠物的鱼缸。

这个比喻不只是可爱。宠物要喂养，也要关笼门。个人代理一旦常驻，就会接触文件、账户、消息和自动化权限。便利和风险绑在一起。

企业要看三件事：

权限能不能最小化，不要一上来就给全盘访问；
日志能不能追溯，出事后知道代理做过什么；
失败能不能兜底，误删、误发、误调用时谁负责恢复。

这也是代理产品和普通聊天产品的分界线。聊天产品答错了，通常是用户多看一眼。代理做错了，可能已经改了文件、发了请求、触发了流程。

差一寸，失千里。

本地模型上桌：开放权重有价值，但不等于完全开源

过去半年，开放权重和本地模型的表现也超出预期。

Willison 提到几个例子：Google 在 2026 年 4 月发布 Gemma 4，他称其为自己见过的美国公司最强开放权重模型之一；GLM-5.1 是 754B 参数、约 1.51TB 的开放权重大模型；Qwen3.6-35B-A3B 约 20.9GB 文件规模，可以在笔记本上运行，并给出超出预期的图形生成表现。

这里必须区分 open weight 和 open source。

开放权重通常意味着模型参数可下载、可本地部署。但训练数据、训练代码、完整配方和授权条件，未必全部开放。把开放权重直接说成完全开源，会误导企业评估合规和可控性。

模型例子	原文提到的重点	更适合怎么理解	现实约束
Gemma 4	2026 年 4 月发布，开放权重表现强	普通团队可纳入评估的本地路线	仍要看授权、部署成本和任务效果
GLM-5.1	754B 参数，约 1.51TB	大模型能力继续下探到开放权重阵营	硬件门槛高，不是普通笔记本路线
Qwen3.6-35B-A3B	约 20.9GB，可在笔记本运行	本地、低延迟、可离线场景有性价比	不应直接拿来对标最强闭源前沿模型

本地模型的现实意义，不是口号里的“自主可控”。对团队来说，它更直接地指向三件事：成本、隐私、延迟。

内部代码、客户数据、运营文档，不一定都适合送进外部 API。本地模型哪怕不追求最强，也可能在分类、摘要、检索增强、测试生成、内部知识问答这些任务里够用。

但硬件门槛会把路线分开。

GLM-5.1 这类 1.5TB 级别模型，能力强不代表部署轻。Qwen3.6-35B-A3B 这类更小的模型，价值在于把一部分 AI 能力塞进普通开发机或小型服务器。Gemma 4 则更像团队可以认真评估的中间路线。

接下来真正该看四个变量。

变量	为什么重要	看不清时该怎么做
代理任务完成率	决定能不能进入日常开发流程	用真实仓库小任务测试，不只看 demo
权限和审计	决定代理能不能进企业环境	先建沙箱、日志和回滚机制
本地部署成本	决定开放权重模型能不能落地	按任务算总成本，不只看模型参数
混合架构	决定闭源 API、本地模型、代理如何分工	高风险任务本地化，高难任务调用强模型

所以，这场五分钟回顾最有用的地方，不是帮人记住谁在 2026 年 5 月更强。

它提醒了一件更实际的事：LLM 已经进入工具链选择阶段。开发者要决定哪些任务交给代理，哪些任务继续人工把关。技术决策者要决定哪些数据走外部 API，哪些任务留在本地模型里。

模型争冠还会继续，但采购逻辑已经变了。

以前的问题是：买哪个最强模型。现在的问题是：哪类任务，用哪种模型，以什么权限，在什么环境里运行。

LLM 半年变局：模型榜首换得快，真正变的是代理能干活、本地模型能上桌

LLM半年变局

榜首贬值

感知领先

编程代理

任务颗粒

个人代理

权限约束

本地模型

价值来源

11 月拐点：榜首轮换变快，编程代理跨过实用线

OpenClaw 走红：个人代理像工具，也像要看管的宠物

本地模型上桌：开放权重有价值，但不等于完全开源