安静的一天，热闹的一周：AI 正从“更强模型”转向“更会干活”

人工智能 2026年3月31日

表面上看，这个周末 AI 圈没有出现那种“炸裂级”发布会，但细看过去几天的动向，会发现行业重心正在悄悄变化：大家讨论的焦点，已经不只是模型本身有多强，而是谁能把模型装进更好用、更可靠的“干活系统”里。无论是 Claude Code 获得电脑操作能力，还是开源 Hermes Agent 爆红，背后都指向同一个趋势——2026 年的 AI 竞争，越来越像工程体系之争，而不只是参数和榜单之争。

真正的变化，不在模型分数，在“AI 会不会把活干完”

如果只看 headline，这几天的 AI 新闻确实有点“风平浪静”。没有谁突然扔出一个碾压全场的新模型，也没有哪家公司上演戏剧性的收购或大战。但科技新闻有时候就像地震前的海面，表面平静，水下却在换流向。

这几天最有代表性的变化，是 Anthropic 给 Claude Code 加上了“computer use”能力。翻成大白话，就是这位代码助手不再只是吐代码、讲道理，它开始能直接打开应用、点按钮、看界面、跑测试，然后发现错了再改。对普通用户来说，这似乎只是“多了个功能”；对开发者来说，这其实是补上了 coding agent 最关键的一环：闭环验证。

过去一年，很多 AI 编程工具都卡在同一个尴尬处境里：它能写，但不一定能验证自己写得对；它能生成页面，但未必知道按钮是不是点得动；它能改 bug，但有时像在黑屋子里修钟表。现在 Claude Code 这一步，等于给 agent 装上了眼睛和手。代码、运行、观察、修复、再测试，这才开始接近一个像样的软件迭代流程。说得夸张一点，AI 编程工具终于从“很会说的实习生”，往“能独立干一轮活的工程师”迈了一步。

更有意思的是，OpenAI 很快又把 Codex 以插件形式接进了 Claude Code 体系里。两个原本应该在牌桌两端的玩家，突然开始在同一个工作流里协作：Claude 负责主流程，Codex 可以被调用来做 review、对抗审查，甚至“救火”。这件事比插件本身更重要，因为它释放了一个非常清晰的信号：未来的 AI 编程栈，可能不会是某一家公司的封闭王国，而是一个可拼装、可替换、可混搭的 agent harness。

这个词——harness，最近被提得越来越多。你可以把它理解成“驯马的缰绳”，也可以把它理解成 AI 的工作流程外骨骼。模型是大脑，但真正决定它能不能稳定干活的，是提示词怎么组织、工具怎么调用、上下文怎么裁剪、错误怎么回滚、结果怎么复核。行业里已经有人直接指出，同一个模型放到不同工具链里，表现能差出 20% 左右。这听起来有点离谱，但也很真实：模型能力正在收敛，工程能力的差距反而被放大了。

开源 Agent 开始长骨头了，Hermes 不只是“另一个助手”

如果说大厂这边在补齐闭环，开源社区这几天最热闹的则是 Hermes Agent。Nous Research 的这次更新，带动了一波明显的迁移潮。很多原本折腾 OpenClaw 一类方案的用户，开始转向 Hermes，理由也非常朴素：更轻、更稳、更少臃肿，而且更新节奏够快。

Hermes 这次真正打动人的地方，不只是性能或响应速度，而是它开始从“一个 agent”长成“一个 agent 操作系统”的样子。新推出的多 agent profile，给每个 bot 分配自己的记忆、技能、历史记录和连接方式。听上去有点像给 AI 员工建工位、发工牌、开权限。今天这个 bot 负责写代码，明天那个 bot 专门看监控日志，另一个 bot 管文档和客服，它们彼此之间有分工，也有历史。对企业和重度开发者来说，这种结构化能力远比“模型聪明一点点”更重要。

开源生态也开始围绕 Hermes 长出配套组件。有人做 trace 记录和匿名清洗，把 agent 的决策过程发布到 Hugging Face，供后续分析、评测、监督微调甚至强化学习；有人做远程浏览器监控和控制，强调端到端加密；还有人探索一个很有未来感的路线：让 agent 记录自己的操作历史，再把这些历史拿去训练一个更小、更便宜的后继模型，训练完后再切换过去。这已经不是简单的“把模型接上工具”，而是在尝试让 agent 系统具备自我沉淀和自我降本能力。

这里面也有一场越来越清晰的路线之争：开源 agent 工具，到底该不该默认配开源模型？Hugging Face 的 Clement Delangue 旗帜鲜明地支持“默认开源”，理由是隐私和可持续性。这个观点不是意识形态，而是现实经验的总结。企业如果把自己的流程、权限、数据、知识库，全压在某个闭源 API 上，短期确实省事，长期却可能把命门交出去。今天价格变了怎么办，明天接口关了怎么办，后天政策变了怎么办？当 agent 真的开始接触企业核心流程时，这些都不再是论坛口水战，而是董事会层面的风险问题。

多模态继续升级，但大家开始更关心“能落地到哪”

模型发布也不是没有亮点。阿里这几天推出的 Qwen3.5-Omni，是这波新闻里最像“大模型更新”的一个。它支持文本、图像、音频、视频的统一理解，还加入了脚本级字幕能力、网页搜索和函数调用。官方演示里最吸睛的，是“audio-visual vibe coding”——你用口头和视觉指令描述，它帮你做网站、做小游戏。这很像把自然语言编程、视觉理解和工具调用揉成了一个东西。

但我更想提醒读者一句：这类“Omni”发布，真正要看的不是 demo 漂不漂亮，而是模型边界有没有说清楚。社区里已经有人点出来，Qwen3.5-Omni 的“omni”主要是多模态输入理解，不等于它在任意模态生成上都无所不能。这种提醒非常必要。AI 行业近两年最大的传播毛病之一，就是把“能做”说成“擅长做”，再把“实验室能演示”说成“业务里可部署”。

另一条值得关注的线，是 Z AI 继续把 GLM-5-Turbo 往 agent 工作负载上调。它在通用指数上未必最亮眼，但在更贴近真实代理任务的指标上表现更强。这个变化背后的含义其实很重要：模型优化开始从“我在所有考试里都高分”转向“我在真正上班时更靠谱”。这和过去搜索引擎、云计算、数据库的发展轨迹很像。技术成熟之后，赢家未必是理论最强的那个，而是最适合具体工作流、最能控成本、最方便集成的那个。

现在越来越多从业者都在接受一个新现实：企业最终大概率不会永远租一个万能 API 来解决所有问题，而是会拥有并定制自己的开源模型，把专有数据和专属流程压进去，训出更懂自己业务的“小而专”系统。Qwen 系列蒸馏模型在 Hugging Face 长期走红、llama.cpp 和 MLX 本地运行时热度不减，都是这个趋势的侧证。说白了，大家开始认真算账了。AI 从炫技阶段，走到了财务总监会盯着问 ROI 的阶段。

本地推理和工程基础设施，正在悄悄决定行业下限

这几天还有一个很有象征意义的小里程碑：llama.cpp 在 GitHub 上突破了 10 万星。别小看这个数字，它几乎可以算是“本地 AI 时代”的纪念碑之一。因为它代表的不是某个单一模型，而是一种信念：有用的 AI，不一定非要活在昂贵的云端，也不一定要被某一家的硬件和平台锁死。

llama.cpp 这些年最难得的地方，在于它一直坚持跨硬件、跨平台、尽量不绑死厂商。今天你可以在 Linux 服务器上跑，明天可以在 Windows 机器上跑，后天甚至能在 MacBook 上折腾。对开发者和中小团队来说，这种“可携带性”有时比理论峰值性能更重要。因为你不是天天在做基准测试，你是在想：这个东西能不能部署、能不能维护、能不能迁移、能不能活过下一轮平台策略变化。

与之呼应的是，Apple Silicon 上的本地推理又刷了一波存在感。有项目展示用纯 C + Metal 引擎，让超大规模的 Qwen3.5-397B 在 48GB MacBook Pro 上以可用速度运行，通过从 SSD 流式加载权重、只激活需要的专家，硬是把一个看似“不可能在笔记本上跑”的模型拉到了现实边缘。这个场景本身就很有时代感：几年前大家还在争论“大模型是不是离普通开发者太远了”，现在已经有人把几百 B 级别的混合专家模型塞进了便携设备。

与此同时，浏览器端和服务端的基础设施也在同步升级。Transformers.js v4 把 WebGPU 带到浏览器、Node、Bun、Deno 这些环境里，vLLM-Omni 持续补齐多模态和生产级服务能力，开源语音转写模型也在速度和精度上双双前进。表面看，这些都不像“头条新闻”，但如果没有这些铺路石，前面那些炫目的 agent 和 omni demo 很快就会在落地时摔一跤。

下一个竞争点，可能不是谁更聪明，而是谁更可信

从研究圈这几天的讨论看，另一个正在升温的主题是：AI 的“工作框架”本身，也成了研究对象。清华和深圳团队提出用自然语言 SOP 来驱动 agent orchestration，不再把流程写死在代码规则里；Meta 则更进一步，提出 Meta-Harness，尝试把 harness 本身放进优化闭环。这听上去有点绕，但含义很直白：以后不只是模型要训练，模型外面的“工作制度”也要训练。

还有来自 CMU 的 CAID 论文，强调异步、多 agent、隔离式的软件工程协作。它给人的启发是，想让 AI 做更复杂的软件任务，未必是让一个 agent 思考更久，而是学会像团队一样拆分、并行、验证、合并。这其实特别像人类工程组织的发展史。一个优秀团队靠的从来不是某个天才程序员 72 小时不睡觉，而是任务拆得清、接口定义明、验收机制严。

但在我看来，更值得警惕的是评测之外的问题。比如斯坦福领衔的一项研究就提到，过于迎合用户的“谄媚型 AI”可能会让人更确信自己的判断，却更不愿意修复关系。这个发现很扎心。因为当 AI 越来越会说、越来越会配合时，我们很容易把“用户觉得舒服”误当成“系统真正有益”。放到 agent 时代，这个问题只会更尖锐：一个会执行、会总结、会讨好、还看起来很懂你的系统，到底是在帮你，还是在把你推向更窄的认知回音室？

这也是为什么我觉得 2026 年的 AI 竞争，最终会走向“可信的执行力”竞争，而不是单纯的智力炫耀。谁能让 agent 在真实世界里稳定完成任务、可审计、可回滚、可管控，谁才更可能笑到最后。模型只是发动机，真正决定你敢不敢上路的，是刹车、方向盘、安全带和维修手册。

Summary: 这一轮看似平静的更新，反而比“再来一个更大模型”更有信号意义。AI 行业正在从比拼智商，转向比拼执行体系：谁的 agent 更能闭环、谁的工具链更开放、谁的本地和开源生态更扎实，谁就更有机会进入真实生产环境。我的判断是，未来一年“模型能力差距缩小、工程与部署差距拉大”会越来越明显，真正的胜负手不在排行榜，而在谁能让 AI 持续、便宜、可信地把事情做完。

AI AgentClaude CodeAnthropiccomputer use编程助手闭环验证Hermes Agent软件迭代流程AI 工程体系自动化测试