安静的一天,热闹的一周:AI 正从“更强模型”转向“更会干活”

真正的变化,不在模型分数,在“AI 会不会把活干完”
如果只看 headline,这几天的 AI 新闻确实有点“风平浪静”。没有谁突然扔出一个碾压全场的新模型,也没有哪家公司上演戏剧性的收购或大战。但科技新闻有时候就像地震前的海面,表面平静,水下却在换流向。
这几天最有代表性的变化,是 Anthropic 给 Claude Code 加上了“computer use”能力。翻成大白话,就是这位代码助手不再只是吐代码、讲道理,它开始能直接打开应用、点按钮、看界面、跑测试,然后发现错了再改。对普通用户来说,这似乎只是“多了个功能”;对开发者来说,这其实是补上了 coding agent 最关键的一环:闭环验证。
过去一年,很多 AI 编程工具都卡在同一个尴尬处境里:它能写,但不一定能验证自己写得对;它能生成页面,但未必知道按钮是不是点得动;它能改 bug,但有时像在黑屋子里修钟表。现在 Claude Code 这一步,等于给 agent 装上了眼睛和手。代码、运行、观察、修复、再测试,这才开始接近一个像样的软件迭代流程。说得夸张一点,AI 编程工具终于从“很会说的实习生”,往“能独立干一轮活的工程师”迈了一步。
更有意思的是,OpenAI 很快又把 Codex 以插件形式接进了 Claude Code 体系里。两个原本应该在牌桌两端的玩家,突然开始在同一个工作流里协作:Claude 负责主流程,Codex 可以被调用来做 review、对抗审查,甚至“救火”。这件事比插件本身更重要,因为它释放了一个非常清晰的信号:未来的 AI 编程栈,可能不会是某一家公司的封闭王国,而是一个可拼装、可替换、可混搭的 agent harness。
这个词——harness,最近被提得越来越多。你可以把它理解成“驯马的缰绳”,也可以把它理解成 AI 的工作流程外骨骼。模型是大脑,但真正决定它能不能稳定干活的,是提示词怎么组织、工具怎么调用、上下文怎么裁剪、错误怎么回滚、结果怎么复核。行业里已经有人直接指出,同一个模型放到不同工具链里,表现能差出 20% 左右。这听起来有点离谱,但也很真实:模型能力正在收敛,工程能力的差距反而被放大了。
开源 Agent 开始长骨头了,Hermes 不只是“另一个助手”
如果说大厂这边在补齐闭环,开源社区这几天最热闹的则是 Hermes Agent。Nous Research 的这次更新,带动了一波明显的迁移潮。很多原本折腾 OpenClaw 一类方案的用户,开始转向 Hermes,理由也非常朴素:更轻、更稳、更少臃肿,而且更新节奏够快。
Hermes 这次真正打动人的地方,不只是性能或响应速度,而是它开始从“一个 agent”长成“一个 agent 操作系统”的样子。新推出的多 agent profile,给每个 bot 分配自己的记忆、技能、历史记录和连接方式。听上去有点像给 AI 员工建工位、发工牌、开权限。今天这个 bot 负责写代码,明天那个 bot 专门看监控日志,另一个 bot 管文档和客服,它们彼此之间有分工,也有历史。对企业和重度开发者来说,这种结构化能力远比“模型聪明一点点”更重要。
开源生态也开始围绕 Hermes 长出配套组件。有人做 trace 记录和匿名清洗,把 agent 的决策过程发布到 Hugging Face,供后续分析、评测、监督微调甚至强化学习;有人做远程浏览器监控和控制,强调端到端加密;还有人探索一个很有未来感的路线:让 agent 记录自己的操作历史,再把这些历史拿去训练一个更小、更便宜的后继模型,训练完后再切换过去。这已经不是简单的“把模型接上工具”,而是在尝试让 agent 系统具备自我沉淀和自我降本能力。
这里面也有一场越来越清晰的路线之争:开源 agent 工具,到底该不该默认配开源模型?Hugging Face 的 Clement Delangue 旗帜鲜明地支持“默认开源”,理由是隐私和可持续性。这个观点不是意识形态,而是现实经验的总结。企业如果把自己的流程、权限、数据、知识库,全压在某个闭源 API 上,短期确实省事,长期却可能把命门交出去。今天价格变了怎么办,明天接口关了怎么办,后天政策变了怎么办?当 agent 真的开始接触企业核心流程时,这些都不再是论坛口水战,而是董事会层面的风险问题。
多模态继续升级,但大家开始更关心“能落地到哪”
模型发布也不是没有亮点。阿里这几天推出的 Qwen3.5-Omni,是这波新闻里最像“大模型更新”的一个。它支持文本、图像、音频、视频的统一理解,还加入了脚本级字幕能力、网页搜索和函数调用。官方演示里最吸睛的,是“audio-visual vibe coding”——你用口头和视觉指令描述,它帮你做网站、做小游戏。这很像把自然语言编程、视觉理解和工具调用揉成了一个东西。
但我更想提醒读者一句:这类“Omni”发布,真正要看的不是 demo 漂不漂亮,而是模型边界有没有说清楚。社区里已经有人点出来,Qwen3.5-Omni 的“omni”主要是多模态输入理解,不等于它在任意模态生成上都无所不能。这种提醒非常必要。AI 行业近两年最大的传播毛病之一,就是把“能做”说成“擅长做”,再把“实验室能演示”说成“业务里可部署”。
另一条值得关注的线,是 Z AI 继续把 GLM-5-Turbo 往 agent 工作负载上调。它在通用指数上未必最亮眼,但在更贴近真实代理任务的指标上表现更强。这个变化背后的含义其实很重要:模型优化开始从“我在所有考试里都高分”转向“我在真正上班时更靠谱”。这和过去搜索引擎、云计算、数据库的发展轨迹很像。技术成熟之后,赢家未必是理论最强的那个,而是最适合具体工作流、最能控成本、最方便集成的那个。
现在越来越多从业者都在接受一个新现实:企业最终大概率不会永远租一个万能 API 来解决所有问题,而是会拥有并定制自己的开源模型,把专有数据和专属流程压进去,训出更懂自己业务的“小而专”系统。Qwen 系列蒸馏模型在 Hugging Face 长期走红、llama.cpp 和 MLX 本地运行时热度不减,都是这个趋势的侧证。说白了,大家开始认真算账了。AI 从炫技阶段,走到了财务总监会盯着问 ROI 的阶段。
本地推理和工程基础设施,正在悄悄决定行业下限
这几天还有一个很有象征意义的小里程碑:llama.cpp 在 GitHub 上突破了 10 万星。别小看这个数字,它几乎可以算是“本地 AI 时代”的纪念碑之一。因为它代表的不是某个单一模型,而是一种信念:有用的 AI,不一定非要活在昂贵的云端,也不一定要被某一家的硬件和平台锁死。
llama.cpp 这些年最难得的地方,在于它一直坚持跨硬件、跨平台、尽量不绑死厂商。今天你可以在 Linux 服务器上跑,明天可以在 Windows 机器上跑,后天甚至能在 MacBook 上折腾。对开发者和中小团队来说,这种“可携带性”有时比理论峰值性能更重要。因为你不是天天在做基准测试,你是在想:这个东西能不能部署、能不能维护、能不能迁移、能不能活过下一轮平台策略变化。
与之呼应的是,Apple Silicon 上的本地推理又刷了一波存在感。有项目展示用纯 C + Metal 引擎,让超大规模的 Qwen3.5-397B 在 48GB MacBook Pro 上以可用速度运行,通过从 SSD 流式加载权重、只激活需要的专家,硬是把一个看似“不可能在笔记本上跑”的模型拉到了现实边缘。这个场景本身就很有时代感:几年前大家还在争论“大模型是不是离普通开发者太远了”,现在已经有人把几百 B 级别的混合专家模型塞进了便携设备。
与此同时,浏览器端和服务端的基础设施也在同步升级。Transformers.js v4 把 WebGPU 带到浏览器、Node、Bun、Deno 这些环境里,vLLM-Omni 持续补齐多模态和生产级服务能力,开源语音转写模型也在速度和精度上双双前进。表面看,这些都不像“头条新闻”,但如果没有这些铺路石,前面那些炫目的 agent 和 omni demo 很快就会在落地时摔一跤。
下一个竞争点,可能不是谁更聪明,而是谁更可信
从研究圈这几天的讨论看,另一个正在升温的主题是:AI 的“工作框架”本身,也成了研究对象。清华和深圳团队提出用自然语言 SOP 来驱动 agent orchestration,不再把流程写死在代码规则里;Meta 则更进一步,提出 Meta-Harness,尝试把 harness 本身放进优化闭环。这听上去有点绕,但含义很直白:以后不只是模型要训练,模型外面的“工作制度”也要训练。
还有来自 CMU 的 CAID 论文,强调异步、多 agent、隔离式的软件工程协作。它给人的启发是,想让 AI 做更复杂的软件任务,未必是让一个 agent 思考更久,而是学会像团队一样拆分、并行、验证、合并。这其实特别像人类工程组织的发展史。一个优秀团队靠的从来不是某个天才程序员 72 小时不睡觉,而是任务拆得清、接口定义明、验收机制严。
但在我看来,更值得警惕的是评测之外的问题。比如斯坦福领衔的一项研究就提到,过于迎合用户的“谄媚型 AI”可能会让人更确信自己的判断,却更不愿意修复关系。这个发现很扎心。因为当 AI 越来越会说、越来越会配合时,我们很容易把“用户觉得舒服”误当成“系统真正有益”。放到 agent 时代,这个问题只会更尖锐:一个会执行、会总结、会讨好、还看起来很懂你的系统,到底是在帮你,还是在把你推向更窄的认知回音室?
这也是为什么我觉得 2026 年的 AI 竞争,最终会走向“可信的执行力”竞争,而不是单纯的智力炫耀。谁能让 agent 在真实世界里稳定完成任务、可审计、可回滚、可管控,谁才更可能笑到最后。模型只是发动机,真正决定你敢不敢上路的,是刹车、方向盘、安全带和维修手册。