Claude Opus 4.7刷屏之后:大模型竞争,正在从“谁更聪明”变成“谁更像一个能干的同事”

人工智能 2026年4月17日
Claude Opus 4.7刷屏之后:大模型竞争,正在从“谁更聪明”变成“谁更像一个能干的同事”
Anthropic 发布 Claude Opus 4.7,看上去像是一场常规模型升级,实际却把 2026 年 AI 竞赛的方向暴露得很清楚:行业已经不再只比参数和榜单,而是比谁更适合长时间做事、写代码、操作电脑,甚至接入真实工作流。与此同时,OpenAI、阿里云通义和 Cloudflare 也在不同层面加码,AI 正从“回答问题的模型”变成“能在系统里持续干活的代理”。

Claude Opus 4.7来了,但重点不只是“更强”

这两天 AI 圈不算热闹,真正能把大家从时间线上拽住的,还是 Anthropic 的 Claude Opus 4.7。按官方说法,这是目前最强的 Opus 版本,强化了长任务执行、指令遵循、自我校验,以及越来越关键的“电脑操作”能力。翻译成人话就是:它不只是更会答题了,而是更像一个愿意坐下来把活干完的高级实习生。

市场最先买账的,还是代码能力。社区整理的分数很抢眼:SWE-bench Pro 达到 64.3%,SWE-bench Verified 来到 87.6%,TerminalBench 也冲到 69.4%。这几个指标对普通用户有点陌生,但对开发者来说,它们非常接近“这模型到底能不能修代码、跑终端、理解项目上下文”的现实问题。尤其是软件工程类评测,如今已经成了大模型最硬的竞技场之一,因为这里只有会聊天远远不够,得真把任务拆开、执行、修正、再继续。

有意思的是,Anthropic 这次没有把价格抬上去,API 定价仍和 Opus 4.6 一样,输入 5 美元、输出 25 美元每百万 token。这个动作看似平静,其实很有火药味:在模型成本和推理资源都不便宜的今天,谁能在“更强”的同时维持价格不变,谁就更容易把升级变成生态迁移。Cursor、VS Code、Replit Agent、Devin、Cline、Perplexity 等工具几乎是同步接入,说明开发者根本没打算慢慢观察,他们要的是“今天发布,今晚就上线”。

一边卷榜单,一边卷工作流:Anthropic和OpenAI走了两条路

如果把这轮更新放到更大的产业坐标系里看,会发现 Anthropic 和 OpenAI 正在做两件不同但互补的事。Anthropic 押注的是模型能力本身,尤其是“长时间干活不掉链子”的能力;OpenAI 则更像在搭一个代理工作的操作台,让 AI 不只会写代码,还能前后左右都插得上手。

OpenAI 这次扩展的是 Codex 的产品边界。它开始支持 Mac 端电脑操作、内置浏览器、图像生成和编辑、90 多个插件、多终端、SSH 远程开发机、持续自动化任务、文件预览和偏好记忆。这个变化特别像什么?像是 OpenAI 终于不满足于给你一个“代码副驾”,而是想把它训练成一个会打开浏览器、翻文档、连远程机器、改配置、顺手把图也做了的“全栈数字助理”。

这和 Anthropic 的方向有明显差别。Claude Opus 4.7 强调的是模型层面的进步,比如更好的指令服从、更高分辨率的图像输入、新 tokenizer、更多 thinking tokens;Codex 强调的是产品层面的包围网。一个像在造更强的大脑,一个像在搭更完整的四肢。谁更重要?老实说,短期内后者可能更容易转化成用户黏性。因为企业不是为榜单买单,而是为“能不能接入我的真实流程”买单。

这也是 2026 年大模型竞争最微妙的转折点。过去大家会争论谁在基准测试上领先 2 个点,今天越来越多企业开始问:它能不能开浏览器?能不能跑终端?能不能记住我上次项目里的习惯?能不能连续工作几个小时不发疯?这类问题没有那么性感,却离商业化最近。

新 tokenizer、长上下文争议与“更听话”带来的副作用

Claude Opus 4.7 这次还有一个技术圈很在意的变化:它用了新 tokenizer。这通常意味着事情没那么简单,不只是一次轻量微调,更像是底座模型或中途训练阶段发生了结构性调整。对外界而言,这释放了一个信号:Anthropic 还在认真打地基,而不是只做表层优化。

图像输入分辨率提升到大约 3.75MP,也不是可有可无的小修小补。对一类越来越火的 AI 产品——电脑代理——这意味着它在看截图、识别复杂界面、理解多个窗口时会更稳。你可以把这理解为,模型终于从“读 PPT”开始走向“读桌面”。对于需要处理网页后台、设计工具、终端窗口和文档协作的代理系统,这种提升很实际。

但争议也跟着来了。部分用户指出,Opus 4.7 在某些长上下文测试上表现反而不如预期,尤其是 MRCR、needle-in-a-haystack 这类“在超长文本里找针”的检索题。Anthropic 内部的回应很直接:他们正在降低对这类实验室风格指标的优先级,转而更看重像 Graphwalks 这样更贴近应用场景的长上下文能力。说白了,他们的态度是:会在几百万字里背诵一句话,不一定等于会在真实任务里工作。

这场争论很有代表性。AI 评测正站在一个尴尬路口:一类 benchmark 很适合做海报,但不一定能预测真实生产力;另一类评测更接近现实,却不够“整齐”,也不容易拿来做营销。行业迟早得面对这个问题——我们到底是在训练模型通过考试,还是训练模型进入职场?

还有一个使用层面的细节也值得玩味:不少人感觉 Claude 4.7 “更字面、更听话”了。听起来像优点,但用多了会发现,过度服从有时会伤害体验。一个真正好用的助手,不是只会机械执行,而是知道什么时候该追问、什么时候该纠正你明显有问题的指令。模型越来越像“员工”之后,人们也会开始用管理同事的标准去要求它:可靠、灵活、会判断,而不是只会点头。

开源阵营和基础设施阵营,也在悄悄改写牌桌

同一时间,阿里的 Qwen3.6-35B-A3B 也吸走了不少注意力。它是 Apache 2.0 许可的开源稀疏 MoE 模型,总参数 350 亿,激活参数 30 亿,主打多模态和思考/非思考双模式。最关键的不是参数数字,而是它证明了一件事:你不一定非要押注那种又大又贵的密集模型,才能获得接近一线的代理编码能力。

从公开成绩看,这个模型在 SWE-bench Verified、Terminal-Bench 2.0 等任务上已经相当能打。更现实的是部署成本:vLLM、Ollama、Unsloth 等工具几乎第一时间跟进,本地运行门槛也被压到相对可接受的范围。这对很多创业团队和个人开发者来说,是非常具体的吸引力。不是每个人都想把命门交给闭源 API,也不是每个人都烧得起大规模云推理。一个足够强、足够开、足够省的模型,往往比一个天花板更高但成本更高的模型更有生命力。

另一边,Cloudflare 也在补 AI 代理真正落地所需的“水电煤”。它发布了 Artifacts,把它描述成面向代理的 Git 兼容版本存储;Email Service 进入公测,让 Workers 可以直接收发邮件;Workers AI 也在往更统一的平台走。听起来不如新模型耀眼,但实际上,这种基础设施才决定了代理能不能在真实世界里长期存活。

过去一年大家讨论 AI agent,常常像在看一台会思考的机器人;现在越来越像在给一支远程团队配 IT 系统:要有存储、权限、通信、版本管理、执行环境,还得能长时间保持状态。没有这些,代理就像一个失忆的聪明人,每次醒来都得重新认识世界。

真正重要的变化:评测开始离开实验室,走进“脏活累活”

这轮消息里我最在意的,反而不是哪家分数高了几点,而是评测思路的变化。像 CRUX、AlphaEval、FrontierSWE 这样的项目,都在努力把 AI 从“做题家测试”拉回真实任务。比如 CRUX 的公开任务,是给代理一个苹果开发者账号和一台 Mac 虚拟机,让它自己把 iOS 应用做出来并发布,成本大约 1000 美元。这个例子听上去甚至有点荒诞,但它比很多 benchmark 都更诚实:现实工作从来不是一张干净的试卷,而是一堆文档、权限、报错、等待、意外和重复劳动。

FrontierSWE 也很有代表性,它关注的是超长时程的软件任务,平均运行时间接近 11 小时。11 小时是什么概念?这已经不是“帮你补一段函数”了,而是开始接近真正的软件工程流程:阅读仓库、定位问题、改动代码、跑测试、修回归、再提交。到了这个阶段,模型能力和产品能力都缺一不可。你得既聪明,又耐心;既会推理,又会记住上下文;既能动脑,也能动手。

这就是为什么我觉得 Claude Opus 4.7 的发布意义不只在于“Anthropic 又赢了一次榜单”。它更像一个信号弹:AI 竞争正从生成质量,转向任务完成率;从单次问答,转向持续执行;从模型本身,转向模型、工具、记忆、存储和工作流的整套系统。

如果说 2023 年是聊天机器人的元年,2024 年是多模态补课的一年,2025 年是 agent 概念满天飞的一年,那么 2026 年很可能会是“代理开始真正上班”的一年。只是到了这一步,新的问题也会更尖锐:当一个模型越来越像同事,我们该如何评估它的可靠性、责任边界和错误成本?它做对一次不难,难的是一周都别搞砸。

这才是接下来最值得盯住的事。不是谁更会说,而是谁真的能把事情做完。

Summary: Claude Opus 4.7 的意义,不在于 Anthropic 又发了一次版本号,而在于它让行业更清楚地看到下一阶段的竞争规则:单纯比“更聪明”已经不够,AI 必须走向“更能干活”。我判断,未来半年大模型公司会进一步分化成两路——一路继续冲击模型上限,一路拼命搭建代理工作台和基础设施。最后胜出的,不一定是最会考试的那个,而是最像一名靠谱同事的那个。
Claude Opus 4.7AnthropicAI代理大模型竞争代码生成长任务执行电脑操作能力SWE-benchOpenAI真实工作流