Claude Opus 4.7刷屏之后：大模型竞争，正在从“谁更聪明”变成“谁更像一个能干的同事”

人工智能 2026年4月17日

Anthropic 发布 Claude Opus 4.7，看上去像是一场常规模型升级，实际却把 2026 年 AI 竞赛的方向暴露得很清楚：行业已经不再只比参数和榜单，而是比谁更适合长时间做事、写代码、操作电脑，甚至接入真实工作流。与此同时，OpenAI、阿里云通义和 Cloudflare 也在不同层面加码，AI 正从“回答问题的模型”变成“能在系统里持续干活的代理”。

Claude Opus 4.7来了，但重点不只是“更强”

这两天 AI 圈不算热闹，真正能把大家从时间线上拽住的，还是 Anthropic 的 Claude Opus 4.7。按官方说法，这是目前最强的 Opus 版本，强化了长任务执行、指令遵循、自我校验，以及越来越关键的“电脑操作”能力。翻译成人话就是：它不只是更会答题了，而是更像一个愿意坐下来把活干完的高级实习生。

市场最先买账的，还是代码能力。社区整理的分数很抢眼：SWE-bench Pro 达到 64.3%，SWE-bench Verified 来到 87.6%，TerminalBench 也冲到 69.4%。这几个指标对普通用户有点陌生，但对开发者来说，它们非常接近“这模型到底能不能修代码、跑终端、理解项目上下文”的现实问题。尤其是软件工程类评测，如今已经成了大模型最硬的竞技场之一，因为这里只有会聊天远远不够，得真把任务拆开、执行、修正、再继续。

有意思的是，Anthropic 这次没有把价格抬上去，API 定价仍和 Opus 4.6 一样，输入 5 美元、输出 25 美元每百万 token。这个动作看似平静，其实很有火药味：在模型成本和推理资源都不便宜的今天，谁能在“更强”的同时维持价格不变，谁就更容易把升级变成生态迁移。Cursor、VS Code、Replit Agent、Devin、Cline、Perplexity 等工具几乎是同步接入，说明开发者根本没打算慢慢观察，他们要的是“今天发布，今晚就上线”。

一边卷榜单，一边卷工作流：Anthropic和OpenAI走了两条路

如果把这轮更新放到更大的产业坐标系里看，会发现 Anthropic 和 OpenAI 正在做两件不同但互补的事。Anthropic 押注的是模型能力本身，尤其是“长时间干活不掉链子”的能力；OpenAI 则更像在搭一个代理工作的操作台，让 AI 不只会写代码，还能前后左右都插得上手。

OpenAI 这次扩展的是 Codex 的产品边界。它开始支持 Mac 端电脑操作、内置浏览器、图像生成和编辑、90 多个插件、多终端、SSH 远程开发机、持续自动化任务、文件预览和偏好记忆。这个变化特别像什么？像是 OpenAI 终于不满足于给你一个“代码副驾”，而是想把它训练成一个会打开浏览器、翻文档、连远程机器、改配置、顺手把图也做了的“全栈数字助理”。

这和 Anthropic 的方向有明显差别。Claude Opus 4.7 强调的是模型层面的进步，比如更好的指令服从、更高分辨率的图像输入、新 tokenizer、更多 thinking tokens；Codex 强调的是产品层面的包围网。一个像在造更强的大脑，一个像在搭更完整的四肢。谁更重要？老实说，短期内后者可能更容易转化成用户黏性。因为企业不是为榜单买单，而是为“能不能接入我的真实流程”买单。

这也是 2026 年大模型竞争最微妙的转折点。过去大家会争论谁在基准测试上领先 2 个点，今天越来越多企业开始问：它能不能开浏览器？能不能跑终端？能不能记住我上次项目里的习惯？能不能连续工作几个小时不发疯？这类问题没有那么性感，却离商业化最近。

新 tokenizer、长上下文争议与“更听话”带来的副作用

Claude Opus 4.7 这次还有一个技术圈很在意的变化：它用了新 tokenizer。这通常意味着事情没那么简单，不只是一次轻量微调，更像是底座模型或中途训练阶段发生了结构性调整。对外界而言，这释放了一个信号：Anthropic 还在认真打地基，而不是只做表层优化。

图像输入分辨率提升到大约 3.75MP，也不是可有可无的小修小补。对一类越来越火的 AI 产品——电脑代理——这意味着它在看截图、识别复杂界面、理解多个窗口时会更稳。你可以把这理解为，模型终于从“读 PPT”开始走向“读桌面”。对于需要处理网页后台、设计工具、终端窗口和文档协作的代理系统，这种提升很实际。

但争议也跟着来了。部分用户指出，Opus 4.7 在某些长上下文测试上表现反而不如预期，尤其是 MRCR、needle-in-a-haystack 这类“在超长文本里找针”的检索题。Anthropic 内部的回应很直接：他们正在降低对这类实验室风格指标的优先级，转而更看重像 Graphwalks 这样更贴近应用场景的长上下文能力。说白了，他们的态度是：会在几百万字里背诵一句话，不一定等于会在真实任务里工作。

这场争论很有代表性。AI 评测正站在一个尴尬路口：一类 benchmark 很适合做海报，但不一定能预测真实生产力；另一类评测更接近现实，却不够“整齐”，也不容易拿来做营销。行业迟早得面对这个问题——我们到底是在训练模型通过考试，还是训练模型进入职场？

还有一个使用层面的细节也值得玩味：不少人感觉 Claude 4.7 “更字面、更听话”了。听起来像优点，但用多了会发现，过度服从有时会伤害体验。一个真正好用的助手，不是只会机械执行，而是知道什么时候该追问、什么时候该纠正你明显有问题的指令。模型越来越像“员工”之后，人们也会开始用管理同事的标准去要求它：可靠、灵活、会判断，而不是只会点头。

开源阵营和基础设施阵营，也在悄悄改写牌桌

同一时间，阿里的 Qwen3.6-35B-A3B 也吸走了不少注意力。它是 Apache 2.0 许可的开源稀疏 MoE 模型，总参数 350 亿，激活参数 30 亿，主打多模态和思考/非思考双模式。最关键的不是参数数字，而是它证明了一件事：你不一定非要押注那种又大又贵的密集模型，才能获得接近一线的代理编码能力。

从公开成绩看，这个模型在 SWE-bench Verified、Terminal-Bench 2.0 等任务上已经相当能打。更现实的是部署成本：vLLM、Ollama、Unsloth 等工具几乎第一时间跟进，本地运行门槛也被压到相对可接受的范围。这对很多创业团队和个人开发者来说，是非常具体的吸引力。不是每个人都想把命门交给闭源 API，也不是每个人都烧得起大规模云推理。一个足够强、足够开、足够省的模型，往往比一个天花板更高但成本更高的模型更有生命力。

另一边，Cloudflare 也在补 AI 代理真正落地所需的“水电煤”。它发布了 Artifacts，把它描述成面向代理的 Git 兼容版本存储；Email Service 进入公测，让 Workers 可以直接收发邮件；Workers AI 也在往更统一的平台走。听起来不如新模型耀眼，但实际上，这种基础设施才决定了代理能不能在真实世界里长期存活。

过去一年大家讨论 AI agent，常常像在看一台会思考的机器人；现在越来越像在给一支远程团队配 IT 系统：要有存储、权限、通信、版本管理、执行环境，还得能长时间保持状态。没有这些，代理就像一个失忆的聪明人，每次醒来都得重新认识世界。

真正重要的变化：评测开始离开实验室，走进“脏活累活”

这轮消息里我最在意的，反而不是哪家分数高了几点，而是评测思路的变化。像 CRUX、AlphaEval、FrontierSWE 这样的项目，都在努力把 AI 从“做题家测试”拉回真实任务。比如 CRUX 的公开任务，是给代理一个苹果开发者账号和一台 Mac 虚拟机，让它自己把 iOS 应用做出来并发布，成本大约 1000 美元。这个例子听上去甚至有点荒诞，但它比很多 benchmark 都更诚实：现实工作从来不是一张干净的试卷，而是一堆文档、权限、报错、等待、意外和重复劳动。

FrontierSWE 也很有代表性，它关注的是超长时程的软件任务，平均运行时间接近 11 小时。11 小时是什么概念？这已经不是“帮你补一段函数”了，而是开始接近真正的软件工程流程：阅读仓库、定位问题、改动代码、跑测试、修回归、再提交。到了这个阶段，模型能力和产品能力都缺一不可。你得既聪明，又耐心；既会推理，又会记住上下文；既能动脑，也能动手。

这就是为什么我觉得 Claude Opus 4.7 的发布意义不只在于“Anthropic 又赢了一次榜单”。它更像一个信号弹：AI 竞争正从生成质量，转向任务完成率；从单次问答，转向持续执行；从模型本身，转向模型、工具、记忆、存储和工作流的整套系统。

如果说 2023 年是聊天机器人的元年，2024 年是多模态补课的一年，2025 年是 agent 概念满天飞的一年，那么 2026 年很可能会是“代理开始真正上班”的一年。只是到了这一步，新的问题也会更尖锐：当一个模型越来越像同事，我们该如何评估它的可靠性、责任边界和错误成本？它做对一次不难，难的是一周都别搞砸。

这才是接下来最值得盯住的事。不是谁更会说，而是谁真的能把事情做完。

Summary: Claude Opus 4.7 的意义，不在于 Anthropic 又发了一次版本号，而在于它让行业更清楚地看到下一阶段的竞争规则：单纯比“更聪明”已经不够，AI 必须走向“更能干活”。我判断，未来半年大模型公司会进一步分化成两路——一路继续冲击模型上限，一路拼命搭建代理工作台和基础设施。最后胜出的，不一定是最会考试的那个，而是最像一名靠谱同事的那个。

Claude Opus 4.7AnthropicAI代理大模型竞争代码生成长任务执行电脑操作能力SWE-benchOpenAI真实工作流