一个安静日子里,AI 编程工具集体往后退了一步。

不是退场,而是从屏幕里的补全、聊天、改代码,退到更底层的位置:上下文、运行时、评测、部署入口。台前还是模型,真正开始抢的,是开发流程的控制权。

OpenAI 把 Codex 往研究、表格、决策跟踪等知识工作扩;VS Code 补语义索引、跨仓搜索和 agent 评测;Cursor 放出 SDK;LangChain 继续把 harness、eval、deploy 做成工程体系。

这几件事分开看都不炸。连起来看,味道很重:AI 编程不再只是“谁更会写代码”,而是“谁能让智能体稳定干活”。

发生了什么:几家公司都在补智能体底座

这一天的更新,主线很清楚。模型能力还重要,但各家都在把能力落到更可控的工作流里。

项目这次变化我会怎么读限制条件
OpenAI Codex扩到研究、表格、决策跟踪等知识工作;给符合条件的 Business/Enterprise 客户提供到 6 月底的 0 美元 Codex-only seatsOpenAI 在测试更宽的工作入口,不只是写代码不是永久免费,也不是面向所有用户;也不能说 Codex 已经变成完整办公平台
Responses APIWebSocket mode 让 agentic workflows 最高快 40%收益来自保持状态、减少重复工具调用,是 agent-loop 系统工程不能简单归因于模型本身变强
VS Code增加语义索引、跨仓搜索、chat session insights、prompt/agent evaluationIDE 在补智能体底座,避免只当模型调用壳落地效果取决于真实项目里的索引、权限和评测质量
Cursor SDK开放 runtime、harness、models,可用于 CI/CD、自动化、产品内嵌 agentsCursor 在释放从 AI IDE 走向可编程智能体基础设施的信号还不能直接说商业模式已经全面转向 usage-based
Agentic Harness EngineeringTerminal-Bench 2 pass@1 从 69.7% 到 77.0%;SWE-bench Verified token 使用减少 12%harness 已经能被优化、度量、迁移这是基准测试收益,真实团队还要看任务类型和集成成本
LangChain Deep Agents引入 Harness Profiles,做模型相关的 harness 调优和部署LangChain 继续押注 agent 工程层价值取决于团队是否真的需要跨模型、跨环境部署

这里最该盯的词不是 AI,也不是 coding。

是 harness。

它听起来像黑话,其实很朴素:模型拿什么上下文,怎么调用工具,怎么保留状态,失败后怎么重试,怎么评测,怎么少烧 token。

以前大家盯“哪个模型更强”。现在越来越多信号说明,同一个模型,外面的脚手架不同,生产表现会差一截。

对开发者来说,这会改变日常工具选择。不是哪个聊天框回答更漂亮,而是谁能理解你的仓库、你的测试、你的分支、你的 CI。

对团队负责人来说,采购节奏也该变。可以先延后大规模锁定某一家 IDE 席位,优先做小范围验证:上下文命中率、跨仓能力、自动测试成功率、token 成本、权限边界。

别急着被演示视频带走。真正贵的不是订阅费,是迁移后的流程依赖。

为什么重要:入口从编辑器移到工作流

Cursor SDK 是一个很好的观察点。

如果 Cursor 只是一个更好用的 AI IDE,它卖的是座席,是编辑器里的体验。SDK 把 runtime、harness、models 暴露出来,性质就变了。

它开始进入 CI/CD、内部自动化、产品内嵌 agents。也就是说,Cursor 不只想待在开发者屏幕里,还想变成别人工作流里的可编程层。

这一步还不能夸大。SDK 不是商业模式改判书,也不是 usage-based 已经全面接管。但它把方向露出来了:AI IDE 厂商不满足于卖编辑器,它们想卖运行时。

VS Code 的动作更像守城。

语义索引、跨仓搜索、会话洞察、prompt/agent evaluation,这些功能不花哨,却很关键。因为 coding agent 真正难的不是补一段函数,而是在一个乱项目里知道三件事:我在哪里,我能改什么,我改完怎么证明没坏。

这就是开发工具权力的迁移。

过去权力在编辑器、插件市场、代码托管。现在开始往上下文、运行时、评测和部署口迁移。

历史上类似的事不少。电力刚进工厂时,人们先盯发电机;真正改变效率的,是电网、标准接口、车间布局和管理制度。今天不完全一样,但结构相似:单点能力很耀眼,系统组织能力才决定产出。

“天下熙熙,皆为利来。”落到 AI 编程,就是谁能把模型调用变成可控工作流,谁就更接近收费入口。

OpenAI 的 Codex-only seats 也可以放进这个框架看。

符合条件的 Business/Enterprise 客户,到 6 月底可以用 0 美元 seat fee 试 Codex-only seats。这不是慈善,也不是价格战结论。它更像降低组织试用门槛,让 Codex 进入企业流程。

一旦进入流程,后面比较的就不只是模型回答质量。还包括权限、审计、上下文隔离、协作记录、工具调用成本。

企业采购者要看的也不是“免费”两个字。要看免费期结束后,座席、用量、集成和迁移成本怎么结算。

我的判断:下一轮胜负看四个变量

我不太买账“模型一强,工具层就没意义”的说法。

模型当然重要。没有足够强的模型,harness 只是漂亮脚手架。但当基础模型能力接近时,差距会转到更脏、更慢、更难展示的地方。

四个变量最关键。

变量该看什么对团队的现实影响
上下文能否稳定理解仓库、跨仓依赖、历史会话和团队约定决定 agent 是帮忙,还是制造返工
工具编排能否少走弯路、少重复调用、保持状态直接影响速度、token 成本和失败率
评测能否对 prompt、agent 行为和结果做可重复验证决定能不能进 CI/CD,而不是停在个人玩具
部署入口能否进入 IDE、CI/CD、自动化和产品内嵌场景决定供应商会不会变成流程锁定点

这也是我更在意 Agentic Harness Engineering 的原因。

Terminal-Bench 2 pass@1 从 69.7% 到 77.0%,SWE-bench Verified token 使用减少 12%。这些数字不该被吹成“智能体问题解决了”,但它们说明一件实在的事:harness 本身已经是可优化对象。

模型榜单告诉你上限。harness 告诉你能不能把上限搬进生产。

接下来最该观察两件事。

第一,WebSocket mode 这类 agent-loop 工程优化,能不能在真实企业任务里持续带来速度和成本收益。最高 40% 很亮,但亮点要落到不同任务、不同工具链、不同权限环境里验证。

第二,Cursor SDK、VS Code agent 底座、OpenAI Codex 这几条线,会不会把开发团队的默认工作流锁进各自生态。谁掌握上下文索引、评测记录和部署接口,谁就不只是工具供应商。

对小团队,我的建议很简单:先别把核心流程全押给一家。可以用,但要保留可迁移性。prompt、评测集、自动化脚本、CI/CD 接口,尽量别做成只能在单一平台里活。

对中大型团队,更要把 agent 当工程系统采购,不要当个人效率工具采购。采购表里应该有权限、审计、上下文隔离、失败回滚、成本上限,而不是只写“支持某某模型”。

模型看着更强,产品可能反而更虚。没有 harness 的 agent,像没有轨道的火车,能轰鸣,难准点。

这一天安静,恰好说明战场下沉了。

下一轮 AI 编程竞争,不在演示视频里谁更惊艳,而在提交、测试、回滚、部署这些脏活里,谁更像基础设施。