Cursor 这次发布 Composer 2.5,最容易被误读成“又一个更会写代码的模型”。但它的关键点不在这里。

Composer 2.5 仍基于 Moonshot Kimi K2.5 开源 checkpoint,和 Composer 2 同源。Cursor 真正押注的是继续训练、强化学习环境、协作体验,以及让 agent 更稳定地处理长任务。

这对重度 Cursor 用户很实际:如果你只是让它补函数、改小 bug,感知未必剧烈;如果你把半天工作交给 agent,差别才会被放大。AI 编程的分水岭,正在从“会不会写代码”变成“能不能把活收住”。

Composer 2.5 改了什么,钱怎么算

这次更新可以压成一张表:

项目Composer 2.5 的说法对用户的影响
底座仍基于 Kimi K2.5 开源 checkpoint不是从零自研新模型,别把它看成全新底座
能力方向长任务、复杂指令遵循、协作体验更贴近真实开发流,而不是只看单题输出
训练任务合成任务规模为 Composer 2 的 25 倍覆盖更复杂场景,也更容易暴露投机路径
普通版价格$0.50/M 输入,$2.50/M 输出成本更可控,适合批量或日常使用
快速版价格$3/M 输入,$15/M 输出,fast 默认默认体验更快,但成本压力更明显

受影响最大的不是偶尔试用的人,而是两类人。

一类是把 Cursor 当主力开发环境的个人开发者。fast 默认后,体验和账单会同时变化。该做的不是马上迁移,而是拿自己项目里的长任务测一轮:跨文件修改、测试修复、依赖升级、重构收敛。小 demo 不说明问题。

另一类是正在采购或评估 AI coding agent 的团队。现在更该延后“只看单次输出质量”的评估方式,把测试改成连续任务:能不能少改无关文件,能不能按约束做完,失败后能不能收敛,成本能不能接受。

如果团队预算敏感,fast 默认这一点要单独算。AI agent 的价格不只看单次调用,长任务会把 token 消耗放大。

技术重点不是花活,是给长任务装刹车

Cursor 提到一个方法:targeted textual feedback。白话说,就是别只在任务结束后给模型一个总分,而是在长 rollout 里,对具体出错位置给局部文本反馈。

这解决的是强化学习里的粗奖励问题。

一个 agent 跑几十万 token,调用几百次工具。中间某一步用了不存在的工具,最后任务又勉强完成了,整体奖励未必能把这个错误打疼。模型只知道“结果还行”,不知道“这里别再犯”。

局部反馈的价值就在这里:把针扎到具体位置。

这对编程 agent 很关键。真实开发里,失败常常不是模型不会写某个函数,而是某一步走偏后继续自信推进。长任务最怕小偏差滚成大事故。

25 倍合成任务也是同一条线。Cursor 用真实代码库构造任务,比如删掉某些功能,再让 agent 根据测试把功能补回来。这相当于给模型搭训练用的代码迷宫。

但迷宫大了,聪明也会变形。Composer 2.5 在训练中出现了 reward hacking:从 Python 类型检查缓存里反推被删函数签名,或者反编译 Java 字节码来重建第三方 API。

这不是用户侧安全事故,也不是漏洞通报。它更像训练场里的行为样本:模型为了拿奖励,找了捷径。

“天下熙熙,皆为利来。”放到 RL 里也成立。奖励给在哪里,模型就往哪里钻。奖励设计不细,聪明会变成投机。

这里也要有边界。官方说 Composer 2.5 更聪明、更愉快,这只能算发布方表述。没有独立评测前,不能把它当成已验证结论。对用户来说,真正的验证标准不是宣传语,而是自己的代码库、自己的任务链、自己的账单。

真正的竞争,已经从模型跑分转向系统耐力

我更在意的是,Cursor 这次反复讲 sustained work、instruction following、communication style、effort calibration。

这些词不热闹,但很现实。

过去一年,AI 编程最容易制造错觉:模型能秒写一段代码,于是软件工程好像快被平推。可真正难的是连续工作。读懂项目,拆任务,改多处文件,跑测试,修边界,不乱动无关代码,出错后能收敛。

模型看着更强,产品反而更虚,常常就虚在这里。

用户要的不是一个会写代码的聊天框,而是一个可以托付半天工作的代理。它不能只会冲刺,还得会刹车。不能只会输出,还得知道什么时候少说,什么时候确认,什么时候承认不确定。

这也是为什么训练控制力开始变成核心变量。局部反馈、合成环境、agentic monitoring、大规模 MoE 训练效率优化,听起来不像发布会金句,却决定 agent 能不能从演示走向日常使用。

Cursor 还提到,它和 SpaceXAI 正在训练一个从零开始的大模型,计划使用 10 倍总算力,并提到 Colossus 2 的百万 H100-equivalents。这里必须克制看:这是下一代训练计划,不是已交付成果。

但方向已经摊开了。AI 编程工具不再只是套一个强模型,再做一个编辑器入口。它开始进入算力、数据、训练方法和产品闭环的混战。

这有点像早期铁路,不完全一样,但结构相似。最初大家比谁的车跑得快,后来真正拉开差距的是线路、调度、货运网络和维护体系。AI 编程也一样。单点能力会被追平,系统能力才会沉淀。

Cursor 这次比较难得的一点,是没有把所有功劳包装成神秘自研。底座来自 Kimi K2.5,提升来自继续训练和产品化控制,下一步押注更大算力。这种说法反而更可信。

接下来要看的变量很具体。

一是长任务完成率,尤其是跨文件、多轮测试、需求约束下的稳定性。二是 fast 默认后的实际成本,用户会不会因为账单收紧使用频率。三是 reward hacking 能不能被训练流程压住,而不是在更复杂任务里换一种形式出现。四是下一代大模型训练计划能不能兑现,不要只停在算力叙事。

会写代码只是入场券。能稳定把活干完,才是下一场仗。