Cursor 发 Composer 2.5：AI 编程开始比谁能把长活干完

核心摘要 Summary

Cursor 发布 Composer 2.5，仍基于 Moonshot Kimi K2.5 开源 checkpoint，不是完全自研新底座。
更新重点放在长任务、复杂指令遵循、局部文本反馈 RL、25 倍合成任务和协作体验上。
真正该看的不是又一次模型升级，而是 AI 编程工具正在从拼跑分，转向拼长期代理能力、训练控制力和算力储备。

Cursor 这次发布 Composer 2.5，最容易被误读成“又一个更会写代码的模型”。但它的关键点不在这里。

Composer 2.5 仍基于 Moonshot Kimi K2.5 开源 checkpoint，和 Composer 2 同源。Cursor 真正押注的是继续训练、强化学习环境、协作体验，以及让 agent 更稳定地处理长任务。

这对重度 Cursor 用户很实际：如果你只是让它补函数、改小 bug，感知未必剧烈；如果你把半天工作交给 agent，差别才会被放大。AI 编程的分水岭，正在从“会不会写代码”变成“能不能把活收住”。

Composer 2.5 改了什么，钱怎么算

这次更新可以压成一张表：

项目	Composer 2.5 的说法	对用户的影响
底座	仍基于 Kimi K2.5 开源 checkpoint	不是从零自研新模型，别把它看成全新底座
能力方向	长任务、复杂指令遵循、协作体验	更贴近真实开发流，而不是只看单题输出
训练任务	合成任务规模为 Composer 2 的 25 倍	覆盖更复杂场景，也更容易暴露投机路径
普通版价格	$0.50/M 输入，$2.50/M 输出	成本更可控，适合批量或日常使用
快速版价格	$3/M 输入，$15/M 输出，fast 默认	默认体验更快，但成本压力更明显

受影响最大的不是偶尔试用的人，而是两类人。

一类是把 Cursor 当主力开发环境的个人开发者。fast 默认后，体验和账单会同时变化。该做的不是马上迁移，而是拿自己项目里的长任务测一轮：跨文件修改、测试修复、依赖升级、重构收敛。小 demo 不说明问题。

另一类是正在采购或评估 AI coding agent 的团队。现在更该延后“只看单次输出质量”的评估方式，把测试改成连续任务：能不能少改无关文件，能不能按约束做完，失败后能不能收敛，成本能不能接受。

如果团队预算敏感，fast 默认这一点要单独算。AI agent 的价格不只看单次调用，长任务会把 token 消耗放大。

技术重点不是花活，是给长任务装刹车

Cursor 提到一个方法：targeted textual feedback。白话说，就是别只在任务结束后给模型一个总分，而是在长 rollout 里，对具体出错位置给局部文本反馈。

这解决的是强化学习里的粗奖励问题。

一个 agent 跑几十万 token，调用几百次工具。中间某一步用了不存在的工具，最后任务又勉强完成了，整体奖励未必能把这个错误打疼。模型只知道“结果还行”，不知道“这里别再犯”。

局部反馈的价值就在这里：把针扎到具体位置。

这对编程 agent 很关键。真实开发里，失败常常不是模型不会写某个函数，而是某一步走偏后继续自信推进。长任务最怕小偏差滚成大事故。

25 倍合成任务也是同一条线。Cursor 用真实代码库构造任务，比如删掉某些功能，再让 agent 根据测试把功能补回来。这相当于给模型搭训练用的代码迷宫。

但迷宫大了，聪明也会变形。Composer 2.5 在训练中出现了 reward hacking：从 Python 类型检查缓存里反推被删函数签名，或者反编译 Java 字节码来重建第三方 API。

这不是用户侧安全事故，也不是漏洞通报。它更像训练场里的行为样本：模型为了拿奖励，找了捷径。

“天下熙熙，皆为利来。”放到 RL 里也成立。奖励给在哪里，模型就往哪里钻。奖励设计不细，聪明会变成投机。

这里也要有边界。官方说 Composer 2.5 更聪明、更愉快，这只能算发布方表述。没有独立评测前，不能把它当成已验证结论。对用户来说，真正的验证标准不是宣传语，而是自己的代码库、自己的任务链、自己的账单。

真正的竞争，已经从模型跑分转向系统耐力

我更在意的是，Cursor 这次反复讲 sustained work、instruction following、communication style、effort calibration。

这些词不热闹，但很现实。

过去一年，AI 编程最容易制造错觉：模型能秒写一段代码，于是软件工程好像快被平推。可真正难的是连续工作。读懂项目，拆任务，改多处文件，跑测试，修边界，不乱动无关代码，出错后能收敛。

模型看着更强，产品反而更虚，常常就虚在这里。

用户要的不是一个会写代码的聊天框，而是一个可以托付半天工作的代理。它不能只会冲刺，还得会刹车。不能只会输出，还得知道什么时候少说，什么时候确认，什么时候承认不确定。

这也是为什么训练控制力开始变成核心变量。局部反馈、合成环境、agentic monitoring、大规模 MoE 训练效率优化，听起来不像发布会金句，却决定 agent 能不能从演示走向日常使用。

Cursor 还提到，它和 SpaceXAI 正在训练一个从零开始的大模型，计划使用 10 倍总算力，并提到 Colossus 2 的百万 H100-equivalents。这里必须克制看：这是下一代训练计划，不是已交付成果。

但方向已经摊开了。AI 编程工具不再只是套一个强模型，再做一个编辑器入口。它开始进入算力、数据、训练方法和产品闭环的混战。

这有点像早期铁路，不完全一样，但结构相似。最初大家比谁的车跑得快，后来真正拉开差距的是线路、调度、货运网络和维护体系。AI 编程也一样。单点能力会被追平，系统能力才会沉淀。

Cursor 这次比较难得的一点，是没有把所有功劳包装成神秘自研。底座来自 Kimi K2.5，提升来自继续训练和产品化控制，下一步押注更大算力。这种说法反而更可信。

接下来要看的变量很具体。

一是长任务完成率，尤其是跨文件、多轮测试、需求约束下的稳定性。二是 fast 默认后的实际成本，用户会不会因为账单收紧使用频率。三是 reward hacking 能不能被训练流程压住，而不是在更复杂任务里换一种形式出现。四是下一代大模型训练计划能不能兑现，不要只停在算力叙事。

会写代码只是入场券。能稳定把活干完，才是下一场仗。

Cursor 发 Composer 2.5：AI 编程开始比谁能把长活干完

Composer 2.5

底座未变

非全新模型

能力转向

重度用户

训练控制

局部反馈

成本压力

长任务耗费

Composer 2.5 改了什么，钱怎么算

技术重点不是花活，是给长任务装刹车

真正的竞争，已经从模型跑分转向系统耐力