OpenAI 发布了 GPT-5.5。首批可用范围是 ChatGPT Plus、Pro、Business、Enterprise,以及 Codex 用户;GPT-5.5 Pro 面向 Pro、Business、Enterprise。API 还没全面上线,官方的说法是,这类模型需要不同的安全与服务侧防护。
这次发布的重点,不是把“最聪明”再说一遍。核心卖点是更像执行体:能规划、能调工具、能在更长的任务链里收尾。对开发者、研究人员、分析团队和押注 AI 工作流的企业来说,这比聊天能力更重要。
GPT-5.5 到底发了什么,和 5.4 差在哪
OpenAI 给出的对比对象是 GPT-5.4,重点全在长任务和工具使用上。公开锚点包括:Terminal-Bench 2.0 从 75.1% 提升到 82.7%,Expert-SWE 从 68.5% 提升到 73.1%,GDPval 从 83.0% 提升到 84.9%,OSWorld-Verified 从 75.0% 提升到 78.7%。
官方还强调两点:一是接近 GPT-5.4 的 per-token 延迟;二是在完成同类 Codex 任务时,token 用量更少。前者关系到响应体验,后者关系到企业账单。
| 维度 | GPT-5.5 已知变化 | 最直接影响谁 | 眼下限制 |
|---|---|---|---|
| 代理式编码 | Terminal-Bench 2.0、Expert-SWE 提升 | 软件工程团队、AI 编程工具用户 | 真实仓库里的稳定性还要外部验证 |
| 电脑操作 | OSWorld-Verified 提升 | 自动化办公、Agent 产品团队 | 长链路误操作风险还没被充分证明可控 |
| 知识工作 | GDPval 提升 | 研究、分析、运营、法务支持等团队 | 基准提升不等于流程可直接托付 |
| 速度与成本 | 接近 GPT-5.4 延迟、token 更省 | 企业采购、平台团队 | 真实总成本要等更广泛上线后才能算清 |
| 开放范围 | 先在 ChatGPT 与 Codex 落地 | 现有订阅用户与企业客户 | API 尚未全面开放 |
这张表里,最值钱的信息其实不是“又涨分了”,而是“更省 token、延迟没明显变坏”。企业不会为一张漂亮 benchmark 立刻加预算。它只会看一件事:同一项任务,重试是不是更少,人工兜底是不是更少,交付时间是不是更短。
但这里要压一句冷水。眼下很多论据仍来自 OpenAI 自家评测、早期测试者和企业背书。像 Ramsey 证明、GeneBench、内部投行建模任务这些内容,更适合看成样例,不能当成通用能力保证。样例能说明边界在外扩,说明不了失败率已经低到可放心上生产。
这次真正的变化,是 OpenAI 开始抢工作流
我更在意的,是产品路线的转向。上一轮大模型竞争,主轴还是回答质量:谁更像人,谁分更高,谁上下文更长。GPT-5.5 这次把重心往前推了一步,开始争的是任务链。
这不是小修小补。聊天框里的胜负,决定的是注意力;工作流里的胜负,决定的是谁能吃到预算、权限和组织依赖。古话说“天下熙熙,皆为利来”,放到今天也一样:模型公司最后要争的,不是掌声,是企业每天真的在跑的那几类活。
OpenAI 这次瞄得很准:代码仓库、命令行、表格、文档、浏览器、桌面操作。这些不是展示区,是成本中心。谁能把这些动作接住,谁就更接近下一代软件入口。
这也是为什么 API 没有同步全面铺开。聊天模型接 API,常见问题是答错。执行型模型接 API,问题会升级成误操作、权限越界、长链路失控和审计困难。前者让人尴尬,后者直接让团队回滚流程、补数据、重新复核,账单和责任都更重。
所以我不太把“API 还没全面开”看成慢半拍。更像是 OpenAI 自己也知道,这一步一旦进生产环境,卖点就不能只靠案例和演示了,必须拿出更细的防护和服务能力。
谁会先动,接下来该看什么
最先受影响的,不是普通聊天用户,而是已经把模型接进工作流的人。
第一类是软件工程团队。尤其是已经在用 Cursor、GitHub Copilot、Codex 或 Claude 处理多文件任务的人。对他们来说,关键不是“代码看起来更像样”,而是三件具体小事会不会改善:
- 重构时少走回头路
- 测试、修补、提交前检查能不能少人工盯
- 长上下文任务里,模型丢约束、改坏别处的概率能不能降下去
如果这些点成立,一些团队会做两种动作:统一工具链,或者把更多首轮实现、重构和补测先交给模型。要是做不到,迁移就会延后,大家继续多模型并用,谁便宜用谁。
第二类是高薪知识工作者所在的企业团队。研究、金融分析、法务支持、运营和数据团队最敏感。他们缺的不是会聊天的 AI,而是能处理脏输入、能跨工具跑完流程、还能留下审计痕迹的系统。
这类团队短期内更可能怎么做?不是全量替换人,而是先把模型塞进边缘环节:资料整理、初步分析、文档草拟、报表汇总、流程预填。真正涉及审批、对外发布、合规判断的步骤,仍会压在人身上。原因很简单:一旦第 12 步悄悄做歪,前 11 步省下的时间,最后都要吐回去。
接下来最该盯的,不是新口号,而是四个能落地的变量:
- 外部基准和真实生产环境里,长任务失败率有没有明显下降
- API 上线后,权限控制、审计、回滚机制够不够细
- 所谓更低 token 成本,落到企业总账单上是不是真的更低
- 与 Claude、Gemini 和垂直 Agent 方案相比,谁在完整任务而不是单轮回答上更稳
如果这几项站不住,GPT-5.5 更像一次叙事抬升。要是站住了,它才算把大模型从“会答题”往“能交付”推近了一步。两者差的不是几分 benchmark,差的是企业敢不敢把真活交出去。
