GPT-5.5 发布：OpenAI 把 Codex 推上工作流入口，但还没赢

核心摘要 Summary

OpenAI 发布 GPT-5.5，ChatGPT 和 Codex 先接入，API 因安全措施延后开放。
模型亮点不只是分数，而是长程任务、电脑使用和 intelligence per dollar。
更关键的是 Codex：它正在从代码助手变成能碰浏览器、文档、表格和审查流程的通用工作代理。

OpenAI 发布 GPT-5.5，ChatGPT 和 Codex 率先接入，API 因额外安全措施延后开放。

这次别只盯榜单。Artificial Analysis 将 GPT-5.5 评为顶级或并列顶级模型之一，但它更值得看的指标是 intelligence per dollar：同样预算，能买到多少可用智能。

真正有分量的变化在 Codex。OpenAI 给它加了浏览器控制、Sheets/Slides、Docs/PDFs、系统级听写和 Auto-review guardian agent。Codex 不再只是写代码的副驾驶，它开始往“电脑工作代理”走。

GPT-5.5 强在性价比，不是全维度碾压

GPT-5.5 的叙事很清楚：长程任务、计算机使用、成本效率。OpenAI 想让市场从“模型会不会答题”，转向“模型能不能把活干完”。

但它还没到通吃。原始信息也提醒，coding 维度需要看未被高调强调的部分。换句话说，GPT-5.5 很强，但不能写成所有维度都领先。

对象	关键信息	对读者的现实含义
GPT-5.5	API 价格约 $5/$30 每百万输入/输出 token	适合更多高频任务，但仍要算账
GPT-5.5 Pro	约 $30/$180 每百万输入/输出 token	更偏高难任务，企业采购会更谨慎
Artificial Analysis 对比	GPT-5.5 medium 与 Claude Opus 4.7 max 在部分智能指数上相当，成本约四分之一	Anthropic 高端模型的价格压力上升
Gemini 3.1 Pro Preview	同等分数成本更低，约 $900，低于 GPT-5.5 medium 的约 $1,200	Google 还在价格线上卡位，OpenAI 不是绝对碾压
DeepSeek V4 Preview	MIT 开源、1M context，V4-Pro 约 $1.74/$3.48	开放模型用低价、长上下文和可控性反向施压

AI 产品团队现在该做的不是立刻换模型，而是重跑成本表。把长任务、批量任务、代码任务分开测。GPT-5.5、Gemini、DeepSeek 不该被塞进同一张“谁最聪明”的表里。

开发者工具公司也要调整。以前接一个强模型，再包一层体验，还能讲故事。现在客户会问三件事：稳定吗，便宜吗，能接进权限和审计吗。

采购动作会更保守。API 既然延后开放，企业不会只凭发布会做迁移。更现实的做法是延后大规模切换，先拿 ChatGPT/Codex 里的能力做小范围验证。

Codex 才是 OpenAI 押的入口

Codex 的升级比模型分数更值得盯。

浏览器控制，让它能进入网页应用。Sheets/Slides、Docs/PDFs，让它开始处理办公室核心文件。系统级听写，把交互从聊天框拉回桌面。Auto-review guardian agent，则试图让长任务多一层自动检查。

这已经越过“程序员工具”的边界。它更像一个工作流入口：写代码、看网页、改表格、做文档、生成演示、再自查一遍。

OpenAI 如果要做超级应用，把 Codex 推到前台，比继续把 ChatGPT 聊天框做大更顺。聊天框负责问答，Codex 负责干活。入口价值在后者。

历史上，入口从来不只是技术问题。PC 时代争操作系统，互联网时代争浏览器和搜索框，移动时代争应用商店。今天争的是谁能替用户接管任务链。

“天下熙熙，皆为利来。”放到 AI 行业，就是谁占住任务入口，谁拿走预算、数据和默认信任。这句话不新，但今天换了皮：入口不再只是一个图标，而是一组权限。

问题也卡在这里。企业不会因为 demo 流畅，就让代理随便点浏览器、改表格、提交代码。权限、审计、回滚、责任归属，才是 Codex 的硬门槛。

Auto-review 是正确方向，但别神化。一个 agent 审另一个 agent，不等于安全闭环。guardian agent 自己也要被审计，也会犯错，也会带来新的责任链。

最先被挤压的是工具链中间层

普通用户短期会感到“更好用”。真正先紧张的是两类公司：AI 编程工具、轻量办公代理。

如果 Codex 在一个界面里覆盖代码、网页、文档、表格和审查，单点工具的卖点会变薄。它们不是没机会，但要更具体地证明价值。

能活下来的工具，大概率要靠三件事：更懂垂直流程，更稳的执行结果，更容易过企业安全审查。只说“我也接了强模型”，不够了。

对 AI 编程工具来说，动作应该很直接：把差异化从补全体验，转到仓库理解、测试闭环、代码审查、权限管理。否则 Codex 一旦稳定，很多浅层功能会被吸走。

对办公代理创业公司来说，也别急着喊被终结。OpenAI 做的是通用入口，通用入口经常牺牲细节。真正的机会在行业流程，比如财务、法务、销售运营、内部知识库。但前提是能落到权限和审计，不是只做一个好看的任务演示。

DeepSeek V4 Preview 让这场竞争更难预测。MIT 开源、1M context、低价，给企业多了一个选择：不是所有任务都要交给闭源大厂。

企业很可能拆分任务。高价值、高风险任务用闭源强模型加审计；批量、低风险、可本地化任务用开放模型；桌面入口和协作流程再看 Codex 能不能打穿。

接下来只看三件事。

API 什么时候开放，安全限制会不会影响可用性。
Codex 长任务失败率有多高，失败后能不能解释和回滚。
企业是否愿意把浏览器、文档、表格和代码权限交给它。

榜单热闹几天就会过去。权限授予才是硬仗。OpenAI 这次押对了方向，但超级应用不是发布出来的，是在企业流程里一关一关磨出来的。

GPT-5.5 发布：OpenAI 把 Codex 推上工作流入口，但还没赢

GPT 5.5发布

模型叙事

API延后

价格承压

Codex升级

能力外扩

入口价值

企业门槛

信任成本

自审有限

工具链挤压

编程工具

办公代理

后续变量

任务拆分

权限授予

GPT-5.5 强在性价比，不是全维度碾压

Codex 才是 OpenAI 押的入口

最先被挤压的是工具链中间层