OpenAI 推出 GPT-5.5：API 延后，真正赌注是智能体能不能交活

核心摘要 Summary

OpenAI 发布 GPT-5.5，已进入 ChatGPT 和 Codex，面向 Plus、Pro、Business、Enterprise 用户开放；API 因更高安全要求延后。
价格约为 GPT-5.4 两倍，但 token 使用下降可能抵消部分涨幅，企业该算任务成本，不该只盯 token 单价。
关键变量不是跑分，而是它能否在编程、浏览器、文档和长任务里少返工、少幻觉、少越权。

OpenAI 发布 GPT-5.5，定位是面向“真实工作”和智能体的新旗舰模型。它已经进入 ChatGPT 与 Codex，覆盖 Plus、Pro、Business、Enterprise 用户；API 没有同步开放，官方理由是还要满足更高安全要求。

这次升级最该看的不是榜单名次。GPT-5.5 的问题很直接：它能不能少让人盯着，自己把代码、浏览器、文档、表格和多步骤任务跑完。模型从“会回答”走向“能干活”，中间隔着三件事：成本、权限、责任。

GPT-5.5 先上产品，API 还在门外

价格先摆出来。GPT-5.5 每百万 token 输入 5 美元、输出 30 美元；GPT-5.5 Pro 是 30/180 美元。按 token 标价看，大约是 GPT-5.4 的两倍。

但直接喊“成本翻倍”太粗。OpenAI 强调 GPT-5.5 更省 token，第三方测试也称，相比 GPT-5.4，token 使用约下降 40%。在这类测试口径下，净成本涨幅可能低于标价涨幅。

企业真正要算的是“完成一个任务多少钱”。不是菜单价好不好看。

变量	GPT-5.5 当前情况	对用户的含义
可用范围	ChatGPT、Codex 先上线	订阅用户先试，开发者 API 还要等
覆盖用户	Plus、Pro、Business、Enterprise	个人高频用户和企业用户先被推到前台
价格	GPT-5.5 为 5/30 美元；Pro 为 30/180 美元	单价约翻倍，但任务成本要看 token 效率
API	延后开放	更强自主能力暂时没有全面放进开放接口
Codex	浏览器控制、文档/PDF、表格幻灯片、OS 级听写、自动 review	从代码助手，继续往工作流执行器走

API 延后不是小注脚。开放 API 意味着开发者能把 GPT-5.5 接进更多系统，权限边界更复杂，事故责任也更难切分。

工具越像员工，治理就越像用人。古话说“利器不可示人”，放到今天，就是强模型不能无门槛外放。尤其当它能操作浏览器、处理文件、跑长任务时，安全审查不再只是合规姿态。

关键不在跑分，在长任务能不能少返工

GPT-5.5 在一些基准上有亮眼表现，包括 Terminal-Bench 2.0、OSWorld-Verified、SWE-Bench Pro、ARC-AGI 等。早期反馈也偏正面，尤其集中在编程、长任务、工具调用和多步骤执行。

限制也很清楚。部分基准只是增量提升，不能直接推成“可靠自主工作”。早期用户报告只能当方向性证据，不能当生产力定论。

更硬的约束是幻觉。第三方材料提到，GPT-5.5 在 AA-Omniscience 测试中准确率为 57%，但幻觉率高达 86%。这类数字不适合拿来做营销横幅，适合贴在企业采购清单最上面。

我更在意 Codex 的变化。浏览器控制、文档/PDF、表格和幻灯片、OS 级听写、自动 review，这些功能指向同一件事：OpenAI 想把模型嵌进白领工作链条。

以前 AI 更像一个聪明实习生。问一句，答一句。现在它开始像半个执行经理：拿到目标，调工具，查资料，改代码，交结果。

问题也在这里。执行经理出错，代价比聊天机器人胡说一句大得多。它可能改错代码、误读文档、误点网页、在长任务里把早期错误滚成后期事故。

所以，GPT-5.5 的核心不是“更会说”。是能不能在无人盯守时少犯错。这里没有玄学，只有返工率、审查成本、权限边界和事故责任。

工程团队和采购该怎么做

受影响最直接的是两类人：AI 产品团队和工程团队。

AI 产品团队不要急着全量迁移。更稳的做法是挑 3 到 5 个高价值、可验收的长任务做 A/B：同一任务，用 GPT-5.4、GPT-5.5 和人工流程对比。看四个数：完成率、人工接管次数、输出 token、返工时间。

如果 GPT-5.5 能减少中断、提示词修补和人工盯梢，贵一点可能合理。若幻觉和工具误操作仍高，账单会变厚，责任也会变重。

工程团队也别把 Codex 当“更强补全”。它正在逼近工作流工具。自动 review、浏览器测试、长时间重构，会改变代码生产分工。

资深工程师短期内更像小组负责人：拆任务、设边界、验结果、管风险。初级岗位压力更大，因为“执行明确任务”这块最容易被智能体吃掉。

采购侧该延后大规模承诺。可以先买小范围席位，限定任务类型，给模型明确权限。不要一上来把代码库、文档库、内部工具全交出去。

横向看，Anthropic、Google 的模型仍会在部分任务上领先或接近。OpenAI 这次更强的地方，是把模型、Codex、ChatGPT 订阅和企业入口绑得更紧。

这有点像 PC 时代的微软：真正的护城河不只是系统能力，而是工作流入口。不完全一样，但权力结构相似。谁掌握任务流、文件流和工具权限，谁就更有定价底气。天下熙熙，皆为利来；AI 时代的“利”，藏在默认工作台里。

接下来只看三件事。

API 何时开放，开放时安全限制有多重。
企业真实任务成本是否只小幅上涨，而不是跟着标价翻倍。
长任务里的幻觉、误操作和越权风险能否压下来。

跑分榜热闹，采购单冷静。真钱只认稳定交付。

OpenAI 推出 GPT-5.5：API 延后，真正赌注是智能体能不能交活

GPT 5.5

产品先行

API 延后

订阅优先

价格承压

Token 下降

任务成本

可靠性核心

长任务

幻觉风险

工作流变化

工程分工

采购克制

后续变量

GPT-5.5 先上产品，API 还在门外

关键不在跑分，在长任务能不能少返工

工程团队和采购该怎么做