OpenAI 发布 GPT-5.5,定位是面向“真实工作”和智能体的新旗舰模型。它已经进入 ChatGPT 与 Codex,覆盖 Plus、Pro、Business、Enterprise 用户;API 没有同步开放,官方理由是还要满足更高安全要求。

这次升级最该看的不是榜单名次。GPT-5.5 的问题很直接:它能不能少让人盯着,自己把代码、浏览器、文档、表格和多步骤任务跑完。模型从“会回答”走向“能干活”,中间隔着三件事:成本、权限、责任。

GPT-5.5 先上产品,API 还在门外

价格先摆出来。GPT-5.5 每百万 token 输入 5 美元、输出 30 美元;GPT-5.5 Pro 是 30/180 美元。按 token 标价看,大约是 GPT-5.4 的两倍。

但直接喊“成本翻倍”太粗。OpenAI 强调 GPT-5.5 更省 token,第三方测试也称,相比 GPT-5.4,token 使用约下降 40%。在这类测试口径下,净成本涨幅可能低于标价涨幅。

企业真正要算的是“完成一个任务多少钱”。不是菜单价好不好看。

变量GPT-5.5 当前情况对用户的含义
可用范围ChatGPT、Codex 先上线订阅用户先试,开发者 API 还要等
覆盖用户Plus、Pro、Business、Enterprise个人高频用户和企业用户先被推到前台
价格GPT-5.5 为 5/30 美元;Pro 为 30/180 美元单价约翻倍,但任务成本要看 token 效率
API延后开放更强自主能力暂时没有全面放进开放接口
Codex浏览器控制、文档/PDF、表格幻灯片、OS 级听写、自动 review从代码助手,继续往工作流执行器走

API 延后不是小注脚。开放 API 意味着开发者能把 GPT-5.5 接进更多系统,权限边界更复杂,事故责任也更难切分。

工具越像员工,治理就越像用人。古话说“利器不可示人”,放到今天,就是强模型不能无门槛外放。尤其当它能操作浏览器、处理文件、跑长任务时,安全审查不再只是合规姿态。

关键不在跑分,在长任务能不能少返工

GPT-5.5 在一些基准上有亮眼表现,包括 Terminal-Bench 2.0、OSWorld-Verified、SWE-Bench Pro、ARC-AGI 等。早期反馈也偏正面,尤其集中在编程、长任务、工具调用和多步骤执行。

限制也很清楚。部分基准只是增量提升,不能直接推成“可靠自主工作”。早期用户报告只能当方向性证据,不能当生产力定论。

更硬的约束是幻觉。第三方材料提到,GPT-5.5 在 AA-Omniscience 测试中准确率为 57%,但幻觉率高达 86%。这类数字不适合拿来做营销横幅,适合贴在企业采购清单最上面。

我更在意 Codex 的变化。浏览器控制、文档/PDF、表格和幻灯片、OS 级听写、自动 review,这些功能指向同一件事:OpenAI 想把模型嵌进白领工作链条。

以前 AI 更像一个聪明实习生。问一句,答一句。现在它开始像半个执行经理:拿到目标,调工具,查资料,改代码,交结果。

问题也在这里。执行经理出错,代价比聊天机器人胡说一句大得多。它可能改错代码、误读文档、误点网页、在长任务里把早期错误滚成后期事故。

所以,GPT-5.5 的核心不是“更会说”。是能不能在无人盯守时少犯错。这里没有玄学,只有返工率、审查成本、权限边界和事故责任。

工程团队和采购该怎么做

受影响最直接的是两类人:AI 产品团队和工程团队。

AI 产品团队不要急着全量迁移。更稳的做法是挑 3 到 5 个高价值、可验收的长任务做 A/B:同一任务,用 GPT-5.4、GPT-5.5 和人工流程对比。看四个数:完成率、人工接管次数、输出 token、返工时间。

如果 GPT-5.5 能减少中断、提示词修补和人工盯梢,贵一点可能合理。若幻觉和工具误操作仍高,账单会变厚,责任也会变重。

工程团队也别把 Codex 当“更强补全”。它正在逼近工作流工具。自动 review、浏览器测试、长时间重构,会改变代码生产分工。

资深工程师短期内更像小组负责人:拆任务、设边界、验结果、管风险。初级岗位压力更大,因为“执行明确任务”这块最容易被智能体吃掉。

采购侧该延后大规模承诺。可以先买小范围席位,限定任务类型,给模型明确权限。不要一上来把代码库、文档库、内部工具全交出去。

横向看,Anthropic、Google 的模型仍会在部分任务上领先或接近。OpenAI 这次更强的地方,是把模型、Codex、ChatGPT 订阅和企业入口绑得更紧。

这有点像 PC 时代的微软:真正的护城河不只是系统能力,而是工作流入口。不完全一样,但权力结构相似。谁掌握任务流、文件流和工具权限,谁就更有定价底气。天下熙熙,皆为利来;AI 时代的“利”,藏在默认工作台里。

接下来只看三件事。

  • API 何时开放,开放时安全限制有多重。
  • 企业真实任务成本是否只小幅上涨,而不是跟着标价翻倍。
  • 长任务里的幻觉、误操作和越权风险能否压下来。

跑分榜热闹,采购单冷静。真钱只认稳定交付。