OpenAI 发布 GPT-5.5,ChatGPT 和 Codex 率先接入,API 因额外安全措施延后开放。
这次别只盯榜单。Artificial Analysis 将 GPT-5.5 评为顶级或并列顶级模型之一,但它更值得看的指标是 intelligence per dollar:同样预算,能买到多少可用智能。
真正有分量的变化在 Codex。OpenAI 给它加了浏览器控制、Sheets/Slides、Docs/PDFs、系统级听写和 Auto-review guardian agent。Codex 不再只是写代码的副驾驶,它开始往“电脑工作代理”走。
GPT-5.5 强在性价比,不是全维度碾压
GPT-5.5 的叙事很清楚:长程任务、计算机使用、成本效率。OpenAI 想让市场从“模型会不会答题”,转向“模型能不能把活干完”。
但它还没到通吃。原始信息也提醒,coding 维度需要看未被高调强调的部分。换句话说,GPT-5.5 很强,但不能写成所有维度都领先。
| 对象 | 关键信息 | 对读者的现实含义 |
|---|---|---|
| GPT-5.5 | API 价格约 $5/$30 每百万输入/输出 token | 适合更多高频任务,但仍要算账 |
| GPT-5.5 Pro | 约 $30/$180 每百万输入/输出 token | 更偏高难任务,企业采购会更谨慎 |
| Artificial Analysis 对比 | GPT-5.5 medium 与 Claude Opus 4.7 max 在部分智能指数上相当,成本约四分之一 | Anthropic 高端模型的价格压力上升 |
| Gemini 3.1 Pro Preview | 同等分数成本更低,约 $900,低于 GPT-5.5 medium 的约 $1,200 | Google 还在价格线上卡位,OpenAI 不是绝对碾压 |
| DeepSeek V4 Preview | MIT 开源、1M context,V4-Pro 约 $1.74/$3.48 | 开放模型用低价、长上下文和可控性反向施压 |
AI 产品团队现在该做的不是立刻换模型,而是重跑成本表。把长任务、批量任务、代码任务分开测。GPT-5.5、Gemini、DeepSeek 不该被塞进同一张“谁最聪明”的表里。
开发者工具公司也要调整。以前接一个强模型,再包一层体验,还能讲故事。现在客户会问三件事:稳定吗,便宜吗,能接进权限和审计吗。
采购动作会更保守。API 既然延后开放,企业不会只凭发布会做迁移。更现实的做法是延后大规模切换,先拿 ChatGPT/Codex 里的能力做小范围验证。
Codex 才是 OpenAI 押的入口
Codex 的升级比模型分数更值得盯。
浏览器控制,让它能进入网页应用。Sheets/Slides、Docs/PDFs,让它开始处理办公室核心文件。系统级听写,把交互从聊天框拉回桌面。Auto-review guardian agent,则试图让长任务多一层自动检查。
这已经越过“程序员工具”的边界。它更像一个工作流入口:写代码、看网页、改表格、做文档、生成演示、再自查一遍。
OpenAI 如果要做超级应用,把 Codex 推到前台,比继续把 ChatGPT 聊天框做大更顺。聊天框负责问答,Codex 负责干活。入口价值在后者。
历史上,入口从来不只是技术问题。PC 时代争操作系统,互联网时代争浏览器和搜索框,移动时代争应用商店。今天争的是谁能替用户接管任务链。
“天下熙熙,皆为利来。”放到 AI 行业,就是谁占住任务入口,谁拿走预算、数据和默认信任。这句话不新,但今天换了皮:入口不再只是一个图标,而是一组权限。
问题也卡在这里。企业不会因为 demo 流畅,就让代理随便点浏览器、改表格、提交代码。权限、审计、回滚、责任归属,才是 Codex 的硬门槛。
Auto-review 是正确方向,但别神化。一个 agent 审另一个 agent,不等于安全闭环。guardian agent 自己也要被审计,也会犯错,也会带来新的责任链。
最先被挤压的是工具链中间层
普通用户短期会感到“更好用”。真正先紧张的是两类公司:AI 编程工具、轻量办公代理。
如果 Codex 在一个界面里覆盖代码、网页、文档、表格和审查,单点工具的卖点会变薄。它们不是没机会,但要更具体地证明价值。
能活下来的工具,大概率要靠三件事:更懂垂直流程,更稳的执行结果,更容易过企业安全审查。只说“我也接了强模型”,不够了。
对 AI 编程工具来说,动作应该很直接:把差异化从补全体验,转到仓库理解、测试闭环、代码审查、权限管理。否则 Codex 一旦稳定,很多浅层功能会被吸走。
对办公代理创业公司来说,也别急着喊被终结。OpenAI 做的是通用入口,通用入口经常牺牲细节。真正的机会在行业流程,比如财务、法务、销售运营、内部知识库。但前提是能落到权限和审计,不是只做一个好看的任务演示。
DeepSeek V4 Preview 让这场竞争更难预测。MIT 开源、1M context、低价,给企业多了一个选择:不是所有任务都要交给闭源大厂。
企业很可能拆分任务。高价值、高风险任务用闭源强模型加审计;批量、低风险、可本地化任务用开放模型;桌面入口和协作流程再看 Codex 能不能打穿。
接下来只看三件事。
- API 什么时候开放,安全限制会不会影响可用性。
- Codex 长任务失败率有多高,失败后能不能解释和回滚。
- 企业是否愿意把浏览器、文档、表格和代码权限交给它。
榜单热闹几天就会过去。权限授予才是硬仗。OpenAI 这次押对了方向,但超级应用不是发布出来的,是在企业流程里一关一关磨出来的。
