OpenAI 在 2026 年 4 月 23 日发布了 GPT-5.5 System Card。官方给出的方向很清楚:这代模型不是单纯提高问答能力,而是面向写代码、联网研究、信息分析、文档和表格处理、跨工具完成任务。
更关键的是它的行为描述。OpenAI 说,GPT-5.5 相比早期模型,更早理解任务,需要更少指导,更有效使用工具,还会检查自己的工作并持续执行直到完成。这已经不是“答得更好”这么简单,而是任务执行能力继续往外放。
我更在意的是 system card 在这里扮演的角色。它当然是安全文件,但也是商业文件。天下熙熙,皆为利来。代理能力一旦开始规模化卖给企业,治理文本就不只是解释风险,也是在证明这东西可以接进真实流程。
GPT-5.5 到底加了什么,GPT-5.5 Pro 又是什么
先把事实压缩清楚。OpenAI 这次强调的不是某个单项 benchmark,而是任务完成方式变了。
| 项目 | 已知信息 | 这意味着什么 |
|---|---|---|
| 面向任务 | 写代码、联网研究、信息分析、文档和表格处理、跨工具完成任务 | 从问答走向工作流执行 |
| 行为变化 | 更早理解任务、需要更少指导 | 人工逐步下指令的需求下降 |
| 工具使用 | 更有效使用工具,会自检并持续执行 | 更像能推进任务的执行层 |
| GPT-5.5 Pro | 与 GPT-5.5 是同一底层模型,差别在并行 test-time compute 设置 | 不是两套底模,但风险面未必完全一致 |
这里有个限制必须写死,不能偷换。GPT-5.5 Pro 不是一个“完全不同的新模型”。按 OpenAI 的说法,它和 GPT-5.5 是同一底层模型,区别在并行 test-time compute 设置。
但同底模,不等于同风险。OpenAI 也明确说了,GPT-5.5 的安全结果通常可以代理 GPT-5.5 Pro;不过在某些风险场景里,Pro 仍要单独评估,因为并行测试时的算力设置可能实质改变风险。这句话很重要。模型名一样,不代表行为边界也一样。
对开发者来说,这会带来很现实的变化。做产品时,重点会从 prompt 技巧继续转向工具编排、权限隔离、失败回滚和审计日志。模型如果更会连续执行,出错也可能更会连续出错。
这份 system card 说明了什么,也没说明什么
OpenAI 说,GPT-5.5 在上线前做了预部署安全评估,走了 Preparedness Framework 流程,还进行了面向高级网络安全与生物能力的定向红队测试,并收集了近 200 个早期访问伙伴的反馈。
这些信息至少说明两件事。
第一,OpenAI 知道风险已经不在“聊天会不会胡说”这一级。真正麻烦的,是模型拿到工具、检索、代码和外部信息后,能不能把高风险能力串起来。单个能力看着都不新,连起来才有压力。
第二,它也在给企业客户一个很明确的信号:这东西不是实验室玩具,而是准备按基础设施来卖。企业采购不会因为“更聪明”就签单,但会因为“做过评估、做过红队、已有伙伴试过”而进入测试或预算阶段。
但边界也很清楚。现有材料只说明 OpenAI 做了评估、测试和反馈收集,不等于网络安全或生物滥用风险已经解决,更不等于默认配置一定足够安全。没有完整数据,就不能把 system card 写成风险清零证明。
历史上很多技术扩张都走过这条路。铁路、电力、互联网,早期都不是先把治理做完再放量,而是边部署边补规则。今天的代理式 AI 也像这条老路,但不完全一样:它扩张的不是线路和设备,而是决策权、工具权和执行权。
真正的分水岭,不在宣传口径,在默认权限和滥用成本
如果你是企业决策者,现在最该问的不是“它比上代强多少分”,而是三件更硬的事:默认能调哪些工具、哪些动作必须人工确认、出了事能不能完整复盘。
这会直接影响采购动作。谨慎的大公司大概率不会立刻全量接入,而是先放进低风险流程,比如资料整理、内部研究、文档生成、表格处理,再看日志、审批和回滚机制够不够用。中小团队反而可能更激进,因为它们人少,最缺的是执行层,但代价是容错空间也更小。
如果你是开发者,接下来该改的也不是文案,而是架构:
- 工具权限默认关到多严
- 哪些步骤必须加人工确认
- 连续执行失败后怎么中断
- 日志是否能追到每一步工具调用
原因不复杂。模型更少依赖人工提示,产品就更依赖治理设计。问题往往不在模型会不会做,而在它被允许做到哪一步。
我对这次发布的判断很明确:这不是一次普通参数升级。它更像代理能力继续外放,而且开始用“可治理、可商用”的语言进入组织流程。OpenAI 想卖的,已经不只是推理结果,而是可以接进工作流的执行能力。
接下来最该观察的变量也不多,但都很硬:
- GPT-5.5 默认开放多少工具权限
- GPT-5.5 Pro 在高风险场景是否有单独护栏
- 企业接入时,人类审批是前置、后置,还是被弱化
- 滥用成本到底是升了,还是只是写得更好看了
如果这些问题没有清楚答案,system card 的作用就更像上线许可文件,而不是强约束文件。纸面治理从来不稀缺,稀缺的是把权限收紧时还能把产品卖出去。
