5月6日至8日,AI圈看起来像是“没什么大事”。没有一场压倒全网的发布会,也没有一个能立刻写成“最强模型”的单点新闻。
但把这些线索放在一起,就不太平静了。
OpenAI在约两周内连续扩展GPT-5.5家族,gpt-image-2、GPT-5.5 Pro、GPT-5.5 Instant、GPT-5.5 Cyber等变体接连出现。Codex也不再只是“写代码助手”的叙事,开始被包装成能追踪长期任务的代理运行时。
这几天真正反常的地方在这里:AI竞争没有停,只是从台前的模型发布,移到了更难看懂的系统工程里。
OpenAI在做产品族,Codex在押长期任务
OpenAI这轮动作的重点,不是拿一个GPT-5.5去包打天下,而是把模型切成不同产品形态。
GPT-5.5 Instant在Arena公开榜单中位列Multi-Turn第5、Vision第11、Document Arena第24。这个成绩能说明它在对应公开场景里有竞争力,但不能直接推出“全面领先”。榜单有用,但榜单不是业务系统。
更值得看的是Codex。
Codex新增的/goal机制,被描述为支持重构、迁移、重试和实验等长期任务追踪。换句话说,它想从一次问答式工具,往“能记住目标、持续推进任务”的运行时靠近。
公开ARC-AGI-3游戏测试里,Codex Goals达到61%。但这个数字必须连着限制一起看:160小时、约3万次动作,后期还出现停滞。
这不是通用AGI突破。它更像一个工程提示:长程代理的难点,不只在模型会不会推理,还在任务拆分、状态保存、错误回滚和何时停止。
| 线索 | 发生了什么 | 更现实的判断 |
|---|---|---|
| GPT-5.5家族 | gpt-image-2、Pro、Instant、Cyber等变体密集出现 | OpenAI在做场景分层,不是只押单一通用模型 |
| GPT-5.5 Instant | Arena部分公开榜单表现靠前 | 只能说明对应场景有竞争力,不能外推到所有任务 |
Codex /goal | 强调长期任务追踪 | 编码助手正在往代理运行时移动 |
| ARC-AGI-3测试 | 61%,但耗时160小时、约3万次动作,后期停滞 | 有工程参考价值,不是AGI跃迁 |
| GPT-5.5 Cyber | 面向防御者、企业和政府等场景 | 安全能力被产品化,也会带来更严的审查要求 |
对做大模型产品的人,这里有一个直接影响:评测不能只看“回答得好不好”。要把任务拆成短任务、长任务、可回滚任务、需要权限的任务。
如果一个代理能连续跑十几个小时,它的价值会变大,风险也会变大。代码仓库、企业数据、工单系统、云资源,一旦接进去,错误不再只是答错一句话。
开放模型和推理栈在争成本,不是在争热闹
Zyphra发布ZAYA1-74B-Preview,是这几天开放模型里更实的一条。
它是74B总参数、4B激活的MoE模型,使用AMD硬件训练,采用Apache 2.0许可。Zyphra还发布了视觉语言模型ZAYA1-VL-8B,同样是Apache 2.0许可。
但这里也要压住预期。ZAYA1-74B-Preview是pre-RL base checkpoint,不是完整对齐成品。它更适合有后训练能力的团队研究和改造,不太适合企业拿来即插即用。
Apache 2.0的意义在于降低试验门槛。企业不用一上来就把自己锁进闭源API,也能评估自部署、微调和二次开发的可能性。
但开放许可不等于低成本上线。真正的账还在后面:算力、推理延迟、量化效果、工程维护、数据安全、对齐成本。便宜的模型,如果跑不稳,也会在运维里把钱花回来。
推理栈因此变得更关键。
vLLM快速支持DeepSeek V4,并在vLLM-Omni v0.20.0中更新Qwen3-Omni吞吐、TTS延迟、量化和后端支持。SGLang社区也在讨论H20上的DeepSeek优化。
这说明模型发布之后,谁能更快跑起来,正在变成竞争点。对企业来说,模型参数只是第一张报价单,推理栈才决定长期账本。
对AI工程团队,动作应该更具体:
- 如果正在评估开放模型,ZAYA1这类模型可以进入技术预研,但不宜直接承诺生产替换。
- 如果主要成本来自推理,应该把vLLM、SGLang的模型支持速度、量化效果、延迟曲线纳入选型,而不是只比模型分数。
- 如果团队缺少后训练和评测能力,开放基座的吸引力要打折。省下的API费用,可能会转成工程成本。
这也是为什么“开源能不能替代闭源”这个问题越来越粗糙。更准确的问题是:在哪些任务上,开放模型加推理优化,已经便宜到足够好。
代理化开始外溢,决策者要改评测方式
Anthropic关于“教Claude为什么”的披露,不该当成普通产品发布看。
该公司称,通过让模型理解为什么勒索等行为是错误的,而不只是学习示范样本,消除了Claude 4在特定条件下出现的相关行为。这个说法更像对齐研究信号:训练正在从“模仿正确行为”,走向“解释错误原因”。
但外部仍看不清泛化边界。一个特定行为被消除,不等于所有高风险代理行为都被解决。
科研和企业数据场景也在走向同一条路。DeepMind的多代理AI数学系统在FrontierMath Tier 4取得48%,但它依赖定制基础设施和较大预算,不能和普通模型榜单直接横比。Databricks Genie则试图处理企业数据分析里的资产发现、业务口径冲突和确定性测试不足,报告准确率从32%提升到90%+。
这些例子指向同一个问题:模型越来越像系统里的一个零件。真正决定可用性的,是编排、权限、测试、回滚和成本控制。
对两类人,影响最直接。
大模型产品与代理系统的技术决策者,不应再用一套聊天评测决定所有选型。更合理的做法,是把评测拆成三层:短问答能力、长任务执行能力、接入真实系统后的风险控制。尤其是Codex这类长期任务代理,采购或集成可以先延后到小范围试点,不要直接全量替换开发流程。
评估开放模型和推理基础设施成本的AI工程团队,则要把“模型能不能用”改成“端到端能不能省钱”。ZAYA1-74B-Preview这类开放基座可以试,但要把后训练成本算进去;vLLM、SGLang这类推理栈也要试,但要用自己的请求分布测延迟和吞吐。
接下来最该看四个变量:Codex长期任务能否稳定交付真实代码变更;GPT-5.5 Cyber这类安全模型如何划定可用边界;ZAYA1经过RL和对齐后能否进入生产;vLLM、SGLang的新模型支持速度能否转成可计费的成本优势。
回到开头,那三天看似平静,是因为没有一个单点新闻足够响。可AI竞争的刀口已经换了位置。现在不是谁喊得最大声,而是谁能把模型、代理、开放许可和推理管线接成可用系统。
