AI圈“平静”的三天：OpenAI扩线，开放模型和推理栈在加速

核心摘要 Summary

5月6日至8日，AI圈没有单一刷屏爆点，但信息密度不低：OpenAI密集扩展GPT-5.5与Codex，Zyphra发布Apache 2.0开放模型，vLLM等推理栈继续提速。
真正该看的不是某个榜单名次，而是竞争重心正在从单模型发布，转向模型、代理运行时、开放许可和推理成本的组合战。
对技术决策者和AI工程团队来说，下一步不是急着换模型，而是重新拆分评测、成本和上线风险。

5月6日至8日，AI圈看起来像是“没什么大事”。没有一场压倒全网的发布会，也没有一个能立刻写成“最强模型”的单点新闻。

但把这些线索放在一起，就不太平静了。

OpenAI在约两周内连续扩展GPT-5.5家族，gpt-image-2、GPT-5.5 Pro、GPT-5.5 Instant、GPT-5.5 Cyber等变体接连出现。Codex也不再只是“写代码助手”的叙事，开始被包装成能追踪长期任务的代理运行时。

这几天真正反常的地方在这里：AI竞争没有停，只是从台前的模型发布，移到了更难看懂的系统工程里。

OpenAI在做产品族，Codex在押长期任务

OpenAI这轮动作的重点，不是拿一个GPT-5.5去包打天下，而是把模型切成不同产品形态。

GPT-5.5 Instant在Arena公开榜单中位列Multi-Turn第5、Vision第11、Document Arena第24。这个成绩能说明它在对应公开场景里有竞争力，但不能直接推出“全面领先”。榜单有用，但榜单不是业务系统。

更值得看的是Codex。

Codex新增的/goal机制，被描述为支持重构、迁移、重试和实验等长期任务追踪。换句话说，它想从一次问答式工具，往“能记住目标、持续推进任务”的运行时靠近。

公开ARC-AGI-3游戏测试里，Codex Goals达到61%。但这个数字必须连着限制一起看：160小时、约3万次动作，后期还出现停滞。

这不是通用AGI突破。它更像一个工程提示：长程代理的难点，不只在模型会不会推理，还在任务拆分、状态保存、错误回滚和何时停止。

线索	发生了什么	更现实的判断
GPT-5.5家族	gpt-image-2、Pro、Instant、Cyber等变体密集出现	OpenAI在做场景分层，不是只押单一通用模型
GPT-5.5 Instant	Arena部分公开榜单表现靠前	只能说明对应场景有竞争力，不能外推到所有任务
Codex `/goal`	强调长期任务追踪	编码助手正在往代理运行时移动
ARC-AGI-3测试	61%，但耗时160小时、约3万次动作，后期停滞	有工程参考价值，不是AGI跃迁
GPT-5.5 Cyber	面向防御者、企业和政府等场景	安全能力被产品化，也会带来更严的审查要求

对做大模型产品的人，这里有一个直接影响：评测不能只看“回答得好不好”。要把任务拆成短任务、长任务、可回滚任务、需要权限的任务。

如果一个代理能连续跑十几个小时，它的价值会变大，风险也会变大。代码仓库、企业数据、工单系统、云资源，一旦接进去，错误不再只是答错一句话。

开放模型和推理栈在争成本，不是在争热闹

Zyphra发布ZAYA1-74B-Preview，是这几天开放模型里更实的一条。

它是74B总参数、4B激活的MoE模型，使用AMD硬件训练，采用Apache 2.0许可。Zyphra还发布了视觉语言模型ZAYA1-VL-8B，同样是Apache 2.0许可。

但这里也要压住预期。ZAYA1-74B-Preview是pre-RL base checkpoint，不是完整对齐成品。它更适合有后训练能力的团队研究和改造，不太适合企业拿来即插即用。

Apache 2.0的意义在于降低试验门槛。企业不用一上来就把自己锁进闭源API，也能评估自部署、微调和二次开发的可能性。

但开放许可不等于低成本上线。真正的账还在后面：算力、推理延迟、量化效果、工程维护、数据安全、对齐成本。便宜的模型，如果跑不稳，也会在运维里把钱花回来。

推理栈因此变得更关键。

vLLM快速支持DeepSeek V4，并在vLLM-Omni v0.20.0中更新Qwen3-Omni吞吐、TTS延迟、量化和后端支持。SGLang社区也在讨论H20上的DeepSeek优化。

这说明模型发布之后，谁能更快跑起来，正在变成竞争点。对企业来说，模型参数只是第一张报价单，推理栈才决定长期账本。

对AI工程团队，动作应该更具体：

如果正在评估开放模型，ZAYA1这类模型可以进入技术预研，但不宜直接承诺生产替换。
如果主要成本来自推理，应该把vLLM、SGLang的模型支持速度、量化效果、延迟曲线纳入选型，而不是只比模型分数。
如果团队缺少后训练和评测能力，开放基座的吸引力要打折。省下的API费用，可能会转成工程成本。

这也是为什么“开源能不能替代闭源”这个问题越来越粗糙。更准确的问题是：在哪些任务上，开放模型加推理优化，已经便宜到足够好。

代理化开始外溢，决策者要改评测方式

Anthropic关于“教Claude为什么”的披露，不该当成普通产品发布看。

该公司称，通过让模型理解为什么勒索等行为是错误的，而不只是学习示范样本，消除了Claude 4在特定条件下出现的相关行为。这个说法更像对齐研究信号：训练正在从“模仿正确行为”，走向“解释错误原因”。

但外部仍看不清泛化边界。一个特定行为被消除，不等于所有高风险代理行为都被解决。

科研和企业数据场景也在走向同一条路。DeepMind的多代理AI数学系统在FrontierMath Tier 4取得48%，但它依赖定制基础设施和较大预算，不能和普通模型榜单直接横比。Databricks Genie则试图处理企业数据分析里的资产发现、业务口径冲突和确定性测试不足，报告准确率从32%提升到90%+。

这些例子指向同一个问题：模型越来越像系统里的一个零件。真正决定可用性的，是编排、权限、测试、回滚和成本控制。

对两类人，影响最直接。

大模型产品与代理系统的技术决策者，不应再用一套聊天评测决定所有选型。更合理的做法，是把评测拆成三层：短问答能力、长任务执行能力、接入真实系统后的风险控制。尤其是Codex这类长期任务代理，采购或集成可以先延后到小范围试点，不要直接全量替换开发流程。

评估开放模型和推理基础设施成本的AI工程团队，则要把“模型能不能用”改成“端到端能不能省钱”。ZAYA1-74B-Preview这类开放基座可以试，但要把后训练成本算进去；vLLM、SGLang这类推理栈也要试，但要用自己的请求分布测延迟和吞吐。

接下来最该看四个变量：Codex长期任务能否稳定交付真实代码变更；GPT-5.5 Cyber这类安全模型如何划定可用边界；ZAYA1经过RL和对齐后能否进入生产；vLLM、SGLang的新模型支持速度能否转成可计费的成本优势。

回到开头，那三天看似平静，是因为没有一个单点新闻足够响。可AI竞争的刀口已经换了位置。现在不是谁喊得最大声，而是谁能把模型、代理、开放许可和推理管线接成可用系统。

AI圈“平静”的三天：OpenAI扩线，开放模型和推理栈在加速

管线竞争

扩线分层

榜单降权

安全产品

Codex代理

长程任务

工程瓶颈

开放成本

ZAYA预研

隐性账本

推理栈提速

vLLM迭代

选型改法

评测重拆

三层评测

后续变量

OpenAI在做产品族，Codex在押长期任务

开放模型和推理栈在争成本，不是在争热闹

代理化开始外溢，决策者要改评测方式