Codex后台的推理日志里,gpt-5.5的reasoning_output_tokens经常精确停在516——不是515,不是517,就是516。有开发者把这个巧合翻出来查了一遍,发现这根本不是个例,而是统计学意义上极不自然的聚集:2026年2月到6月的39万条响应记录里,gpt-5.5卡在516个推理token的比例,是其他模型基线的33.6倍。这份issue(openai/codex#30364)没有给结论,但它把社区里模糊的"gpt-5.5变笨了"的抱怨,变成了一份可以复核的数据异常。

39万条记录,异常全压在一个模型上

数据本身很直白。作者统计了865个会话、390,195条响应,gpt-5.5只占全部响应的19.3%,却贡献了82.0%的精确516事件。它的"精确516/≥516"比率是44.0%,而非gpt-5.5模型的这个比率只有1.3%。换算下来,同样是"推理token刚好用到516这个数",gpt-5.5撞上的概率是别人的三十多倍。

疑点全压在gpt-5.5身上 19.3% gpt-5.5占全部响应 82.0% 却占全部精确516事件 33.6x 比非5.5基线高出的倍数

更细的模型对比也支持同一个方向:

模型响应记录数精确516/≥516比率
gpt-5.575,40144.0%
gpt-5.425,21419.8%
gpt-5.2247,5750.34%
gpt-5.3-codex13,3330.0%
gpt-5.3-codex-spark26,1790.0%

516之外,还有1034、1552两个疑似边界值反复出现——正好是516的整数倍,不像自然生成的分布,更像有人在某个位置放了一堵墙。

反常之处:token越用越少,却越爱撞同一个数

正常逻辑是,任务越复杂,推理token应该越多、分布也应该越自然分散。但作者按月拆开看,发现的是另一幅图景:精确516的聚集率从2月的0.11%一路涨到5月的53.30%,6月回落到35.84%;与此同时,同期的推理token强度反而在下降——P90值从2月的772掉到5月的344。

占比越涨,推理越短 左侧长条=精确516占比(2-6月) 右侧数字=同月P90推理token 2月 772 3月 723 4月 669 5月 344 6月 515

这个组合很反常。如果只是"厂商省成本、整体调低推理预算",token强度下降是合理的;如果只是"某些任务恰好需要更多推理",聚集率上升也说得通。但两件事一起看——token越用越少,却越频繁精确撞在同一个数字上——更像是有一道硬性截断线,把本该继续往下算的响应,在某个刻度上直接掐断了。

这条线索还有个更早的旁证:此前的issue #29353报告过,gpt-5.5在xhigh档位下,推理恰好停在516个token时给出了错误答案。#30364的作者说得很克制,他没有说这证明了"隐藏思维链截断",只说这是一个"看起来像阈值化推理预算"的可疑聚合模式。

  • 风险.如果516是一个隐性预算上限,用户在不知情的情况下可能拿到被提前截断、质量打折的答案,而计费和档位选择上却看不出任何差异。

社区吵成两派,基准测试给出第三种答案

围绕gpt-5.5"变笨"的讨论其实早就存在。Reddit的r/codex上,既有专门讨论"516 reasoning tokens"这个现象的帖子,也有另一条独立讨论"gpt-5.5上线以来性能持续下滑"的长帖;GitHub上也有用户反映gpt-5.5 Fast感觉变慢、卡顿。这些吐槽大多停留在主观感受层面,证明力有限。

但第三方基准站点marginlab.ai的数据又给出了相反的信号:gpt-5.5在xhigh档位下,仍然被列为编程能力最强的模型之一。这就出现了一个耐人寻味的矛盾——如果模型整体变弱,顶格测试成绩不该这么好看。

比较合理的调和方式是把"变笨"这个笼统说法拆开:高强度档位的峰值能力可能没有下降,但低强度或某些路由路径下的一致性变差了。基准测试跑的是最佳状态,真实工作流碰到的却是路由分配后的平均状态,两者本来就不是同一回事。

峰值能力没跌,一致性先跌了。

证据链断在哪,官方话术又打的什么算盘

有一点必须老实交代:这次针对issue #30364和#29353原文的检索,都没能独立找到这两个页面本身。也就是说,目前这份分析只停留在作者自述层面,还没有被第三方公开引用或复现,读者不该把它当成"已经坐实"的结论,而应该看作一份等待官方回应的一线观察。

再往深看一层,还有一处叙事上的张力。OpenAI在介绍GPT-5系列时,把"用更少的输出token达到更好的推理效果"包装成效率提升的正面卖点。这句话和"516定值封顶"这个现象,其实可以是同一件事的两种讲法——问题是,如果减少的token是靠算法优化省下来的,分布应该依然自然浮动;如果是靠一刀切的预算上限省下来的,才会精确撞在同一个数字上。效率话术能不能自证清白,关键就在这一条区别上,而这恰恰是目前谁都没有正面回答的部分。

Codex的用户接下来该盯的不是"模型是不是又变笨了"这种模糊感受,而是三件更具体的事:OpenAI会不会正面回应516/1034/1552到底是不是内部阈值;精确516的响应错误率是否真的显著高于长推理响应;有没有人用同样的方法论在独立数据集上把这条曲线再跑一遍。日志摆在那里,516这个数字还会不会继续跳出来,答案不该只靠猜。