DeepSeek V4 Pro 在一个 Python 架构悖论题里想了 3 分多钟,消耗更多推理 token,最后仍给出一个结构完整但错误的方案。GLM-5.2 用约 12 秒、约 800 个推理 token,就判断这个设定不可行。

这个对比来自开发者 Oliver Shrimpton 6 月 18 日的文章《Bigger models are not the way》。原文借 GLM-5.2、GPT-5.5、DeepSeek V4 Pro、Fable 5 等模型的基准和幻觉率,提出一个不太舒服的问题:继续堆参数、堆训练数据、堆推理预算,换来的是真能力,还是更会把错误讲圆?

这篇文章不能当行业定论。它依赖 Artificial Analysis 的 AA 指标,以及 OpenRouter 上的有限测试环境。题集、部署方式、temperature、推理强度都会影响结果。

但它点中了模型选型里的硬问题:大模型仍然强,可“更大”已经不等于“更可靠”。

GLM-5.2让闭源大模型的领先没那么绝对

原文里最值得看的是 GLM-5.2。

它是 Z.ai 的 MIT 许可开源权重模型,753B 参数,约 40B active。在 Artificial Analysis Intelligence Index 上,它接近 GPT-5.5 和 Fable 5:与 GPT-5.5 约差 4 分,与 Fable 5 约差 9 分。

这不是说 GLM-5.2 全面超过闭源模型。AA 指标只能代表一部分能力面。

但对采购和技术负责人来说,信号已经够明确:闭源巨模型的优势还在,差距却不再天然大到“不用测”。

模型原文提到的规模信息AA-Omniscience 幻觉率该怎么理解
DeepSeek V4 Pro原文列为 1.6T 参数、49B active94%能力强,不等于会承认不知道
GPT-5.5闭源,规模为外部估算86%纸面能力高,但真实性风险需要单独测
Fable 5闭源48%领先仍在,可靠性不是最优
Opus 4.8闭源,规模为外部估算36%幻觉控制相对更好
GLM-5.2753B 参数、约 40B active,MIT 开源权重28%分数接近,幻觉率更低

这里要特别小心:GPT-5.5、Opus 4.8 的 1-2T 规模只是外部估算,不是官方确认。不能把它们写成确定参数。

更稳妥的判断是:至少在这组指标里,一个开放权重模型已经把“可用性差距”拉小了。企业如果只按品牌和参数下单,容易多付一笔没有被业务结果证明的钱。

真正危险的不是答错,而是自信地答错

AA-Omniscience 测的是另一件事:模型遇到无法回答的问题时,是否愿意承认不知道。

原文给出的幻觉率很刺眼:DeepSeek V4 Pro 为 94%,GPT-5.5 为 86%,Fable 5 为 48%,Opus 4.8 为 36%,GLM-5.2 为 28%。

如果这个指标成立,问题就不是“模型会不会犯错”。所有模型都会犯错。

问题是:有些模型在不确定时,仍会把答案包装得很像真的。

Python 架构悖论题就是这个意思。题目要求单线程任务在不让出执行权、也不使用系统轮询的情况下处理多路 I/O。这个设定本身不可行。

DeepSeek V4 Pro 在 OpenRouter 环境中使用更多推理 token,耗时约 3 分 26 秒,仍输出了错误方案。GLM-5.2 更快识别了不可行。

这个案例不能推出 DeepSeek V4 Pro 在所有编程任务上更差。原文测试有变量:temperature 1、高推理强度、不同服务商的 FP8 部署,都可能改变表现。

但它足以提醒两类人。

做 AI 产品的人,不该只看模型“能不能答难题”。还要看它在合规问答、风控审核、架构评审里,能不能停下来。

做开发工具的人,也不该只奖励“完整代码”和“长推理链”。在不可满足条件下,拒答和指出矛盾,本身就是能力。

选型要从参数榜,改成三本账

我更在意的是,模型选型流程要变。

过去很多团队先看榜单、上下文长度、供应商品牌,再看价格。现在不够了。一个模型如果多花十倍推理 token 才产出错误答案,贵的不只是 API 账单。

后面还有人工复核、线上回滚、客户解释,以及安全事故的责任链。

更现实的做法,是把评测拆成三本账:

  • 能力账.在自家业务集上的真实正确率,而不是通用榜单名次。
  • 真实性账.遇到缺信息、条件矛盾、不可执行任务时,是否能承认不确定。
  • 效率账.完成一次可验收任务的总 token、延迟和人工复核成本。

这会影响具体动作。

AI 产品负责人如果正在换模型,不妨把“一步迁移”改成灰度测试。先拿历史工单、失败案例、合规边界题跑一轮,再决定是否扩大流量。

开发团队如果在做 Agent 或代码助手,应把“陷阱题”和“拒答质量”放进评测集。不要只看模型写了多少,而要看它什么时候不该写。

现实约束也要讲清楚。

OpenAI、Anthropic、Google、Meta 仍在训练更强模型,规模路线没有消失。大模型在复杂推理、长上下文、多模态和工具调用上,仍可能有优势。

开源阵营也不是天然便宜。部署、量化、显存、工程维护、合规审查,都会变成成本。

所以这不是“闭源不行,开源胜利”的故事。更像是模型采购从看招牌,进入看账本。

接下来最该看的也不是谁宣布更大参数,而是三件事:同一业务集上的正确率,模型承认不确定性的稳定性,完成一次可验收任务的总成本。

如果这三项没有同时变好,“更大”就只是更贵的风险放大器。