LamBench 榜单：gpt-5.4 领跑，但真正该看的不是名次

人工智能 2026年4月25日

核心摘要 Summary

Victor Taelin 发布 LamBench，用 120 道 Lambda Calculus 题测试大模型的形式推理和代码相关能力。
gpt-5.4 以 110/120 排第一，opus-4.6、gpt-5.3-codex 紧随其后；但 120 题的小榜单不能当通用智能排名。
更重要的问题是：模型会写代码，不等于能在形式系统里稳定计算。

内容导图 Mind Map

LamBench

小榜单照出硬伤

榜单结果

gpt 5.4 暂居第一

第一梯队

opus 4.6 等紧随

5.5 分低

不足以判定退步

评测核心

考形式系统稳定计算

代码骨头

规约替换难靠话术

错步坍塌

形式任务容错极低

边界限制

不能当通用排名

样本偏小

仅 120 道窄题

含金量待证

污染与稳定性未明

现实用法

先补测试再换模型

开发选型

加入形式化内测

企业采购

高风险场景慎迁移

后续变量

扩题与复测决定分量

关键条件

题库、防污染、提示词

Victor Taelin 发布了 LamBench，一个围绕 Lambda Calculus 的 AI 评测榜单。当前 gpt-5.4 以 110/120、91.7% 排第一，opus-4.6 为 108/120，gpt-5.3-codex 为 107/120。gpt-5.5 是 94/120，低于 gpt-5.4。

这件事有意思，不在于又多了一个榜。它把问题从“模型能不能写出像代码的文本”，推到了“模型能不能在形式系统里一步不错地算下去”。在 Lambda Calculus 里，“差之毫厘，谬以千里”不是修辞，是判分规则。

LamBench 目前给出的信息：小样本，硬任务

LamBench 现在只有 120 道题。样本不大，任务很窄。它不能直接等同于 AGI 排名，也不能直接代表日常编程能力。

榜单核心数字如下：

模型	成绩	简短判断
gpt-5.4	110/120，91.7%	当前榜首
opus-4.6	108/120，90.0%	与第一名差 2 题
gpt-5.3-codex	107/120，89.2%	靠近第一梯队
gpt-5.5	94/120，78.3%	分数更低，但不能直接写成退步

gpt-5.5 低于 gpt-5.4，这个数字可以写。把它解释成“模型退步”，证据不够。原始线索没有给出完整版本定位、评测条件、提示词设置和复测结果。没有这些，结论就要收住。

争议也在这里。LamBench 到底测出了真实推理短板，还是又一个容易被专门优化的小众 benchmark？目前只能说，它提供了一个有价值的信号，还不是最终裁判。

为什么重要：它测的是代码能力的骨头

Lambda Calculus 是函数式编程、类型系统和程序语言理论的重要底层参照。它关心抽象、规约、替换、绑定和语义一致性。模型在这里不能靠漂亮解释混过去。

聊天任务错一个细节，用户还能追问。形式系统错一步，后面全塌。铁路早期也有类似分野：能跑一段演示线路，不等于能承受调度、信号、维护和事故责任。类比不完全一样，但结构相似。热闹属于演示，账本属于工程。

这也是 LamBench 比很多花哨评测更硬的地方。它窄，但窄有窄的好处。题目越接近形式规约，模型越难靠语气、常识和模板凑分。

但边界必须说清。120 道题太少。题库来源、防污染设计、运行稳定性、提示词敏感度，都会影响含金量。没有这些补充，LamBench 适合当压力测试，不适合当王冠。

对开发者和评测者的现实影响：别急着换模型，先改用法

最该看这件事的，是三类人：模型评测关注者、AI 开发者、用大模型写代码的技术团队。

对模型评测关注者，LamBench 的价值是补一把窄刀。别只看综合榜。综合榜容易把聊天、知识、代码、推理揉成一团，最后看不清短板。LamBench 至少把“形式规约能力”单独拎了出来。

对 AI 开发者，这个榜单的动作建议很直接：如果你在做代码代理、程序综合、自动证明、解释器相关任务，不要只拿 HumanEval 一类代码生成结果做选型。应当增加形式化、小规模、可复现的内部测试。模型写对函数，不代表它理解等价变换。

对企业技术团队，结论更保守：不要因为一个 120 题榜单立刻迁移主力模型。更合理的做法是延后高风险场景替换，把 LamBench 这类测试加入采购评估。尤其是涉及金融规则、编译链、配置生成、自动修复的场景，错误不是“体验不好”，而是会进生产账本。

接下来最该观察三件事：题库是否扩大；是否说明防污染和评测设置；同一模型在不同提示词、多次运行下是否稳定。如果这三项补不上，LamBench 只是一个亮眼信号。如果补上，它会成为代码模型绕不开的硬门槛。

我更愿意给 LamBench 一个克制的好评。它不负责证明谁最聪明。它负责提醒我们：会写代码只是门面，能把语义算稳，才是骨架。

锐评 Commentary

小榜单不能封王，但能照出硬伤。代码模型真正的分水岭，不在会说，而在算得住。

LamBench大模型评测Lambda Calculus符号推理程序语义抽象规约gpt-5.4opus-4.6Victor TaelinAI 排行榜