Victor Taelin 发布了 LamBench,一个围绕 Lambda Calculus 的 AI 评测榜单。当前 gpt-5.4 以 110/120、91.7% 排第一,opus-4.6 为 108/120,gpt-5.3-codex 为 107/120。gpt-5.5 是 94/120,低于 gpt-5.4。

这件事有意思,不在于又多了一个榜。它把问题从“模型能不能写出像代码的文本”,推到了“模型能不能在形式系统里一步不错地算下去”。在 Lambda Calculus 里,“差之毫厘,谬以千里”不是修辞,是判分规则。

LamBench 目前给出的信息:小样本,硬任务

LamBench 现在只有 120 道题。样本不大,任务很窄。它不能直接等同于 AGI 排名,也不能直接代表日常编程能力。

榜单核心数字如下:

模型成绩简短判断
gpt-5.4110/120,91.7%当前榜首
opus-4.6108/120,90.0%与第一名差 2 题
gpt-5.3-codex107/120,89.2%靠近第一梯队
gpt-5.594/120,78.3%分数更低,但不能直接写成退步

gpt-5.5 低于 gpt-5.4,这个数字可以写。把它解释成“模型退步”,证据不够。原始线索没有给出完整版本定位、评测条件、提示词设置和复测结果。没有这些,结论就要收住。

争议也在这里。LamBench 到底测出了真实推理短板,还是又一个容易被专门优化的小众 benchmark?目前只能说,它提供了一个有价值的信号,还不是最终裁判。

为什么重要:它测的是代码能力的骨头

Lambda Calculus 是函数式编程、类型系统和程序语言理论的重要底层参照。它关心抽象、规约、替换、绑定和语义一致性。模型在这里不能靠漂亮解释混过去。

聊天任务错一个细节,用户还能追问。形式系统错一步,后面全塌。铁路早期也有类似分野:能跑一段演示线路,不等于能承受调度、信号、维护和事故责任。类比不完全一样,但结构相似。热闹属于演示,账本属于工程。

这也是 LamBench 比很多花哨评测更硬的地方。它窄,但窄有窄的好处。题目越接近形式规约,模型越难靠语气、常识和模板凑分。

但边界必须说清。120 道题太少。题库来源、防污染设计、运行稳定性、提示词敏感度,都会影响含金量。没有这些补充,LamBench 适合当压力测试,不适合当王冠。

对开发者和评测者的现实影响:别急着换模型,先改用法

最该看这件事的,是三类人:模型评测关注者、AI 开发者、用大模型写代码的技术团队。

对模型评测关注者,LamBench 的价值是补一把窄刀。别只看综合榜。综合榜容易把聊天、知识、代码、推理揉成一团,最后看不清短板。LamBench 至少把“形式规约能力”单独拎了出来。

对 AI 开发者,这个榜单的动作建议很直接:如果你在做代码代理、程序综合、自动证明、解释器相关任务,不要只拿 HumanEval 一类代码生成结果做选型。应当增加形式化、小规模、可复现的内部测试。模型写对函数,不代表它理解等价变换。

对企业技术团队,结论更保守:不要因为一个 120 题榜单立刻迁移主力模型。更合理的做法是延后高风险场景替换,把 LamBench 这类测试加入采购评估。尤其是涉及金融规则、编译链、配置生成、自动修复的场景,错误不是“体验不好”,而是会进生产账本。

接下来最该观察三件事:题库是否扩大;是否说明防污染和评测设置;同一模型在不同提示词、多次运行下是否稳定。如果这三项补不上,LamBench 只是一个亮眼信号。如果补上,它会成为代码模型绕不开的硬门槛。

我更愿意给 LamBench 一个克制的好评。它不负责证明谁最聪明。它负责提醒我们:会写代码只是门面,能把语义算稳,才是骨架。