Victor Taelin 发布了 LamBench,一个围绕 Lambda Calculus 的 AI 评测榜单。当前 gpt-5.4 以 110/120、91.7% 排第一,opus-4.6 为 108/120,gpt-5.3-codex 为 107/120。gpt-5.5 是 94/120,低于 gpt-5.4。
这件事有意思,不在于又多了一个榜。它把问题从“模型能不能写出像代码的文本”,推到了“模型能不能在形式系统里一步不错地算下去”。在 Lambda Calculus 里,“差之毫厘,谬以千里”不是修辞,是判分规则。
LamBench 目前给出的信息:小样本,硬任务
LamBench 现在只有 120 道题。样本不大,任务很窄。它不能直接等同于 AGI 排名,也不能直接代表日常编程能力。
榜单核心数字如下:
| 模型 | 成绩 | 简短判断 |
|---|---|---|
| gpt-5.4 | 110/120,91.7% | 当前榜首 |
| opus-4.6 | 108/120,90.0% | 与第一名差 2 题 |
| gpt-5.3-codex | 107/120,89.2% | 靠近第一梯队 |
| gpt-5.5 | 94/120,78.3% | 分数更低,但不能直接写成退步 |
gpt-5.5 低于 gpt-5.4,这个数字可以写。把它解释成“模型退步”,证据不够。原始线索没有给出完整版本定位、评测条件、提示词设置和复测结果。没有这些,结论就要收住。
争议也在这里。LamBench 到底测出了真实推理短板,还是又一个容易被专门优化的小众 benchmark?目前只能说,它提供了一个有价值的信号,还不是最终裁判。
为什么重要:它测的是代码能力的骨头
Lambda Calculus 是函数式编程、类型系统和程序语言理论的重要底层参照。它关心抽象、规约、替换、绑定和语义一致性。模型在这里不能靠漂亮解释混过去。
聊天任务错一个细节,用户还能追问。形式系统错一步,后面全塌。铁路早期也有类似分野:能跑一段演示线路,不等于能承受调度、信号、维护和事故责任。类比不完全一样,但结构相似。热闹属于演示,账本属于工程。
这也是 LamBench 比很多花哨评测更硬的地方。它窄,但窄有窄的好处。题目越接近形式规约,模型越难靠语气、常识和模板凑分。
但边界必须说清。120 道题太少。题库来源、防污染设计、运行稳定性、提示词敏感度,都会影响含金量。没有这些补充,LamBench 适合当压力测试,不适合当王冠。
对开发者和评测者的现实影响:别急着换模型,先改用法
最该看这件事的,是三类人:模型评测关注者、AI 开发者、用大模型写代码的技术团队。
对模型评测关注者,LamBench 的价值是补一把窄刀。别只看综合榜。综合榜容易把聊天、知识、代码、推理揉成一团,最后看不清短板。LamBench 至少把“形式规约能力”单独拎了出来。
对 AI 开发者,这个榜单的动作建议很直接:如果你在做代码代理、程序综合、自动证明、解释器相关任务,不要只拿 HumanEval 一类代码生成结果做选型。应当增加形式化、小规模、可复现的内部测试。模型写对函数,不代表它理解等价变换。
对企业技术团队,结论更保守:不要因为一个 120 题榜单立刻迁移主力模型。更合理的做法是延后高风险场景替换,把 LamBench 这类测试加入采购评估。尤其是涉及金融规则、编译链、配置生成、自动修复的场景,错误不是“体验不好”,而是会进生产账本。
接下来最该观察三件事:题库是否扩大;是否说明防污染和评测设置;同一模型在不同提示词、多次运行下是否稳定。如果这三项补不上,LamBench 只是一个亮眼信号。如果补上,它会成为代码模型绕不开的硬门槛。
我更愿意给 LamBench 一个克制的好评。它不负责证明谁最聪明。它负责提醒我们:会写代码只是门面,能把语义算稳,才是骨架。
